16 research outputs found
A bio-inspired image coder with temporal scalability
We present a novel bio-inspired and dynamic coding scheme for static images.
Our coder aims at reproducing the main steps of the visual stimulus processing
in the mammalian retina taking into account its time behavior. The main novelty
of this work is to show how to exploit the time behavior of the retina cells to
ensure, in a simple way, scalability and bit allocation. To do so, our main
source of inspiration will be the biologically plausible retina model called
Virtual Retina. Following a similar structure, our model has two stages. The
first stage is an image transform which is performed by the outer layers in the
retina. Here it is modelled by filtering the image with a bank of difference of
Gaussians with time-delays. The second stage is a time-dependent
analog-to-digital conversion which is performed by the inner layers in the
retina. Thanks to its conception, our coder enables scalability and bit
allocation across time. Also, our decoded images do not show annoying artefacts
such as ringing and block effects. As a whole, this article shows how to
capture the main properties of a biological system, here the retina, in order
to design a new efficient coder.Comment: 12 pages; Advanced Concepts for Intelligent Vision Systems (ACIVS
2011
Streaming an image through the eye: The retina seen as a dithered scalable image coder
We propose the design of an original scalable image coder/decoder that is
inspired from the mammalians retina. Our coder accounts for the time-dependent
and also nondeterministic behavior of the actual retina. The present work
brings two main contributions: As a first step, (i) we design a deterministic
image coder mimicking most of the retinal processing stages and then (ii) we
introduce a retinal noise in the coding process, that we model here as a dither
signal, to gain interesting perceptual features. Regarding our first
contribution, our main source of inspiration will be the biologically plausible
model of the retina called Virtual Retina. The main novelty of this coder is to
show that the time-dependent behavior of the retina cells could ensure, in an
implicit way, scalability and bit allocation. Regarding our second
contribution, we reconsider the inner layers of the retina. We emit a possible
interpretation for the non-determinism observed by neurophysiologists in their
output. For this sake, we model the retinal noise that occurs in these layers
by a dither signal. The dithering process that we propose adds several
interesting features to our image coder. The dither noise whitens the
reconstruction error and decorrelates it from the input stimuli. Furthermore,
integrating the dither noise in our coder allows a faster recognition of the
fine details of the image during the decoding process. Our present paper goal
is twofold. First, we aim at mimicking as closely as possible the retina for
the design of a novel image coder while keeping encouraging performances.
Second, we bring a new insight concerning the non-deterministic behavior of the
retina.Comment: arXiv admin note: substantial text overlap with arXiv:1104.155
Clasificacion de imagenes con bag of visual words
Cap. 10- pp. 181-200La clasificación de imágenes es un proceso mediante el cual un ordenador es capaz de decidir qué contenidos están presentes en una imagen, esto es a qué clase pertenece o qué objetos contiene. En los últimos años el modelo Bag of Visual Words (BoVW) se ha convertido en una de las soluciones más utilizadas para realizar esta tarea. El término visual word (palabra visual, o simplemente “palabra”) hace referencia a una pequeña parte de una imagen. El BoVW consta de varias etapas: un muestreo de puntos característicos (keypoints) de la imagen, la descripción de los mismos, la creación de un diccionario de palabras visuales mediante un proceso de agrupamiento, la representación de las imágenes a nivel global utilizando este diccionario y, finalmente, una clasificación de estas representaciones para decidir la clase a la que pertenece. En este capítulo se explicará el modelo BoVW de clasificación de imágenes, detallando estas etapas
SIFT (Scale Invariant Feature Transform)
Cap. 8, pp. 131-157SIFT es un método que permite detectar puntos característicos en una imagen y luego describirlos
mediante un histograma orientado de gradientes. Y además, lo hace de forma que la localización y
la descripción presenta una gran invarianza a la orientación, la posición y la escala. Cada punto
característico queda, por lo tanto, definido mediante su vector de características de 128 elementos, y
se obtiene la información de su posición en coordenadas de la imagen, la escala a la que se encontró
y la orientación dominante de la región alrededor de dicho punto.
En este capítulo se explican los pasos necesarios para obtener descriptores SIFT en una imagen. Se
presenta un ejercicio sencillo que sirve para ilustrar numéricamente cómo se obtiene el descriptor a
partir de la región que rodea un punto característico. También se comentan las posibilidades de
SIFT para realizar reconocimiento de objetos presentes en una imagen. Y, finalmente, se habla
brevemente de algunas extensiones del método así como de otros descriptores de imagen
relacionados que han surgido posteriormente
Detection of regular boundaries in noisy and textured images : a multiscale active contour approach
This article deals with the detection of edges in noisy and textured images . After an overview of the shortcomings of local operators,
we assess active contour models, which constrain the detection using a priori information . The implementation of active contours
is difficult due to several problems . We suggest two methods which make this global approach more robust and easier to use . On
one hand, the parameters are set using a calibration algorithm which relies on geometrical a priori . The value of the parameters
depends upon the maximum curvature . On the other hand, a multiscale strategy reduces the need for an accurate initialization of
active contours . The convergence is robust at coarse scales and the localization of edges is enhanced at fine scales . Several efficient
algorithms are proposed to track contours over decreasing scale, using a prediction on the distorsion of boundaries caused by
gaussian blurring . The experiments show the validity of our approach and the relevance of a cooperation between segmentation
processes, especially to solve the initialization problem .Cet article traite de la détection de contours dans des images fortement bruitées et texturées. Après avoir exposé les limitations des opérateurs locaux, nous suggérons de contraindre la détection grâce aux modèles de contours actifs, qui introduisent des informations a priori sur la géométrie et la régularité des objets cherchés. La mise en oeuvre des contours actifs est difficile en raison de nombreux problèmes pratiques. Nous proposons deux techniques rendant cette approche globale plus robuste et plus facile d'emploi. D'une part, nous facilitons le choix des paramètres en adaptant un algorithme de calibrage ayant une explication géométrique : les paramètres dépendent de la valeur de la courbure maximale. L'association des contours actifs et d'une représentation multiéchelle permet d'autre part de réduire la dépendance vis-à-vis de l'initialisation. Après une convergence robuste vers une solution grossière, la localisation des contours est améliorée en diminuant progressivement l'échelle d'analyse. Nous proposons alors plusieurs techniques efficaces de suivi des contours dans l'espace-échelle, s'appuyant sur une prédiction du déplacement des frontières sous l'effet du lissage gaussien. Les résultats expérimentaux montrent la validité de notre approche, et mettent en évidence l'apport d'une collaboration entre processus de segmentation, en particulier pour automatiser l'initialisation