2 research outputs found
Contributions à la sonification d’image et à la classification de sons
L’objectif de cette thèse est d’étudier d’une part le problème de sonification d’image
et de le solutionner à travers de nouveaux modèles de correspondance entre domaines
visuel et sonore. D’autre part d’étudier le problème de la classification de son et de le résoudre
avec des méthodes ayant fait leurs preuves dans le domaine de la reconnaissance
d’image.
La sonification d’image est la traduction de données d’image (forme, couleur, texture,
objet) en sons. Il est utilisé dans les domaines de l’assistance visuelle et de l’accessibilité
des images pour les personnes malvoyantes. En raison de sa complexité, un
système de sonification d’image qui traduit correctement les données d’image en son de
manière intuitive n’est pas facile à concevoir.
Notre première contribution est de proposer un nouveau système de sonification
d’image de bas-niveau qui utilise une approche hiérarchique basée sur les caractéristiques
visuelles. Il traduit, à l’aide de notes musicales, la plupart des propriétés d’une
image (couleur, gradient, contour, texture, région) vers le domaine audio, de manière
très prévisible et donc est facilement ensuite décodable par l’être humain.
Notre deuxième contribution est une application Android de sonification de haut
niveau qui est complémentaire à notre première contribution car elle implémente la traduction
des objets et du contenu sémantique de l’image. Il propose également une base
de données pour la sonification d’image.
Finalement dans le domaine de l’audio, notre dernière contribution généralise le motif
binaire local (LBP) Ă 1D et le combine avec des descripteurs audio pour faire de
la classification de sons environnementaux. La méthode proposée surpasse les résultats
des méthodes qui utilisent des algorithmes d’apprentissage automatique classiques et
est plus rapide que toutes les méthodes de réseau neuronal convolutif. Il représente un
meilleur choix lorsqu’il y a une rareté des données ou une puissance de calcul minimale.The objective of this thesis is to study on the one hand the problem of image sonification
and to solve it through new models of mapping between visual and sound domains.
On the other hand, to study the problem of sound classification and to solve it with
methods which have proven track record in the field of image recognition.
Image sonification is the translation of image data (shape, color, texture, objects)
into sounds. It is used in vision assistance and image accessibility domains for visual
impaired people. Due to its complexity, an image sonification system that properly conveys
the image data to sound in an intuitive way is not easy to design.
Our first contribution is to propose a new low-level image sonification system which
uses an hierarchical visual feature-based approach to translate, usingmusical notes, most
of the properties of an image (color, gradient, edge, texture, region) to the audio domain,
in a very predictable way in which is then easily decodable by the human being.
Our second contribution is a high-level sonification Android application which is
complementary to our first contribution because it implements the translation to the audio
domain of the objects and the semantic content of an image. It also proposes a dataset
for an image sonification.
Finally, in the audio domain, our third contribution generalizes the Local Binary
Pattern (LBP) to 1D and combines it with audio features for an environmental sound
classification task. The proposed method outperforms the results of methods that uses
handcrafted features with classical machine learning algorithms and is faster than any
convolutional neural network methods. It represents a better choice when there is data
scarcity or minimal computing power
Contributions à la fusion de segmentations et à l’interprétation sémantique d’images
Cette thèse est consacrée à l’étude de deux problèmes complémentaires, soit la fusion
de segmentation d’images et l’interprétation sémantique d’images. En effet, dans un premier temps,
nous proposons un ensemble d’outils algorithmiques permettant d’améliorer
le résultat final de l’opération de la fusion. La segmentation d’images est une étape de
prétraitement fréquente visant à simplifier la représentation d’une image par un ensemble
de régions significatives et spatialement cohérentes (également connu sous le nom de «
segments » ou « superpixels ») possédant des attributs similaires (tels que des parties
cohérentes des objets ou de l’arrière-plan). À cette fin, nous proposons une nouvelle
méthode de fusion de segmentation au sens du critère de l’Erreur de la Cohérence Globale
(GCE), une métrique de perception intéressante qui considère la nature multi-échelle de
toute segmentation de l’image en évaluant dans quelle mesure une carte de segmentation
peut constituer un raffinement d’une autre segmentation. Dans un deuxième temps,
nous présentons deux nouvelles approches pour la fusion des segmentations au sens de
plusieurs critères en nous basant sur un concept très important de l’optimisation combinatoire,
soit l’optimisation multi-objectif. En effet, cette méthode de résolution qui
cherche à optimiser plusieurs objectifs concurremment a rencontré un vif succès dans
divers domaines. Dans un troisième temps, afin de mieux comprendre automatiquement
les différentes classes d’une image segmentée, nous proposons une approche nouvelle
et robuste basée sur un modèle à base d’énergie qui permet d’inférer les classes les plus
probables en utilisant un ensemble de segmentations proches (au sens d’un certain critère)
issues d’une base d’apprentissage (avec des classes pré-interprétées) et une série de
termes (d’énergie) de vraisemblance sémantique.This thesis is dedicated to study two complementary problems, namely the fusion
of image segmentation and the semantic interpretation of images. Indeed, at first we
propose a set of algorithmic tools to improve the final result of the operation of the
fusion. Image segmentation is a common preprocessing step which aims to simplify
the image representation into significant and spatially coherent regions (also known as
segments or super-pixels) with similar attributes (such as coherent parts of objects or
the background). To this end, we propose a new fusion method of segmentation in the
sense of the Global consistency error (GCE) criterion. GCE is an interesting metric of
perception that takes into account the multiscale nature of any segmentations of the
image while measuring the extent to which one segmentation map can be viewed as
a refinement of another segmentation. Secondly, we present two new approaches for
merging multiple segmentations within the framework of multiple criteria based on a
very important concept of combinatorial optimization ; the multi-objective optimization.
Indeed, this method of resolution which aims to optimize several objectives concurrently
has met with great success in many other fields. Thirdly, to better and automatically
understand the various classes of a segmented image we propose an original and reliable
approach based on an energy-based model which allows us to deduce the most likely
classes by using a set of identically partitioned segmentations (in the sense of a certain
criterion) extracted from a learning database (with pre-interpreted classes) and a set of
semantic likelihood (energy) term