22 research outputs found

    Extraction automatique de contour de lèvre à partir du modèle CLNF

    No full text
    International audienceDans cet article nous proposons une nouvelle solution pour extraire le contour interne des lèvres d'un locuteur sans utiliser d'artifices. La méthode s'appuie sur un algorithme récent d'extraction du contour de visage développé en vision par ordinateur, CLNF pour Constrained Local Neural Field. Cet algorithme fournit en particulier 8 points caractéristiques délimitant le contour interne des lèvres. Appliqué directement à nos données audio-visuelles du locuteur, le CLNF donne de très bons résultats dans environ 70% des cas. Des erreurs subsistent cependant pour le reste des cas. Nous proposons des solutions pour estimer un contour raisonnable des lèvres à partir des points fournis par CLNF utilisant l'interpolation par spline permettant de corriger ses erreurs et d'extraire correctement les paramètres labiaux classiques. Les évaluations sur une base de données de 179 images confirment les performances de notre algorithme. ABSTRACT Automatic lip contour extraction using CLNF model. In this paper a new approach to extract the inner contour of the lips of a speaker without using artifices is proposed. The method is based on a recent face contour extraction algorithm developed in computer vision. This algorithm, which is called Constrained Local Neural Field (CLNF), provides 8 characteristic points (landmarks) defining the inner contour of the lips. Applied directly to our audiovisual data of the speaker, CLNF gives very satisfactory results in about 70% of cases. However, errors exist for the remaining cases. We offer solutions for estimating a reasonable inner lip contour from the landmarks provided by CLNF based on spline to correct its bad behaviors and to extract the suitable labial parameters A, B and S. The evaluations on a 179 image database confirm performance of our algorithm. MOTS-CLES : modèle CLNF, spline, contour des lèvres, paramètres labiaux, parole visuelle

    A Robust Face Recognition Algorithm for Real-World Applications

    Get PDF
    The proposed face recognition algorithm utilizes representation of local facial regions with the DCT. The local representation provides robustness against appearance variations in local regions caused by partial face occlusion or facial expression, whereas utilizing the frequency information provides robustness against changes in illumination. The algorithm also bypasses the facial feature localization step and formulates face alignment as an optimization problem in the classification stage

    Caractérisation des cris des nourrissons en vue du diagnostic précoce de différentes pathologies

    Get PDF
    L’utilisation des signaux de cris dans le diagnostic se base sur les théories qui ont été proposées par les différents chercheurs dans le domaine. Le principal objectif de leurs travaux était l’analyse spectrographique ainsi que la modélisation des signaux de cris. Ils ont démontré que les caractéristiques acoustiques des cris des nouveau-nés sont liées à des conditions médicales particulières. Cette thèse est destinée à contribuer à l’amélioration de la précision de la reconnaissance des cris pathologiques par la combinaison de plusieurs paramètres acoustiques issus de l'analyse spectrographique et des paramètres qui qualifient les cordes et le conduit vocal. Car les caractéristiques acoustiques représentant le conduit vocal ont été largement utilisées pour la classification des cris, alors que les caractéristiques des cordes vocales pour la reconnaissance automatique des cris, ainsi que leurs techniques efficaces d’extraction n’ont pas été exploitées. Pour répondre à cet objectif, nous avons procédé en premier lieu à une caractérisation qualitative des cris des nouveau-nés sains et malades en utilisant les caractéristiques qui ont été définies dans la littérature et qui qualifient le comportement des cordes et du conduit vocal pendant le cri. Cette étape nous a permis d’identifier les caractéristiques les plus importantes dans la différenciation des cris pathologiques étudiés. Pour l’extraction des caractéristiques sélectionnées, nous avons implémenté des méthodes de mesures efficaces permettant de dépasser la surestimation et la sous-estimation des caractéristiques. L’approche de quantification proposée et utilisée dans ce travail facilite l’analyse automatique des cris et permet une utilisation efficace de ces caractéristiques dans le système de diagnostic. Nous avons procédé aussi à des tests expérimentaux pour la validation de toutes les approches introduites dans cette thèse. Les résultats sont satisfaisants et montrent une amélioration dans la reconnaissance des cris par pathologie. Les travaux réalisés sont présentés dans cette thèse sous forme de trois articles publiés dans différents journaux. Deux autres articles publiés dans des comptes rendus de conférences avec comité de lecture sont présentés en annexes

    Discriminative connectionist approaches for automatic speech recognition in cars

    Get PDF
    The first part of this thesis is devoted to the evaluation of approaches which exploit the inherent redundancy of the speech signal to improve the noise robustness. On the basis of this evaluation on the AURORA 2000 database, we further study in detail two of the evaluated approaches. The first of these approaches is the hybrid RBF/HMM approach, which is an attempt to combine the superior classification performance of radial basis functions (RBFs) with the ability of HMMs to model time variation. The second approach is using neural networks to non-linearly reduce the dimensionality of large feature vectors including context frames. We propose the use of different MLP topologies for that purpose. Experiments on the AURORA 2000 database reveal that the performance of the first approach is similar to the performance of systems based on SCHMMs. The second approach cannot outperform the performance of linear discriminant analysis (LDA) on a database recorded in real car environments, but it is on average significantly better than LDA on the AURORA 2000 database.Im ersten Teil dieser Arbeit werden bestehende Verfahren zur Erhöhung der Robustheit von Spracherkennungssystemen in lauten Umgebungen evaluiert, die auf der Ausnutzung der Redundanz im Sprachsignal basieren. Auf der Grundlage dieser Evaluation auf der AURORA 2000 Datenbank werden zwei spezielle Ansätze weiter ausgearbeitet und detalliert analysiert. Der erste dieser Ansätze verbindet die herausragende Klassifikationsleistung von neuronalen Netzen mit radialen Basisfunktionen (RBF) mit der Fähigkeit von Hidden-Markov-Modellen (HMM), Zeitveränderlichkeiten zu modellieren. In einem zweiten Ansatz werden NN zur nichtlinearen Dimensionsreduktion hochdimensionaler Kontextvektoren in unterschiedlichen Netzwerk-Topologien untersucht. In Experimenten konnte gezeigt werden, dass der erste dieser Ansätze für die AURORA-Datenbank eine ähnliche Leistungsfähigkeit wie semikontinuierliche HMM (SCHMM) aufweist. Der zweite Ansatz erzielt auf einer im Kraftfahrzeug aufgenommenen Datenbank keine Verbesserung gegenüber den klassischen linearen Ansätzen zu Dimensionsreduktion (LDA), erweist sich aber auf der AURORA-Datenbank als signifikan

    On the design of fast and efficient wavelet image coders with reduced memory usage

    Full text link
    Image compression is of great importance in multimedia systems and applications because it drastically reduces bandwidth requirements for transmission and memory requirements for storage. Although earlier standards for image compression were based on the Discrete Cosine Transform (DCT), a recently developed mathematical technique, called Discrete Wavelet Transform (DWT), has been found to be more efficient for image coding. Despite improvements in compression efficiency, wavelet image coders significantly increase memory usage and complexity when compared with DCT-based coders. A major reason for the high memory requirements is that the usual algorithm to compute the wavelet transform requires the entire image to be in memory. Although some proposals reduce the memory usage, they present problems that hinder their implementation. In addition, some wavelet image coders, like SPIHT (which has become a benchmark for wavelet coding), always need to hold the entire image in memory. Regarding the complexity of the coders, SPIHT can be considered quite complex because it performs bit-plane coding with multiple image scans. The wavelet-based JPEG 2000 standard is still more complex because it improves coding efficiency through time-consuming methods, such as an iterative optimization algorithm based on the Lagrange multiplier method, and high-order context modeling. In this thesis, we aim to reduce memory usage and complexity in wavelet-based image coding, while preserving compression efficiency. To this end, a run-length encoder and a tree-based wavelet encoder are proposed. In addition, a new algorithm to efficiently compute the wavelet transform is presented. This algorithm achieves low memory consumption using line-by-line processing, and it employs recursion to automatically place the order in which the wavelet transform is computed, solving some synchronization problems that have not been tackled by previous proposals. The proposed encodeOliver Gil, JS. (2006). On the design of fast and efficient wavelet image coders with reduced memory usage [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1826Palanci

    Caractéristiques acoustiques des voyelles fermées tendues, relâchées et allongées en français québécois

    Get PDF
    Tableau d’honneur de la Faculté des études supérieures et postdoctorales, 2013-2014.L’objectif de cette contribution est de décrire acoustiquement les variantes tendues, relâchées et allongées des voyelles fermées /i y u/ en français québécois, qui, sous l’accent, se retrouvent respectivement en syllabe ouverte, en syllabe fermée et en syllabe fermée par une consonne allongeante. 1350 occurrences extraites de la parole de 30 locuteurs de Rouyn-Noranda, de Saguenay et de Québec ont été analysées. Leur durée a été relevée, puis la fréquence fondamentale et la fréquence centrale des trois premiers formants (F1, F2, F3) ont été estimées à 25, 50 et 75 % de cette durée. Les variantes tendues présentent le F1 le plus bas et les relâchées, le F1 le plus élevé ; les allongées se situant entre les deux. En cours d’émission, les tendues et les allongées se tendent, mais les relâchées se centralisent. Les allongées sont celles qui présentent les trajectoires les plus importantes dans un diagramme F1 / F2.This study aims to acoustically describe tense, lax and lengthened variants of close vowels /i y u/ in Quebec French which, under stress, are found in open syllable, closed syllable and syllable closed by a lengthening consonant, respectively. To do so, we analysed the speech of 30 speakers from Rouyn-Noranda, Saguenay and Quebec who produced 1350 tokens of the variants under study. Their duration have been measured then the fundamental frequency and the central frequency of the first three formants (F1, F2, F3) have been estimated at 25, 50 and 75% of this duration. Tense variants exhibit the lowest F1 values while lax variants present the highest ones; the lengthened variants taking place in between. During the emission, lengthened variants show the most important trajectories in an F1 / F2 plane

    Caractéristiques acoustiques des voyelles fermées tendues, relâchées et allongées en français québécois

    Get PDF
    L'objectif de cette contribution est de décrire acoustiquement les variantes tendues, relâchées et allongées des voyelles fermées /i y u/ en français québécois, qui, sous l'accent, se retrouvent respectivement en syllabe ouverte, en syllabe fermée et en syllabe fermée par une consonne allongeante. 1350 occurrences extraites de la parole de 30 locuteurs de Rouyn-Noranda, de Saguenay et de Québec ont été analysées. Leur durée a été relevée, puis la fréquence fondamentale et la fréquence centrale des trois premiers formants (Fi, F2, F3) ont été estimées à 25, 50 et 75 % de cette durée. Les variantes tendues présentent le Fi le plus bas et les relâchées, le Fi le plus élevé; les allongées se situant entre les deux. En cours d'émission, les tendues et les allongées se tendent, mais les relâchées se centralisent. Les allongées sont celles qui présentent les trajectoires les plus importantes dans un diagramme F1 / F2

    Estimation of Speech Lip Features from Discrete Cosinus Transform

    No full text
    International audienceThis study is a contribution to the field of visual speech processing. It focuses on the automatic extraction of Speech lip features from natural lips. The method is based on the direct prediction of these features from predictors derived from an adequate transformation of the pixels of the lip region of interest. The transformation is made of a 2-D Discrete Cosine Transform combined with a Principal Component Analysis applied to a subset of the DCT coefficients corresponding to about 1% of the total DCTs. The results show the possibility to estimate the geometric lip feature with a good accuracy (a root mean square of 1 to 1.4 mm for the lip aperture and the lip width) using a reduce set of predictors derived from the PCA

    Quantification en imagerie optique diffuse cérébrale : analyse du signal et étude du problème direct

    Get PDF
    Physiologie -- Physiologie cérébrale humaine -- Couplage neurovasculaire -- Les vaisseaux sanguins cérébraux : les principaux sinus -- Imagerie optique diffuse et analyse du signal -- Définition du problème -- Problème direct -- Problème inverse -- Méthode d'analyse en imagerie optique diffuse -- Neuronavigation IRM-IOD -- IRM fonctionnelle -- Physique de l'IRM -- Neuronavigation -- Équipement de neuronavigation et de visualisation -- Analyse de la sensibilité -- Inverted responses in diffuse optical imaging and their correlation with negative BOLD signal -- Materials and methods -- Results -- Quantification -- Problème direct en imagerie optique diffuse -- Segmentation des tissus à partir de données IRMa -- Simulation Monte Carlo -- Formulation du problème -- Discrétisation et mise en oeuvre numérique -- Hybrid boundary element method applied to volumetric diffuse optical tomography -- Definition of the problem -- Born approximation -- Numerical discretization -- Results

    Contraintes et opportunités pour l'automatisation de l'inspection visuelle au regard du processus humain

    Get PDF
    This research has the ambition to contribute to the automation of visual inspection, in the quality control of complex geometry metal parts. Firstly, many optical techniques, scanning, implementation of photorealistic rendering, classification of images or data, and pattern recognition are already highly developed and applied in each particular areas. But they are not, or rarely, in special cases, combined for a complete scanning method of appearance to the recognition, effective and perceptual, of object and aesthetic anomalies.This work benefited from the advancements of previous thesis on the formalization of quality control, as well as an agile system of surface appearance scanning to highlight the diversity of aesthetic anomalies surfaces. Thus, the major contribution lies in the adaptation of image processing methods to the formal structure of quality control, rich appearance data format and classification methods to achieve recognition as the human controller.In this sense, the thesis deciphers the different methodologies related to quality control, the human controller processes, surface appearance defects, the managements and processing of visual information, to the combination of all these constraints for a partial substitution system of the human controller. The aim of the thesis is to identify and reduce sources of variability to obtain better quality control, including through the intelligent and structured automation of visual inspection. From a selected computer vision device, the proposed solution is to analyze visual texture. This is regarded as a global signature of superior visual appearance information to a single image containing images textures. The analysis is performed with pattern recognition and machine learning mechanisms to develop automatic detection and evaluation of appearance defects.Ces travaux de recherche ont pour ambition de contribuer à l'automatisation de l'inspection visuelle, dans le cadre du contrôle qualité de pièces métalliques à géométrie complexe. En soi, de nombreuses techniques d'optique, de numérisation, d'implémentation de rendu photo-réaliste, de classification d'images ou de données, et de reconnaissance de formes sont déjà fortement développées et appliquées chacune dans des domaines particuliers. Or, elles ne sont pas, ou rarement pour des cas particuliers, combinées pour obtenir une méthode complète de numérisation de l'apparence jusqu'à la reconnaissance, effective et perceptuelle, de l'objet et des anomalies esthétiques.Ces travaux ont profité des avancements des thèses précédentes sur la formalisation du contrôle qualité ainsi que sur un système agile de numérisation d'aspect de surface permettant la mise en évidence de toute la diversité d'anomalies esthétiques de surfaces. Ainsi, la contribution majeure réside dans l'adaptation des méthodes de traitement d'images à la structure formalisée du contrôle qualité, au format riche des données d'apparence et aux méthodes de classification pour réaliser la reconnaissance telle que le contrôleur humain.En ce sens, la thèse propose un décryptage des différentes méthodologies liées au contrôle qualité, au comportement du contrôleur humain, aux anomalies d'aspect de surface, aux managements et traitements de l'information visuelle, jusqu'à la combinaison de toutes ces contraintes pour obtenir un système de substitution partielle au contrôleur humain. L'objectif de la thèse, et du décryptage, est d'identifier et de réduire les sources de variabilité pour obtenir un meilleur contrôle qualité, notamment par l'automatisation intelligente et structurée de l'inspection visuelle. A partir d'un dispositif de vision par ordinateur choisi, la solution proposée consiste à analyser la texture visuelle. Celle est considérée en tant que signature globale de l'information d'apparence visuelle supérieure à une unique image contenant des textures images. L'analyse est effectuée avec des mécanismes de reconnaissance de formes et d'apprentissage machine pour établir la détection et l'évaluation automatiques d'anomalies d'aspect
    corecore