1,884 research outputs found

    Utilisation des réseaux de neurones récurrents pour la projection interlingue d'étiquettes morpho-syntaxiques à partir d'un corpus parallÚle

    Get PDF
    International audienceIn this paper, we propose a method to automatically induce linguistic analysis tools for languages that have no labeled training data. This method is based on cross-language projection of linguistic annotations from parallel corpora. Our method does not assume any knowledge about foreign languages, making it applicable to a wide range of resource-poor languages. No word alignment information is needed in our approach. We use Recurrent Neural Networks (RNNs) as cross-lingual analysis tool. To illustrate the potential of our approach, we firstly investigate Part-Of-Speech (POS) tagging. Combined with a simple projection method (using word alignment information), it achieves performance comparable to the one of recently published approaches for cross-lingual projection. Mots-clés : Multilinguisme, transfert crosslingue, étiquetage morpho-syntaxique, réseaux de neurones récurrents

    Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole

    Get PDF
    Les systĂšmes de reconnaissance de la parole sont fondamentalement dĂ©rivĂ©s des domaines du traitement et de la modĂ©lisation statistique des signaux. Depuis quelques annĂ©es, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois Ă  amĂ©liorer la performance des systĂšmes actuels de reconnaissance de parole. La revue de la littĂ©rature a suggĂ©rĂ© qu'un systĂšme de reconnaissance vocale intĂ©grant les aspects de hiĂ©rarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif gĂ©nĂ©ral est de comprendre comment l'intĂ©gration de tous ces aspects permettrait d'amĂ©liorer la robustesse aux bruits additifs d'un systĂšme de reconnaissance de la parole. La base de donnĂ©es TI46 (mots isolĂ©s, faible-vocabulaire) est utilisĂ©e pour effectuer l'apprentissage non-supervisĂ© et les tests de classification. Les diffĂ©rents bruits additifs proviennent de la base de donnĂ©es NOISEX-92, et permettent d'Ă©valuer la robustesse en conditions de bruit rĂ©alistes. L'extraction de caractĂ©ristiques dans le systĂšme proposĂ© est effectuĂ©e par des projections linĂ©aires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses mĂ©thodes de seuillage permettent de produire une reprĂ©sentation multi-Ă©chelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisĂ© permet sous certaines conditions l'obtention de bases qui reflĂštent des caractĂ©ristiques phonĂ©tiques et syllabiques de la parole, donc visant une reprĂ©sentation par objets d'un signal. L'algorithme d'analyse en composantes indĂ©pendantes (ICA) s'est dĂ©montrĂ© mieux adaptĂ© Ă  extraire de telles bases, principalement Ă  cause du critĂšre de rĂ©duction de redondance. Les analyses thĂ©oriques et expĂ©rimentales ont montrĂ© comment la parcimonie peut contourner les problĂšmes de discrimination des distances et d'estimation des densitĂ©s de probabilitĂ© dans des espaces Ă  grandes dimensions. Il est observĂ© qu'un espace de caractĂ©ristiques parcimonieux Ă  grandes dimensions peut dĂ©finir un espace de paramĂštres (p.ex. modĂšle statistique) de mĂȘmes propriĂ©tĂ©s. Ceci rĂ©duit la disparitĂ© entre les reprĂ©sentations de l'Ă©tage d'extraction des caractĂ©ristiques et celles de l'Ă©tage de classification. De plus, l'Ă©tage d'extraction des caractĂ©ristiques peut favoriser une rĂ©duction de la complexitĂ© de l'Ă©tage de classification. Un simple classificateur linĂ©aire peut venir complĂ©ter un modĂšle de Markov cachĂ© (HMM), joignant une capacitĂ© de discrimination accrue Ă  la polyvalence d'une segmentation en Ă©tats d'un signal. Les rĂ©sultats montrent que l'architecture dĂ©veloppĂ©e offr de meilleurs taux de reconnaissance en conditions propres et bruitĂ©s comparativement Ă  une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine Ă  vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole oĂč la transformation doit ĂȘtre inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifiĂ© la possibilitĂ© de rĂ©duire considĂ©rablement la complexitĂ© des espaces de caractĂ©ristiques et de paramĂštres, sans toutefois diminuer le pouvoir de discrimination et la robustesse

    Évaluation en cascade d'algorithmes de clustering

    Get PDF
    National audienceCet article se place dans le cadre de l'Ă©valuation des rĂ©sultats d'algorithmes de clustering et de la comparaison de tels algorithmes. Nous proposons une nouvelle mĂ©thode basĂ©e sur l'enrichissement d'un ensemble de jeux de donnĂ©es Ă©tiquetĂ©s indĂ©pendants par les rĂ©sultats des algorithmes de clustering considĂ©rĂ©s, et sur l'utilisation d'un algorithme supervisĂ© pour Ă©valuer l'intĂ©rĂȘt de ces nouvelles informations apportĂ©es. Nous adaptons ainsi la technique de cascade generalization (Gama & Brazdil, 2000) au cas oĂč l'on combine un apprenant supervisĂ© et un apprenant non supervisĂ©. Nous considĂ©rons Ă©galement le cas oĂč des apprentissages supervisĂ©s indĂ©pendants sont exĂ©cutĂ©s sur les diffĂ©rents groupes de donnĂ©es identiïŹĂ©s par le clustering (Apte et al., 2002). Nous avons menĂ© des expĂ©rimentations en considĂ©rant diffĂ©rents algorithmes supervisĂ©s pour comparer plusieurs algorithmes de clustering. Nous montrons ainsi le comportement cohĂ©rent de la mĂ©thode proposĂ©e qui met en avant, par exemple, le fait que les algorithmes de clustering basĂ©s sur l'utilisation de modĂšles proba- bilistes plus complexes surpassent les algorithmes basĂ©s sur des modĂšles plus simples

    Les ForĂȘts AlĂ©atoires en Apprentissage Semi-SupervisĂ© (Co-forest) pour la segmentation des images rĂ©tiniennes

    Get PDF
    Nous proposons une approche qui permet la reconnaissance automatique des rĂ©gions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisĂ©. Une Ă©tude comparative de plusieurs techniques est proposĂ©e. Le principe repose sur une croissance de rĂ©gion en classifiant les pixels voisins Ă  partir des pixels d'intĂ©rĂȘt de l'image par apprentissage semi-supervisĂ©. Les points d'intĂ©rĂȘt sont dĂ©tectĂ©s par l'algorithme Fuzzy C-means (FCM)

    Extraction de relations : Exploiter des techniques complémentaires pour mieux s'adapter au type de texte

    Get PDF
    Extraire des relations d'hyperonymie Ă  partir des textes est une des Ă©tapes clĂ©s de la construction automatique d'ontologies et du peuplement de bases de connaissances. Plusieurs types de mĂ©thodes (linguistiques, statistiques, combinĂ©es) ont Ă©tĂ© exploitĂ©s par une variĂ©tĂ© de propositions dans la littĂ©rature. Les apports respectifs et la complĂ©mentaritĂ© de ces mĂ©thodes sont cependant encore mal identifiĂ©s pour optimiser leur combinaison. Dans cet article, nous nous intĂ©ressons Ă  la complĂ©mentaritĂ© de deux mĂ©thodes de nature diffĂ©rente, l'une basĂ©e sur les patrons linguistiques, l'autre sur l'apprentissage supervisĂ©, pour identifier la relation d'hyperonymie Ă  travers diffĂ©rents modes d'expression. Nous avons appliquĂ© ces mĂ©thodes Ă  un sous-corpus de Wikipedia en français, composĂ© des pages de dĂ©sambiguĂŻsation. Ce corpus se prĂȘte bien Ă  la mise en oeuvre des deux approches retenues car ces textes sont particuliĂšrement riches en relations d'hyperonymie, et contiennent Ă  la fois des formulations rĂ©digĂ©es et d'autres syntaxiquement pauvres. Nous avons comparĂ© les rĂ©sultats des deux mĂ©thodes prises indĂ©pendamment afin d'Ă©tablir leurs performances respectives, et de les comparer avec le rĂ©sultat des deux mĂ©thodes appliquĂ©es ensemble. Les meilleurs rĂ©sultats obtenus correspondent Ă  ce dernier cas de figure avec une F-mesure de 0.68. De plus, l'extracteur Wikipedia issu de ce travail permet d'enrichir la ressource sĂ©mantique DBPedia en français : 55% des relations identifiĂ©es par notre extracteur ne sont pas dĂ©jĂ  prĂ©sentes dans DBPedia

    Analyse des problÚmatiques liées à la reconnaissance de sons ambiants en environnement réel

    Get PDF
    Notre vie est constamment bercĂ©e par les sons ambiants. Du bruit d’une voiture qui passe Ă  un oiseau qui chante, de l’eau qui coule dans notre douche aux bruits de notre clavier, les sons ambiants sont partout. Les humains sans pertes auditives reconnaissent inconsciemment les sons qui les entourent et prennent de nombreuses dĂ©cisions de la vie quotidienne en tenant compte des sons ambiants (rĂ©actions Ă  des pleurs de bĂ©bĂ© ou une alarme par exemple). Durant ces derniĂšres annĂ©es, la recherche autour de l’analyse automatique de ces sons ambiants s’est dĂ©veloppĂ©e rapidement. L’analyse des sons ambiants est un problĂšme difficile Ă  rĂ©soudre en raison de la complexitĂ© des scĂšnes sonores et de leur manque de structure apparente. Les Ă©vĂ©nements sonores qui constituent les scĂšnes sonores sont trĂšs variĂ©s et de nombreux Ă©vĂ©nements peuvent ĂȘtre actifs simultanĂ©ment. Afin de reconnaĂźtre les Ă©vĂ©nements sonores de façon automatique, on a gĂ©nĂ©ralement recours Ă  des mĂ©thodes d’apprentissage automatique. Les mĂ©thodes par apprentissage profond sont devenues trĂšs populaires ces derniĂšres annĂ©es grĂące Ă  leurs performances Ă©levĂ©es pour des tĂąches diverses dont l’analyse de sons ambiants. Les mĂ©thodes d’apprentissage s’appuient sur l’utilisation de jeux de donnĂ©es contenant les Ă©vĂ©nements que l’on souhaite reconnaĂźtre. Dans l’idĂ©al, ces jeux de donnĂ©es contiennent des annotations concernant l’activitĂ© liĂ©e Ă  chacune des classes d’évĂ©nements sonores et Ă©ventuellement Ă  leur temporalitĂ© (on parle alors d’annotations fortes). Ces derniĂšres annĂ©es, des jeux de donnĂ©es fortement annotĂ©s ont Ă©tĂ© collectĂ©s et publiĂ©s pour permettre l’analyse de sons ambiants, mais ils sont souvent composĂ©s d’une faible quantitĂ© de donnĂ©es qui ne sont pas toujours enregistrĂ©es en conditions rĂ©elles. Obtenir des annotations fortes coĂ»te cher, et il est donc difficile d’obtenir un gros jeu de donnĂ©es fortement annotĂ©es. En revanche, la collecte de donnĂ©es non annotĂ©es ou annotĂ©es partiellement et sans indication de temporalitĂ© (annotations faibles) est plus facile. C’est dans ce cadre que s’inscrit cette thĂšse.Nous proposons de traiter le problĂšme de la reconnaissance d’évĂ©nements sonores en environnement domestique en utilisant des donnĂ©es non annotĂ©es et faiblement annotĂ©es. Le but est d’analyser les problĂšmes qui surviennent lors d’un scĂ©nario rĂ©el de reconnaissance d’évĂ©nements sonores au sein d’une maison pour permettre l’assistance aux personnes en perte d’autonomie ou rendre la maison intelligente. Afin d’analyser ce problĂšme, nous avons proposĂ© une tĂąche de dĂ©tection d’évĂ©nements sonores dans un challenge international d’analyse de sons ambiants. Pour cette tĂąche nous avons dĂ©fini un problĂšme proche d’un scĂ©nario rĂ©el pour permettre l’analyse scientifique des diffĂ©rents problĂšmes qui apparaissent dans l’analyse de sons ambiants en environnement rĂ©el. Nous proposons un jeu de donnĂ©es pour permettre des analyses dĂ©taillĂ©es des problĂšmes scientifiques Ă  rĂ©soudre pour permettre l’évolution continue de la tĂąche. Nous nous focalisons ensuite sur le problĂšme de l’apprentissage semi-supervisĂ© qui permet l’apprentissage de systĂšmes utilisant des donnĂ©es annotĂ©es et des donnĂ©es non annotĂ©es. Cette analyse se concentre sur l’apprentissage d’une reprĂ©sentation qui serait utile pour des applications finales d’étiquetage ou de dĂ©tection d’évĂ©nements sonores. Nous analysons enfin l’impact de l’annotation faible des donnĂ©es dans l’apprentissage d’un systĂšme de reconnaissance d’évĂ©nements sonores afin de proposer des conseils pour l’annotation faible des jeux de donnĂ©es ou des pistes de solutions.We’re constantly surrounded by ambient sounds. From a car passing by to a bird’s song or from the running water in the shower to the sound of a keyboard, ambient sounds are everywhere. Humans without hearing loss unconsciously recognize them and take multiple decisions using the information provided by ambient sounds in their everyday life (reaction to a baby crying or to an alarm for example). In the last years, the research interest in automatic ambient sound analysis has rapidly grown. Ambient sound analysis is a difficult problem because of the complexity of the sound scenes and their lack of apparent structure.Sound events constituting these sound scenes are various and multiple events can appear simultaneously. To recognize sound events automatically, machine learning methods are usually used, in particular deep learning methods due to their good performance on a variety of tasks including ambient sound analysis. These methods require a training dataset containing the sound events to be recognized. Ideally, the dataset contains labels indicating the type of events and their time positions in the audio clips (strong labels). In recent years, some strongly annotated datasets have appeared that are designed for ambient sound analysis, but they usually contain only a small amount of data and are rarely recorded in real conditions. Strong annotations are expensive to collect, making it difficult to acquire a large scale strongly labeled dataset. However, collecting data without labels or with partial labels indicating the presence of some events without their time information (weak labels) is easier. This thesis fits in this context. We propose to address the problem of sound event recognition in domestic environments using unlabeled and weakly labeled data. Our goal is to analyze the different problems that can appear in a real world scenario of sound event recognition in domestic environment with applications to assisted living and smart house. To analyse this problem we have organized a domestic sound event detection task in an international ambient sound analysis challenge. We have defined this task in such a way that it allows us to analyze the different problems appearing in a real world scenario. We have collected, annotated and shared a dataset designed for this analysis. From 2018 to 2020, we have organized three evaluation campaigns to allow for a detailed analysis of the systems submitted by participants and a continuous improvement the task definition. Then, we focus on the problem of learning systems using both labeled and unlabeled training data (semi-supervised learning). The analysis concentrates on learning a representation which could be useful for a variety of tasks in sound event detection or tagging. Finally, we analyze the impact of weak labels in the training dataset of a sound event recognition system to understand if this is the main problem of a sound event recognition system and provide advice for the labelling of real world data

    Apprentissage neuronal de caractéristiques spatio-temporelles pour la classification automatique de séquences vidéo

    Get PDF
    Cette thĂšse s'intĂ©resse Ă  la problĂ©matique de la classification automatique des sĂ©quences vidĂ©o. L'idĂ©e est de se dĂ©marquer de la mĂ©thodologie dominante qui se base sur l'utilisation de caractĂ©ristiques conçues manuellement, et de proposer des modĂšles qui soient les plus gĂ©nĂ©riques possibles et indĂ©pendants du domaine. Ceci est fait en automatisant la phase d'extraction des caractĂ©ristiques, qui sont dans notre cas gĂ©nĂ©rĂ©es par apprentissage Ă  partir d'exemples, sans aucune connaissance a priori. Nous nous appuyons pour ce faire sur des travaux existants sur les modĂšles neuronaux pour la reconnaissance d'objets dans les images fixes, et nous Ă©tudions leur extension au cas de la vidĂ©o. Plus concrĂštement, nous proposons deux modĂšles d'apprentissage des caractĂ©ristiques spatio-temporelles pour la classification vidĂ©o : (i) Un modĂšle d'apprentissage supervisĂ© profond, qui peut ĂȘtre vu comme une extension des modĂšles ConvNets au cas de la vidĂ©o, et (ii) Un modĂšle d'apprentissage non supervisĂ©, qui se base sur un schĂ©ma d'auto-encodage, et sur une reprĂ©sentation parcimonieuse sur-complĂšte des donnĂ©es. Outre les originalitĂ©s liĂ©es Ă  chacune de ces deux approches, une contribution supplĂ©mentaire de cette thĂšse est une Ă©tude comparative entre plusieurs modĂšles de classification de sĂ©quences parmi les plus populaires de l'Ă©tat de l'art. Cette Ă©tude a Ă©tĂ© rĂ©alisĂ©e en se basant sur des caractĂ©ristiques manuelles adaptĂ©es Ă  la problĂ©matique de la reconnaissance d'actions dans les vidĂ©os de football. Ceci a permis d'identifier le modĂšle de classification le plus performant (un rĂ©seau de neurone rĂ©current bidirectionnel Ă  longue mĂ©moire Ă  court-terme -BLSTM-), et de justifier son utilisation pour le reste des expĂ©rimentations. Enfin, afin de valider la gĂ©nĂ©ricitĂ© des deux modĂšles proposĂ©s, ceux-ci ont Ă©tĂ© Ă©valuĂ©s sur deux problĂ©matiques diffĂ©rentes, Ă  savoir la reconnaissance d'actions humaines (sur la base KTH), et la reconnaissance d'expressions faciales (sur la base GEMEP-FERA). L'Ă©tude des rĂ©sultats a permis de valider les approches, et de montrer qu'elles obtiennent des performances parmi les meilleures de l'Ă©tat de l'art (avec 95,83% de bonne reconnaissance pour la base KTH, et 87,57% pour la base GEMEP-FERA).This thesis focuses on the issue of automatic classification of video sequences. We aim, through this work, at standing out from the dominant methodology, which relies on so-called hand-crafted features, by proposing generic and problem-independent models. This can be done by automating the feature extraction process, which is performed in our case through a learning scheme from training examples, without any prior knowledge. To do so, we rely on existing neural-based methods, which are dedicated to object recognition in still images, and investigate their extension to the video case. More concretely, we introduce two learning-based models to extract spatio-temporal features for video classification: (i) A deep learning model, which is trained in a supervised way, and which can be considered as an extension of the popular ConvNets model to the video case, and (ii) An unsupervised learning model that relies on an auto-encoder scheme, and a sparse over-complete representation. Moreover, an additional contribution of this work lies in a comparative study between several sequence classification models. This study was performed using hand-crafted features especially designed to be optimal for the soccer action recognition problem. Obtained results have permitted to select the best classifier (a bidirectional long short-term memory recurrent neural network -BLSTM-) to be used for all experiments. In order to validate the genericity of the two proposed models, experiments were carried out on two different problems, namely human action recognition (using the KTH dataset) and facial expression recognition (using the GEMEP-FERA dataset). Obtained results show that our approaches achieve outstanding performances, among the best of the related works (with a recognition rate of 95,83% for the KTH dataset, and 87,57% for the GEMEP-FERA dataset).VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    DĂ©tection automatique de la structure organisationnelle de documents Ă  partir de marqueurs visuels et lexicaux

    Get PDF
    National audienceLa comprĂ©hension d'un texte s'opĂšre Ă  travers les niveaux d'information visuelle, logique et discursive, et leurs relations d'interdĂ©pendance. La majoritĂ© des travaux ayant Ă©tudiĂ© ces relations a Ă©tĂ© menĂ©e dans le cadre de la gĂ©nĂ©ration de textes, oĂč les propriĂ©tĂ©s visuelles sont infĂ©rĂ©es Ă  partir des Ă©lĂ©ments logiques et discursifs. Les travaux prĂ©sentĂ©s ici adoptent une dĂ©marche inverse en proposant de gĂ©nĂ©rer automatiquement la structure organisationnelle du texte (structure logique) Ă  partir de sa forme visuelle. Le principe consiste Ă  (i) labelliser des blocs visuels par apprentissage afin d'obtenir des unitĂ©s logiques et (ii) relier ces unitĂ©s par des relations de coordination ou de subordination pour construire un arbre. Pour ces deux tĂąches, des Champs AlĂ©atoires Conditionnels et un Maximum d'Entropie sont respectivement utilisĂ©s. AprĂšs apprentissage, les rĂ©sultats aboutissent Ă  une exactitude de 80,46% pour la labellisation et 97,23% pour la construction de l'arbre

    Élaboration d'un programme thĂ©orique de supervision pĂ©dagogique pour les Ă©tudiants stagiaires de 3e annĂ©e Ă  l'INJS d'Abidjan (CĂŽte d'Ivoire)

    Get PDF
    La supervision pĂ©dagogique dĂ©finie en terme de relation d'aide, est importante dans la formation des enseignants. Cependant, perçue de plus en plus comme un systĂšme de contrĂŽle, elle est rejetĂ©e par plusieurs enseignants. Cette perception nĂ©gative de la supervision pĂ©dagogique semble ĂȘtre liĂ©e Ăą la façon de concevoir son efficacitĂ©. Contrairement Ă  l’efficacitĂ© de renseignement qui est dĂ©terminĂ©e Ă  partir des comportements des apprenants, celle de la supervision pĂ©dagogique semble ĂȘtre dĂ©terminĂ©e Ă  partir du bon sens des superviseurs. Afin de palier Ă  cet Ă©tat de fait, nous avons Ă©laborĂ© un programme de supervision pĂ©dagogique pour des Ă©tudiants-stagiaires , dans lequel le choix d’une stratĂ©gie de supervision est le rĂ©sultat de la synthĂšse des besoins des supervisĂ©s et des administrateurs. Un tel programme peut non seulement permettre aux futurs enseignants de gĂ©rer efficacement les diffĂ©rences individuelles de leurs Ă©lĂšves, mais aussi d’avoir une attitude x positive face Ă  la supervision pĂ©dagogique.QuĂ©bec UniversitĂ© Laval, BibliothĂšque 201
    • 

    corecore