9 research outputs found

    Amélioration de la robustesse des systÚmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs

    Get PDF
    Les systĂšmes nec plus ultra de reconnaissance du locuteur adoptent la reprĂ©sentation de la parole dans l’espace des i-vecteurs. Un i-vecteur n’est qu’un simple vecteur de faible dimension (typiquement dans les centaines) reprĂ©sentant une vaste gamme d’information vĂ©hiculĂ©e par le signal vocal. Bien que les performances de ces systĂšmes en matiĂšre des taux de reconnaissance aient atteint un niveau trĂšs avancĂ©, une meilleure exploitation de ces systĂšmes dans les milieux rĂ©els de tous les jours nĂ©cessite encore plus d'efforts de la part des chercheurs en la matiĂšre. Dans le cadre de cette thĂšse, notre objectif principal est d'amĂ©liorer la robustesse des systĂšmes de reconnaissance du locuteur opĂ©rant dans l’espace des ivecteurs. Dans la premiĂšre partie de ce travail, nous nous intĂ©ressons Ă  la tĂąche de la vĂ©rification du locuteur. Nous nous focalisons plus particuliĂšrement sur la conception d’un systĂšme de vĂ©rification Ă  la fois indĂ©pendant du type du canal de transmission/enregistrement et du genre du locuteur. Dans le contexte des i-vecteurs, les classificateurs gĂ©nĂ©ratifs, tels que l’analyse discriminante linĂ©aire probabiliste (PLDA), ont dominĂ© le domaine de la reconnaissance du locuteur. NĂ©anmoins, de simples classificateurs Ă  base de la similaritĂ© angulaire du cosinus (SAC) restent concurrentiels. Ainsi, nous avons proposĂ© dans cette partie deux solutions rendant respectivement les systĂšmes Ă  base des deux classificateurs de l’état de l’art (le PLDA et la SAC) indĂ©pendants du type du canal et du genre du locuteur. En effet, nos systĂšmes conçus de la sorte sont considĂ©rĂ©s comme les deux premiers systĂšmes de vĂ©rification du locuteur atteignant les rĂ©sultats de l’état de l’art (environ 2 % d’EER pour la parole tĂ©lĂ©phonique et 3 % pour la parole microphonique) sans pour autant profiter ni de l’information concernant le type du canal ni de celle concernant le genre du locuteur. Le regroupement en locuteurs est une autre tĂąche de la reconnaissance du locuteur qui reprĂ©sente notre centre d’intĂ©rĂȘt dans la seconde partie de cette thĂšse. À nouveau, nos recherches seront menĂ©es uniquement dans le contexte de la reprĂ©sentation de la parole par des i-vecteurs. À vrai dire, il existe deux types d’applications Ă  base du regroupement en locuteurs, soit, le regroupement en locuteurs des grands corpora des fichiers vocaux (speaker clustering) et la structuration en tours de parole d’un flux audio (speaker diarization). Une nouvelle version de l’algorithme non paramĂ©trique de dĂ©calage de la moyenne (Mean Shift, MS) a Ă©tĂ© proposĂ©e afin de faire face au problĂšme du regroupement en locuteurs. Nous avons dĂ©montrĂ© que les performances de notre nouvelle version de l’algorithme de MS Ă  base de la distance angulaire du cosinus dĂ©passent ceux de la version de base, une fois testĂ©s face Ă  la tĂąche du regroupement en locuteurs. Le mĂȘme algorithme nous a permis d’obtenir les rĂ©sultats de l’état de l’art (DER Ă©gal Ă  12,4 %) de la structuration en tours de parole du corpus des donnĂ©es tĂ©lĂ©phoniques CallHome

    Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique

    Get PDF
    Mes travaux de thÚse s inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d étude et dedéchiffrage des écritures.L objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l Institut de Recherche en Histoire des Textes (IRHT Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l évolutiondes formes de l écriture par la mise en place de méthodes efficaces d accÚs au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphÚmes). Dans mes travaux de doctorats, j ai choisi d étudier la dynamique del élément le plus basique de l écriture appelé le ductus2 et qui d aprÚs les paléographes apportebeaucoup d informations sur le style d écriture et l époque d élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une premiÚre étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphÚmescontenant l information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d une méthodologie complÚte de suivi de traits à partir del extraction d un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l application des rÚglesfondamentales d exécution des traits d écriture, enseignées aux copistes du Moyen Age. Il s agitd information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphÚmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complÚte possible de l écriture d unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphÚmes en classeshomogÚnes par l utilisation d un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphÚmes a conduit à la formation dedictionnaires de formes caractérisant de maniÚre individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d obtenir la meilleure représentation d un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L ensemble de ces contributions a été testé à partir d une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d Oxford et manuscrits de l IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d identification de scripteurs d ICDAR 2011. L exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l identification d écritures etétudier son pouvoir de généralisation à d autres types de documents. Les résultats trÚsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractÚrerésolument généralisable à tout type de documents écrits.My thesis work is part of the ANR GRAPHEM Project (Grapheme based Retrieval andAnalysis for Expertise paleographic Manuscripts of Middle Age). It represents a methodologicalcontribution applicable to the automatic analysis of ancient writings to assist the experts inpaleography in the delicate work of the studying and deciphering the writing.The main objective is to contribute to an instrumentation of the corpus of medievalmanuscripts held by Institut de Recherche en Histoire de Textes (IRHT-Paris), by helping thepaleographers specialized in this field in their work of understanding the evolution of forms inthe writing, with the establishment of effective methods to access the contents of manuscriptsbased on a fine analysis of the forms described in the form of small fragments (graphemes). Inmy PhD work, I chose to study the dynamic of the most basic element of the writing called theductus and which according to the paleographers, brings a lot of information on the style ofwriting and the era of the elaboration of the manuscript.My major contribution is situated at two levels: a first step of preprocessing of severelydegraded images to ensure an optimal decomposition of the forms into graphemes containingthe ductus information. For this decomposition step of manuscripts, we have proceeded to theestablishment of a complete methodology for the tracings of strokes by the extraction of theskeleton obtained from the contrast enhancement and the diffusion of the gradient procedures.The complete tracking of the strokes was obtained from the application of fundamentalexecution rules of the strokes taught to the scribes of the Middle Ages. It is related to thedynamic information of the formation of strokes focusing essentially on indications of theprivileged directions.In a second step, we have tried to characterize the graphemes by visual shape descriptorsunderstandable by both the computer scientists and the paleographers and thus unsuring themost complete possible representation of the wrting from a geometrical and morphological pointof view. From this characterization, we have have proposed a clustering approach insuring agrouping of graphemes into homogeneous classes by using a non-supervised classificationalgorithm based on the graph coloring. The result of the clustering of graphemes led to theformation of a codebook characterizing in an individual and discriminating way each processedmanuscript. We have also studied the discriminating power of the descriptors in order to obtaina better representation of a manuscript into a codebook. This study was done by exploiting thegenetic algorithms by their ability to produce a good feature selection.The set of the contributions was tested from a CBIR application on three databases ofmanuscripts including two medieval databases (manuscripts from the Oxford and IRHTdatabases), and database of containing contemporary manuscripts used in the writersidentification contest of ICDAR 2011. The exploitation of our description and classificationmethod was applied on a cotemporary database in order to position our contribution withrespect to other relevant works in the writrings identification domain and study itsgeneralization power to other types of manuscripts. The very encouraging results that weobtained on the medieval and contemporary databases, showed the robustness of our approachto the variations of the shapes and styles and its resolutely generalized character to all types ofhandwritten documents.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF

    DĂ©tection de la prĂ©sence humaine et Ă©valuation de la qualitĂ© du sommeil en Ă©tablissement d’hĂ©bergement pour personnes ĂągĂ©es dĂ©pendantes (EHPAD)

    Get PDF
    In France, in Europe and worldwide, the aging population is a reality. Some of these elderly people lose their autonomy as they are no longer able to manage alone the tasks of daily life. The societal issue is therefore to ensure a level of well-being and safety of these persons, consistent with changes in living standards, customs and modern habits. The research areas related to the problems of elderly people at home are showing great dynamism, while the nursing home, which remains the solution for cases of high dependence, is somewhat neglected. Nevertheless, staff shortages combined with rising costs and residents’ demands offer an opportunity for innovative ICT-based solutions. The work presented here was performed, in the context of a CIFRE doctoral thesis, within the Legrand research team and at the physics and electronics department of Mines-Telecom SudParis at Evry. The subject and project aim was twofold: firstly, designing a new sensor which will be incorporated in the electrical installation of the patient’s living space, and secondly, a multi-sensor merger to monitor the activity of the resident in order to enable real-time reporting of situations requiring the caregiver’s intervention or to detect slow drifts whose interpretation will be the responsibility of the medical staff. The work carried out for the purpose of this thesis has been included partially in the FUI 14 project whose propose is precisely the “supervision of residents in the nursing home”. The present paper is structured in such a way as to introduce the background of the work and the approach taken to perform it. The context and needs identified for monitoring of nursing home residents are also introduced. We begin by describing existing monitoring systems and the technical methods used to detect emergency situations. We end the first part (chapter 1) of this paper by specifying the major problem encountered when testing existing monitoring systems based on ambient sensors: namely how to detect the presence of an immobile and silent person in the room. Using an existing pyro-electric infrared sensors network installation in a nursing home, the next section proposes an original solution for detecting human presence in a room and also for differentiating between the presence of one and the presence of more than one person (chapter 2). Chapter 3 presents a new sensor integrated into the electrical installation of the patient’s living space. Here, we introduce a thermopile based thermal sensor in order to detect the presence of a person in his/her living space. In this work we restrict the use of this sensor to detecting the presence of the person in bed (chapter 4). The estimation of sleep quality which represents the original dimension of our work is presented in chapter 5. Differentiation between different phases of sleep is based on unsupervised classification approaches. Our project opens up encouraging prospects for the use of this type of sensor for relatively fine characterization of different kinds of sleepEn France, en Europe et dans le monde entier, le vieillissement de la population est une rĂ©alitĂ©. Une partie de cette population ĂągĂ©e est dite dĂ©pendante car elle n’est plus en mesure d’assumer seule les tĂąches de la vie quotidienne. L’enjeu sociĂ©tal est alors de garantir un niveau de bien-ĂȘtre et de sĂ©curitĂ© Ă  ces personnes, compatible avec l’évolution du niveau de vie et des usages et habitudes ‘modernes’. TrĂšs logiquement, les domaines de recherche liĂ©s Ă  la problĂ©matique des personnes ĂągĂ©es Ă  domicile font preuve d’un grand dynamisme, alors que la maison de retraite, qui reste la solution pour la grande dĂ©pendance, a Ă©tĂ© un peu dĂ©laissĂ©e. NĂ©anmoins, la pĂ©nurie de personnel conjuguĂ©e Ă  l’augmentation des coĂ»ts et des exigences des rĂ©sidents offre une opportunitĂ© Ă  des solutions innovantes basĂ©es sur les TIC. Les travaux de cette thĂšse de doctorat sous convention CIFRE se sont dĂ©roulĂ©s dans ce contexte au sein de l’équipe de recherche de Legrand et du dĂ©partement d’Electronique et Physique de TĂ©lĂ©com SudParis Ă  Evry. Le sujet concerne la conception d’un nouveau capteur (non-portĂ©) intĂ©grant l’installation Ă©lectrique du lieu de vie du patient ainsi que la fusion avec d’autres capteurs de l’infrastructure afin de suivre l’activitĂ© du rĂ©sident et, le cas Ă©chĂ©ant, soit signaler en temps rĂ©el des situations nĂ©cessitant le recours d’un aidant, soit identifier des dĂ©rives lentes dont l’interprĂ©tation sera du ressort du personnel mĂ©dical. Les travaux de la thĂšse ont Ă©tĂ© en partie intĂ©grĂ©s au projet FUI14 « E-monitor’ñge » dont l’objectif est prĂ©cisĂ©ment la « supervision » des rĂ©sidents. Ce mĂ©moire est structurĂ© de maniĂšre Ă  prĂ©senter l’historique de ces travaux et la dĂ©marche opĂ©rĂ©e pour leur rĂ©alisation. Nous introduisons le contexte et les besoins identifiĂ©s pour le suivi des personnes ĂągĂ©es dans les maisons de retraites. Nous faisons un point sur les systĂšmes de supervision/monitoring existants et nous prĂ©sentons les mĂ©thodes et les techniques de dĂ©tection de situations d’urgence. Nous terminons cette partie du mĂ©moire (chapitre 1) par la spĂ©cification du problĂšme majeur rencontrĂ© par ces systĂšmes de supervision qui est celui de la dĂ©tection de prĂ©sence d’une personne. En s’appuyant sur la technologie des capteurs pyro-Ă©lectriques, la partie suivante propose une solution originale de traitement de signal pour la dĂ©tection d’une prĂ©sence humaine dans une chambre voire la dĂ©tection de prĂ©sence de plusieurs personnes Ă  la fois (chapitre 2). Le chapitre 3 introduit ensuite un capteur thermique Ă  base de thermopiles afin de dĂ©tecter la prĂ©sence d’une personne dans son lit, ce que ne permet pas la technologie pyro-Ă©lectrique qui ne dĂ©tecte pas un corps chaud immobile. Dans cette partie nous limitons l’utilisation de ce capteur Ă  la dĂ©tection de la prĂ©sence de la personne dans son lit (chapitre 4) voire Ă  l’estimation de la qualitĂ© de son sommeil qui constitue d’une part l’originalitĂ© de nos travaux s’appuyant sur des approches de classification non-supervisĂ©e, et qui ouvre des perspectives encourageantes quant Ă  l’utilisation de ce capteur pour caractĂ©riser relativement finement le type de sommeil d’autre part (chapitre 5

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

    Vers une méthode de classification de fichiers sonores

    Get PDF

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thĂšse s inscrit dans le cadre du dĂ©veloppement de systĂšmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayĂ© les spĂ©cificitĂ©s dans les trois premiers chapitres de la thĂšse, prĂ©sentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les Ă©tapes responsables de ces rejets et de ces erreurs de lecture sont les premiĂšres Ă  intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhĂ©rents Ă  la segmentation des images de courriers et la localisation de leurs rĂ©gions d intĂ©rĂȘt en investissant une nouvelle approche pyramidale de modĂ©lisation par coloration hiĂ©rarchique de graphes ; Ă  ce jour, la coloration de graphes n a jamais Ă©tĂ© exploitĂ©e dans un tel contexte. Elle intervient dans notre contribution Ă  toutes les Ă©tapes d analyse de la structure des documents ainsi que dans la prise de dĂ©cision pour la reconnaissance (reconnaissance de la nature du document Ă  traiter et reconnaissance du bloc adresse). Notre architecture a Ă©tĂ© conçue pour rĂ©aliser essentiellement les Ă©tapes d analyse de structures et de reconnaissance en garantissant une rĂ©elle coopĂ©ration entres les diffĂ©rents modules d analyse et de dĂ©cision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexitĂ©s), une partie d extraction de la structure physique par coloration hiĂ©rarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliquĂ©s dans le systĂšme ont Ă©tĂ© conçus pour leur rapiditĂ© d exĂ©cution (en adĂ©quation avec les contraintes de temps rĂ©els), leur robustesse, et leur compatibilitĂ©. Les expĂ©rimentations rĂ©alisĂ©es dans ce contexte sont trĂšs encourageantes et offrent Ă©galement de nouvelles perspectives Ă  une plus grande diversitĂ© d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Actes des 29es Journées Francophones d'Ingénierie des Connaissances, IC 2018

    Get PDF
    International audienc
    corecore