14,999 research outputs found
Les ForĂȘts AlĂ©atoires en Apprentissage Semi-SupervisĂ© (Co-forest) pour la segmentation des images rĂ©tiniennes
Nous proposons une approche qui permet la reconnaissance automatique des rĂ©gions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisĂ©. Une Ă©tude comparative de plusieurs techniques est proposĂ©e. Le principe repose sur une croissance de rĂ©gion en classifiant les pixels voisins Ă partir des pixels d'intĂ©rĂȘt de l'image par apprentissage semi-supervisĂ©. Les points d'intĂ©rĂȘt sont dĂ©tectĂ©s par l'algorithme Fuzzy C-means (FCM)
Ăditorial
Nous avons le plaisir de publier dans la revue Alsic ce numĂ©ro thĂ©matique consacrĂ© au traitement automatique des langues (Tal) et Ă l'apprentissage des langues. Les six articles regroupĂ©s Ă cette occasion sont des versions Ă©tendues et relues par notre comitĂ© scientifique d'articles originellement prĂ©sentĂ©s lors de la journĂ©e d'Ă©tude de l'Atala (Association pour le Traitement Automatique des Langues) le 22 octobre 2004 Ă Grenoble. MĂȘme si notre revue a dĂ©jĂ ouvert ses colonnes Ă des articles appartenant Ă ce domaine de recherche, c'est la premiĂšre fois que nous pouvons en prĂ©senter un panorama reprĂ©sentatif des thĂ©matiques qui la traversent : systĂšme de traitement de corpus textuels, dictionnaires Ă©lectroniques, gĂ©nĂ©rateurs d'activitĂ©s lexico-grammaticales, systĂšmes de diagnostic des connaissances de l'apprenant, systĂšme de traitement de la prosodie et de l'intonation. A ces thĂšmes, on peut ajouter, sans chercher pour autant l'exhaustivitĂ©, ceux abordĂ©s dans deux articles rĂ©cents, articles dont les auteurs Ă©taient Ă©galement prĂ©sents Ă la journĂ©e de l'Atala : le diagnostic d'erreur (LÂŽhaire & Vandeventer-Faltin, 2003) et la simulation (Michel & Lehuen, 2005)
Du quatriĂšme de proportion comme principe inductif : une proposition et son application Ă lâapprentissage de la morphologie
Nous prĂ©sentons un modĂšle dâapprentissage par analogie qui exploite la notion de proportions analogiques formelles ; cette approche prĂ©suppose de savoir donner un sens Ă ces proportions et de pouvoir implanter efficacement leur calcul. Nous proposons une dĂ©finition algĂ©brique de cette notion, valable pour les structures utilisĂ©es couramment pour les reprĂ©- sentations linguistiques : mots sur un alphabet fini, structures attribut-valeur, arbres Ă©tiquetĂ©s. Nous prĂ©sentons ensuite une application Ă une tĂąche concrĂšte, consistant Ă apprendre Ă ana- lyser morphologiquement des formes orthographiques inconnues. Des rĂ©sultats expĂ©rimentaux sur plusieurs lexiques permettent dâapprĂ©cier la validitĂ© de notre dĂ©marche
Une approche par apprentissage basée sur des modÚles linguistiques
International audienceNous proposons une double amélioration des systÚmes de filtrage de courriels existants. D'une part, en utilisant une méthode d'apprentissage automatique permettant à un systÚme de filtrage d'élaborer des profils utilisateur. D'autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modÚles réduits issues de modÚles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l'utilisation de connaissances et de traitements linguistiques peut améliorer les performances d'un systÚme de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d'indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d'application et la fiabilité repose sur l'opération d'apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d'évaluer son efficacité, nous l'avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d'un ensemble d'expériences d'évaluation
Peut-on bien chunker avec de mauvaises Ă©tiquettes POS ?
http://www.taln2014.org/site/actes-en-ligne/actes-en-ligne-articles-taln/National audienceDans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS. Abstract. In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS label
Filtrage automatique de courriels : une approche adaptative et multi niveaux
International audienceCet article propose un systĂšme de courriers Ă©lectroniques paramĂ©trable avec plusieurs niveaux de filtrage: un filtrage simple basĂ© sur l'information contenue dans l'entĂȘte du courriel ; un filtrage boolĂ©en basĂ© sur l'existence ou non de mots clĂ©s dans le corps du courriel ; un filtrage vectoriel basĂ© sur le poids de contribution des mots clĂ©s du courriel ; un filtrage approfondi basĂ© sur les propriĂ©tĂ©s linguistiques caractĂ©risant la structure et le contenu du courriel. Nous proposons une solution adaptative qui offre au systĂšme la possibilitĂ© d'apprendre Ă partir de donnĂ©es, de modifier ses connaissances et de s'adapter Ă l'Ă©volution des intĂ©rĂȘts de l'utilisateur et Ă la variation de la nature des courriels dans le temps. De plus, nous utilisons un rĂ©seau lexical permettant d'amĂ©liorer la reprĂ©sentation du courriel en prenant en considĂ©ration l'aspect sĂ©mantique.<BR /
Ătude des critĂšres de dĂ©sambiguĂŻsation sĂ©mantique automatique : rĂ©sultats sur les cooccurrences
pp. 35-44Nous prĂ©sentons dans cet article une Ă©tude sur les critĂšres de dĂ©sambiguĂŻsation sĂ©mantique automatique basĂ©s sur les cooccurrences. L'algorithme de dĂ©sambiguĂŻsation utilisĂ© est du type liste de dĂ©cision, il sĂ©lectionne une cooccurrence unique supposĂ©e vĂ©hiculer lĂnformation la plus fiable dans le contexte ciblĂ©. Cette Ă©tude porte sur 60 vocables rĂ©partis, de maniĂšre Ă©gale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularitĂ© fine au niveau des sens. Nous commentons les rĂ©sultats obtenus par chacun des critĂšres Ă©valuĂ©s de maniĂšre indĂ©pendante et nous nous intĂ©ressons aux particularitĂ©s qui diffĂ©rencient les trois classes grammaticales Ă©tudiĂ©es. Cette Ă©tude s'appuie sur un corpus français Ă©tiquetĂ© sĂ©mantiquement dans le cadre du projet SyntSem
Gestion supervisĂ©e dâune unitĂ© de coagulation pour la potabilisation des eaux Ă partir dâune mĂ©thodologie dâapprentissage et dâexpertise
Le travail prĂ©sentĂ© propose une mĂ©thodologie de classification par apprentissage qui permet lâidentification des Ă©tats fonctionnels sur une unitĂ© de coagulation impliquĂ©e dans le traitement des eaux de surface. La supervision et le diagnostic de ce procĂ©dĂ© ont Ă©tĂ© rĂ©alisĂ©s en utilisant la mĂ©thode de classification LAMDA (Learning Algorithm for Multivariate Data Analysis). Cette mĂ©thodologie dâapprentissage et dâexpertise permet dâexploiter et dâagrĂ©ger toutes les informations provenant du procĂ©dĂ© et de son environnement ainsi que les connaissances de lâexpert. LâĂ©tude montre quâil est possible dâajouter aux informations issues des capteurs classiques (tempĂ©rature, matiĂšres en suspension, pH, conductivitĂ©, oxygĂšne dissous), la valeur de la dose de coagulant calculĂ©e par un capteur logiciel dĂ©veloppĂ© dans une Ă©tude antĂ©rieure afin dâaffiner le diagnostic. Le site dâapplication choisi pour lâidentification des Ă©tats fonctionnels est la station de production dâeau potable Rocade de la ville de Marrakech, Maroc.The present work proposes a learning classification method to identify the functional states of a coagulation process for the treatment of surface water and production of drinking water. Supervisory control and diagnosis were performed using the LAMDA (Learning Algorithm for Multivariate Data Analysis) classification technique. This expert learning method involves the processing and aggregation of all information stemming from an environmental process, and it allows the incorporation of the userâs knowledge. The study shows that it is possible to refine the diagnosis by taking into account the information obtained from common sensors (e.g., temperature, suspended solids, pH, conductivity, dissolved oxygen) together with the predicted coagulant dosage, as computed with an intelligent software sensor developed previously. The Rocade drinking water plant located at Marrakech, Morocco was chosen to test the method
Data Science : une formation internationale de niveau Master en science des données
International audienceWe present the international training program in Data Science at master 2 level. This program is supported by both Grenoble Alpes University and Grenoble INP. In this article, we elaborate on the specific features of the program, its strategic position, operating and historical features, the detailed contents of courses and perspectives of evolution.Nous présentons la formation internationale de niveau master 2 en Data Science de l'Université Grenoble Alpes et de Grenoble INP : spécificités et positionnement de la formation, fonctionnement et aspects historiques de sa création, programme de cours détaillé et perspectives d'évolution
Reconnaissance de documents assistée: architecture logicielle et intégration de savoir-faire
Cette thĂšse aborde la reconnaissance de documents suivant une approche assistĂ©e, qui vise Ă exploiter au mieux les compĂ©tences respectives de lâhomme et de la machine. Nos contributions portent notamment sur les questions dâarchitecture logicielle soulevĂ©es par la mise en oeuvre de systĂšmes de reconnaissance de documents. Les avantages dâun environnement coopĂ©ratif sont motivĂ©s par une analyse critique des systĂšmes actuels, et une projection sur les futures applications de la reconnaissance de documents. Diverses propositions concrĂštes sont Ă©mises sur la conduite du dialogue homme-machine, ainsi que sur les possibilitĂ©s dâamĂ©lioration Ă lâusage. Lâinventaire des donnĂ©es Ă gĂ©rer dans un systĂšme de reconnaissance est organisĂ© de façon modulaire et homogĂšne, et reprĂ©sentĂ© Ă lâaide du format standard DAFS Sur le plan du contrĂŽle, le systĂšme est dĂ©composĂ© selon une modĂ©lisation multi-agents. Cette dĂ©coupe conceptuelle est alors simulĂ©e dans notre plateforme de dĂ©veloppement, qui repose sur la programmation concurrente, distribuĂ©e, et multi-langages. Une solution expressive est proposĂ©e pour le couplage entre le noyau de lâapplication et lâinterface graphique. Le prototype qui a servi Ă valider lâarchitecture est prĂ©sentĂ©. Notre architecture logicielle encourage lâexploitation du savoir-faire typographique, par lâintermĂ©diaire dâun support de fontes standardisĂ©. Ce rapprochement entre les deux disciplines profite Ă la fois Ă lâergonomie, Ă la valorisation des rĂ©sultats de reconnaissance, et aux mĂ©thodes dâanalyse automatiques. Nous prĂ©sentons une poignĂ©e dâanalyseurs originaux, pour des tĂąches de reconnaissance de caractĂšres, dâidentification des fontes, ou de segmentation. Les expĂ©riences conduites en guise de premiĂšre Ă©valuation dĂ©montrent lâutilitĂ© potentielle de nos outils dâanalyse. Par ailleurs, une contribution est apportĂ©e au problĂšme de lâĂ©valuation des performances de systĂšmes de reconnaissance assistĂ©e, avec lâintroduction dâun nouveau modĂšle de coĂ»ts. Celui-ci intĂšgre lâinfluence du comportement de lâutilisateur, de mĂȘme que lâamĂ©lioration des performances liĂ©e au phĂ©nomĂšne dâapprentissage incrĂ©mental. Notre modĂšle de coĂ»ts est utilisĂ© dans des simulations, ainsi que dans des expĂ©riences mettant en jeu des analyseurs existants. Les observations mettent en Ă©vidence la dynamique particuliĂšre des systĂšmes assistĂ©s par rapport aux approches entiĂšrement automatiques.This thesis addresses the question of document recognition with an assisted perspective advocating an adequate combination between human and machine capabilities. Our contributions tackle various aspects of the underlying software architecture. Both a study of existing systems and a projection on some future applications of document recognition illustrate the need of cooperative environments. Several mechanisms are proposed to drive the human-machine dialog or to make the recognition systems able to improve with use. The various data involved in a recognition system are organized in a modular and homogeneous way. The whole information is represented using the DAFS standard format. In our proposition, the control is decentralized according to a multi-agent modelling. This conceptual scheme is then simulated on our development platform, using concurrent, distributed, and multi-languages programming. An expressive solution is proposed for the coupling between the application kernel and a graphical user interface. A prototype is realized to validate the whole architecture. Our software architecture takes advantage of the typographical know-how, through the use of a standardized font management support. This integrated approach lets us enhance the ergonomy, extend the possible use of the recognition results, and redefine some recognition techniques. A few innovative analyzers are described in the field of optical character recognition, font identification, or segmentation. The first experiments show that our simple methods behave surprisingly well, with respect to what can be expected from the state of the art. Besides, we bring a contribution to the problem of measuring the performance of cooperative recognition systems, through the introduction of a new cost model. Our notations are able to describe assisted recognition scenarios, where the user takes part in the process, and where the accuracy is modified dynamically thanks to incremental learning. Our cost model is used both in simulations and in experiments implying existing analyzers. The dynamic aspects of assisted systems can then be observed
- âŠ