14,999 research outputs found

    Les ForĂȘts AlĂ©atoires en Apprentissage Semi-SupervisĂ© (Co-forest) pour la segmentation des images rĂ©tiniennes

    Get PDF
    Nous proposons une approche qui permet la reconnaissance automatique des rĂ©gions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisĂ©. Une Ă©tude comparative de plusieurs techniques est proposĂ©e. Le principe repose sur une croissance de rĂ©gion en classifiant les pixels voisins Ă  partir des pixels d'intĂ©rĂȘt de l'image par apprentissage semi-supervisĂ©. Les points d'intĂ©rĂȘt sont dĂ©tectĂ©s par l'algorithme Fuzzy C-means (FCM)

    Éditorial

    No full text
    Nous avons le plaisir de publier dans la revue Alsic ce numĂ©ro thĂ©matique consacrĂ© au traitement automatique des langues (Tal) et Ă  l'apprentissage des langues. Les six articles regroupĂ©s Ă  cette occasion sont des versions Ă©tendues et relues par notre comitĂ© scientifique d'articles originellement prĂ©sentĂ©s lors de la journĂ©e d'Ă©tude de l'Atala (Association pour le Traitement Automatique des Langues) le 22 octobre 2004 Ă  Grenoble. MĂȘme si notre revue a dĂ©jĂ  ouvert ses colonnes Ă  des articles appartenant Ă  ce domaine de recherche, c'est la premiĂšre fois que nous pouvons en prĂ©senter un panorama reprĂ©sentatif des thĂ©matiques qui la traversent : systĂšme de traitement de corpus textuels, dictionnaires Ă©lectroniques, gĂ©nĂ©rateurs d'activitĂ©s lexico-grammaticales, systĂšmes de diagnostic des connaissances de l'apprenant, systĂšme de traitement de la prosodie et de l'intonation. A ces thĂšmes, on peut ajouter, sans chercher pour autant l'exhaustivitĂ©, ceux abordĂ©s dans deux articles rĂ©cents, articles dont les auteurs Ă©taient Ă©galement prĂ©sents Ă  la journĂ©e de l'Atala : le diagnostic d'erreur (LÂŽhaire & Vandeventer-Faltin, 2003) et la simulation (Michel & Lehuen, 2005)

    Du quatriùme de proportion comme principe inductif : une proposition et son application à l’apprentissage de la morphologie

    Get PDF
    Nous prĂ©sentons un modĂšle d’apprentissage par analogie qui exploite la notion de proportions analogiques formelles ; cette approche prĂ©suppose de savoir donner un sens Ă  ces proportions et de pouvoir implanter efficacement leur calcul. Nous proposons une dĂ©finition algĂ©brique de cette notion, valable pour les structures utilisĂ©es couramment pour les reprĂ©- sentations linguistiques : mots sur un alphabet fini, structures attribut-valeur, arbres Ă©tiquetĂ©s. Nous prĂ©sentons ensuite une application Ă  une tĂąche concrĂšte, consistant Ă  apprendre Ă  ana- lyser morphologiquement des formes orthographiques inconnues. Des rĂ©sultats expĂ©rimentaux sur plusieurs lexiques permettent d’apprĂ©cier la validitĂ© de notre dĂ©marche

    Une approche par apprentissage basée sur des modÚles linguistiques

    No full text
    International audienceNous proposons une double amélioration des systÚmes de filtrage de courriels existants. D'une part, en utilisant une méthode d'apprentissage automatique permettant à un systÚme de filtrage d'élaborer des profils utilisateur. D'autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modÚles réduits issues de modÚles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l'utilisation de connaissances et de traitements linguistiques peut améliorer les performances d'un systÚme de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d'indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d'application et la fiabilité repose sur l'opération d'apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d'évaluer son efficacité, nous l'avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d'un ensemble d'expériences d'évaluation

    Peut-on bien chunker avec de mauvaises Ă©tiquettes POS ?

    Get PDF
    http://www.taln2014.org/site/actes-en-ligne/actes-en-ligne-articles-taln/National audienceDans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d'abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l'oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu'il est possible d'apprendre un nouveau chunker performant pour l'oral à partir d'un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS. Abstract. In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS label

    Filtrage automatique de courriels : une approche adaptative et multi niveaux

    No full text
    International audienceCet article propose un systĂšme de courriers Ă©lectroniques paramĂ©trable avec plusieurs niveaux de filtrage: un filtrage simple basĂ© sur l'information contenue dans l'entĂȘte du courriel ; un filtrage boolĂ©en basĂ© sur l'existence ou non de mots clĂ©s dans le corps du courriel ; un filtrage vectoriel basĂ© sur le poids de contribution des mots clĂ©s du courriel ; un filtrage approfondi basĂ© sur les propriĂ©tĂ©s linguistiques caractĂ©risant la structure et le contenu du courriel. Nous proposons une solution adaptative qui offre au systĂšme la possibilitĂ© d'apprendre Ă  partir de donnĂ©es, de modifier ses connaissances et de s'adapter Ă  l'Ă©volution des intĂ©rĂȘts de l'utilisateur et Ă  la variation de la nature des courriels dans le temps. De plus, nous utilisons un rĂ©seau lexical permettant d'amĂ©liorer la reprĂ©sentation du courriel en prenant en considĂ©ration l'aspect sĂ©mantique.<BR /

    Étude des critĂšres de dĂ©sambiguĂŻsation sĂ©mantique automatique : rĂ©sultats sur les cooccurrences

    No full text
    pp. 35-44Nous présentons dans cet article une étude sur les critÚres de désambiguïsation sémantique automatique basés sur les cooccurrences. L'algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer línformation la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de maniÚre égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critÚres évalués de maniÚre indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s'appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem

    Gestion supervisĂ©e d’une unitĂ© de coagulation pour la potabilisation des eaux Ă  partir d’une mĂ©thodologie d’apprentissage et d’expertise

    Get PDF
    Le travail prĂ©sentĂ© propose une mĂ©thodologie de classification par apprentissage qui permet l’identification des Ă©tats fonctionnels sur une unitĂ© de coagulation impliquĂ©e dans le traitement des eaux de surface. La supervision et le diagnostic de ce procĂ©dĂ© ont Ă©tĂ© rĂ©alisĂ©s en utilisant la mĂ©thode de classification LAMDA (Learning Algorithm for Multivariate Data Analysis). Cette mĂ©thodologie d’apprentissage et d’expertise permet d’exploiter et d’agrĂ©ger toutes les informations provenant du procĂ©dĂ© et de son environnement ainsi que les connaissances de l’expert. L’étude montre qu’il est possible d’ajouter aux informations issues des capteurs classiques (tempĂ©rature, matiĂšres en suspension, pH, conductivitĂ©, oxygĂšne dissous), la valeur de la dose de coagulant calculĂ©e par un capteur logiciel dĂ©veloppĂ© dans une Ă©tude antĂ©rieure afin d’affiner le diagnostic. Le site d’application choisi pour l’identification des Ă©tats fonctionnels est la station de production d’eau potable Rocade de la ville de Marrakech, Maroc.The present work proposes a learning classification method to identify the functional states of a coagulation process for the treatment of surface water and production of drinking water. Supervisory control and diagnosis were performed using the LAMDA (Learning Algorithm for Multivariate Data Analysis) classification technique. This expert learning method involves the processing and aggregation of all information stemming from an environmental process, and it allows the incorporation of the user’s knowledge. The study shows that it is possible to refine the diagnosis by taking into account the information obtained from common sensors (e.g., temperature, suspended solids, pH, conductivity, dissolved oxygen) together with the predicted coagulant dosage, as computed with an intelligent software sensor developed previously. The Rocade drinking water plant located at Marrakech, Morocco was chosen to test the method

    Data Science : une formation internationale de niveau Master en science des données

    Get PDF
    International audienceWe present the international training program in Data Science at master 2 level. This program is supported by both Grenoble Alpes University and Grenoble INP. In this article, we elaborate on the specific features of the program, its strategic position, operating and historical features, the detailed contents of courses and perspectives of evolution.Nous présentons la formation internationale de niveau master 2 en Data Science de l'Université Grenoble Alpes et de Grenoble INP : spécificités et positionnement de la formation, fonctionnement et aspects historiques de sa création, programme de cours détaillé et perspectives d'évolution

    Reconnaissance de documents assistée: architecture logicielle et intégration de savoir-faire

    Get PDF
    Cette thĂšse aborde la reconnaissance de documents suivant une approche assistĂ©e, qui vise Ă  exploiter au mieux les compĂ©tences respectives de l’homme et de la machine. Nos contributions portent notamment sur les questions d’architecture logicielle soulevĂ©es par la mise en oeuvre de systĂšmes de reconnaissance de documents. Les avantages d’un environnement coopĂ©ratif sont motivĂ©s par une analyse critique des systĂšmes actuels, et une projection sur les futures applications de la reconnaissance de documents. Diverses propositions concrĂštes sont Ă©mises sur la conduite du dialogue homme-machine, ainsi que sur les possibilitĂ©s d’amĂ©lioration Ă  l’usage. L’inventaire des donnĂ©es Ă  gĂ©rer dans un systĂšme de reconnaissance est organisĂ© de façon modulaire et homogĂšne, et reprĂ©sentĂ© Ă  l’aide du format standard DAFS Sur le plan du contrĂŽle, le systĂšme est dĂ©composĂ© selon une modĂ©lisation multi-agents. Cette dĂ©coupe conceptuelle est alors simulĂ©e dans notre plateforme de dĂ©veloppement, qui repose sur la programmation concurrente, distribuĂ©e, et multi-langages. Une solution expressive est proposĂ©e pour le couplage entre le noyau de l’application et l’interface graphique. Le prototype qui a servi Ă  valider l’architecture est prĂ©sentĂ©. Notre architecture logicielle encourage l’exploitation du savoir-faire typographique, par l’intermĂ©diaire d’un support de fontes standardisĂ©. Ce rapprochement entre les deux disciplines profite Ă  la fois Ă  l’ergonomie, Ă  la valorisation des rĂ©sultats de reconnaissance, et aux mĂ©thodes d’analyse automatiques. Nous prĂ©sentons une poignĂ©e d’analyseurs originaux, pour des tĂąches de reconnaissance de caractĂšres, d’identification des fontes, ou de segmentation. Les expĂ©riences conduites en guise de premiĂšre Ă©valuation dĂ©montrent l’utilitĂ© potentielle de nos outils d’analyse. Par ailleurs, une contribution est apportĂ©e au problĂšme de l’évaluation des performances de systĂšmes de reconnaissance assistĂ©e, avec l’introduction d’un nouveau modĂšle de coĂ»ts. Celui-ci intĂšgre l’influence du comportement de l’utilisateur, de mĂȘme que l’amĂ©lioration des performances liĂ©e au phĂ©nomĂšne d’apprentissage incrĂ©mental. Notre modĂšle de coĂ»ts est utilisĂ© dans des simulations, ainsi que dans des expĂ©riences mettant en jeu des analyseurs existants. Les observations mettent en Ă©vidence la dynamique particuliĂšre des systĂšmes assistĂ©s par rapport aux approches entiĂšrement automatiques.This thesis addresses the question of document recognition with an assisted perspective advocating an adequate combination between human and machine capabilities. Our contributions tackle various aspects of the underlying software architecture. Both a study of existing systems and a projection on some future applications of document recognition illustrate the need of cooperative environments. Several mechanisms are proposed to drive the human-machine dialog or to make the recognition systems able to improve with use. The various data involved in a recognition system are organized in a modular and homogeneous way. The whole information is represented using the DAFS standard format. In our proposition, the control is decentralized according to a multi-agent modelling. This conceptual scheme is then simulated on our development platform, using concurrent, distributed, and multi-languages programming. An expressive solution is proposed for the coupling between the application kernel and a graphical user interface. A prototype is realized to validate the whole architecture. Our software architecture takes advantage of the typographical know-how, through the use of a standardized font management support. This integrated approach lets us enhance the ergonomy, extend the possible use of the recognition results, and redefine some recognition techniques. A few innovative analyzers are described in the field of optical character recognition, font identification, or segmentation. The first experiments show that our simple methods behave surprisingly well, with respect to what can be expected from the state of the art. Besides, we bring a contribution to the problem of measuring the performance of cooperative recognition systems, through the introduction of a new cost model. Our notations are able to describe assisted recognition scenarios, where the user takes part in the process, and where the accuracy is modified dynamically thanks to incremental learning. Our cost model is used both in simulations and in experiments implying existing analyzers. The dynamic aspects of assisted systems can then be observed
    • 

    corecore