9 research outputs found
Analyse morphologique non supervisée en domaine biomédical. Application à la recherche d'information
International audienceDans le domaine biomĂ©dical, utiliser des termes spĂ©cialisĂ©s est essentiel pour accĂ©der Ă l'information. Cependant, dans beaucoup de langues, ces termes sont des constructions morphologiques complexes qui compliquent cet accĂšs Ă l'information. Dans cet article, nous nous intĂ©ressons Ă l'identiïŹcation des composants morphologiques de ces termes et Ă leur utilisation pour une tĂąche de recherche d'information (RI). Nous proposons diffĂ©rentes approches reposant sur un alignement automatique avec une langue pivot particuliĂšre, le japonais, et sur un apprentissage par analogie permettant de produire des analyses morphologiques ïŹnes des termes d'une langue donnĂ©e. Ces analyses morphologiques sont ensuite utilisĂ©es pour amĂ©liorer l'indexation de documents biomĂ©dicaux. Les expĂ©riences rapportĂ©es montrent la validitĂ© de cette approche avec des gains en MAP de plus de 10 % par rapport Ă un systĂšme de RI standard
Contribution Ă lâamĂ©lioration de la recherche dâinformation par utilisation des mĂ©thodes sĂ©mantiques: application Ă la langue arabe
Un systĂšme de recherche dâinformation est un ensemble de programmes et de modules qui sert Ă interfacer avec lâutilisateur, pour prendre et interprĂ©ter une requĂȘte, faire la recherche dans lâindex et retourner un classement des documents sĂ©lectionnĂ©s Ă cet utilisateur. Cependant le plus grand challenge de ce systĂšme est quâil doit faire face au grand volume dâinformations multi modales
et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la premiÚre nous avons
proposĂ© une nouvelle approche pour la reformulation des requĂȘtes dans le contexte de la recherche dâinformation en arabe. Le principe est donc de reprĂ©senter la requĂȘte par un arbre sĂ©mantique pondĂ©rĂ© pour mieux identifier le besoin d'information de l'utilisateur, dont les nĆuds reprĂ©sentent les concepts (synsets) reliĂ©s par des relations sĂ©mantiques. La construction de cet arbre est rĂ©alisĂ©e
par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du
WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les
performances du systĂšme de recherche dâinformation. Dans la deuxiĂšme contribution, nous avons aussi proposĂ© une nouvelle approche pour la construction dâune collection de test de recherche dâinformation arabe. L'approche repose sur la combinaison de la mĂ©thode de la stratĂ©gie de Pooling utilisant les moteurs de recherches et lâalgorithme NaĂŻve-Bayes de classification par lâapprentissage automatique. Pour lâexpĂ©rimentation nous avons crĂ©Ă© une nouvelle collection de test composĂ©e dâune base documentaire de 632
documents et de 165 requĂȘtes avec leurs jugements de pertinence sous plusieurs topics. LâexpĂ©rimentation a Ă©galement montrĂ© lâefficacitĂ© du classificateur BayĂ©sien pour la rĂ©cupĂ©ration de pertinences des documents, encore plus, il a rĂ©alisĂ© des bonnes performances
aprĂšs lâenrichissement sĂ©mantique de la base documentaire par le modĂšle word2vec
Contribution Ă la construction dâontologies et Ă la recherche dâinformation : application au domaine mĂ©dical
This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimerâs disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimerâs disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighborsâ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise Ă permettre un accĂšs efficace Ă des informations pertinentes malgrĂ© le volume croissant des donnĂ©es disponibles au format Ă©lectronique. Pour cela, nous avons Ă©tudiĂ© lâapport dâune ontologie au sein dâun systĂšme de recherche d'information (RI).Nous avons tout dâabord dĂ©crit une mĂ©thodologie de construction dâontologies. Ainsi, nous avons proposĂ© une mĂ©thode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances Ă partir de textes et la rĂ©utilisation de ressources sĂ©mantiques existantes pour lâĂ©tape de conceptualisation. Nous avons par ailleurs dĂ©veloppĂ© une mĂ©thode dâalignement de termes français-anglais pour lâenrichissement terminologique de lâontologie. Lâapplication de notre mĂ©thodologie a permis de crĂ©er une ontologie bilingue de la maladie dâAlzheimer.Ensuite, nous avons Ă©laborĂ© des algorithmes pour supporter la RI sĂ©mantique guidĂ©e par une ontologie. Les concepts issus dâune ontologie ont Ă©tĂ© utilisĂ©s pour dĂ©crire automatiquement les documents mais aussi pour reformuler les requĂȘtes. Nous nous sommes intĂ©ressĂ©s Ă : 1) lâidentification de concepts reprĂ©sentatifs dans des corpus, 2) leur dĂ©sambiguĂŻsation, 3), leur pondĂ©ration selon le modĂšle vectoriel, adaptĂ© aux concepts et 4) lâexpansion de requĂȘtes. Ces propositions ont permis de mettre en Ćuvre un portail de RI sĂ©mantique dĂ©diĂ© Ă la maladie dâAlzheimer. Par ailleurs, le contenu des documents Ă indexer nâĂ©tant pas toujours accessible dans leur ensemble, nous avons exploitĂ© des informations incomplĂštes pour dĂ©terminer les concepts pertinents permettant malgrĂ© tout de dĂ©crire les documents. Pour cela, nous avons proposĂ© deux mĂ©thodes de classification de documents issus dâun large corpus, lâune basĂ©e sur lâalgorithme des k plus proches voisins et lâautre sur lâanalyse sĂ©mantique explicite. Ces mĂ©thodes ont Ă©tĂ© Ă©valuĂ©es sur de larges collections de documents biomĂ©dicaux fournies lors dâun challenge international
Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie
Lâobjectif de cette Ă©tude est de repĂ©rer des nĂ©ologismes Ă partir de corpus de textes français au moyen dâune mĂ©thode semi-automatique. Plus prĂ©cisĂ©ment, nous extrayons les nĂ©ologismes de corpus associĂ©s Ă deux domaines diffĂ©rents, mais traitant du mĂȘme thĂšme, nous examinons leur rĂ©partition et nous les classons selon leur type.
LâĂ©tude sâappuie sur lâanalyse de corpus traitant des mĂ©dias sociaux. Le premier aborde les mĂ©dias sociaux du point de vue de la communication, lâautre le fait du point de vue de lâinformatique. Ces points de vue ont Ă©tĂ© privilĂ©giĂ©s, car la communication considĂšre ce qui a trait lâutilisation des mĂ©dias sociaux et lâinformatique aborde leur cartographie. La mĂ©thode fait appel Ă lâextracteur de termes TermoStat pour recenser la terminologie des mĂ©dias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spĂ©cifiques de chaque point de vue Ă une mĂ©thode de validation divisĂ©e en trois tests destinĂ©s Ă valider leur statut nĂ©ologique : des dictionnaires spĂ©cialisĂ©s, des dictionnaires de langue gĂ©nĂ©rale et un outil de visualisation de n-grammes. Finalement, nous Ă©tiquetons les nĂ©ologismes selon la typologie de Dubuc (2002). Lâanalyse des rĂ©sultats de la communication et de lâinformatique est comparative.
La comparaison des deux corpus rĂ©vĂšle les contributions respectives de la communication et de l'informatique Ă la terminologie des mĂ©dias sociaux en plus de montrer les termes communs aux deux disciplines. LâĂ©tude a Ă©galement permis de repĂ©rer 60 nĂ©ologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs Ă celui de lâinformatique et 4 communs aux deux corpus. La recherche rĂ©vĂšle Ă©galement que les composĂ©s par subordination sont les types de nĂ©ologismes les plus prĂ©sents dans nos rĂ©sultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type.
This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social mediaâs utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubucâs (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method.
The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results
Actes de la 6e confĂ©rence conjointe JournĂ©es d'Ătudes sur la Parole (JEP, 33e Ă©dition), Traitement Automatique des Langues Naturelles (TALN, 27e Ă©dition), Rencontre des Ătudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RĂCITAL, 22e Ă©dition. Volume 2 : Traitement Automatique des Langues Naturelles
@ 6Úme conférence conjointe: JEP-TALN-RECITAL 2020no abstrac
Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018: Volume 2 : Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
International audienc
La communautĂ© professionnelle du secteur de lâintelligence artificielle Ă MontrĂ©al
Cette thĂšse a pour objet les liens sociaux entre les travailleurs du secteur de lâintelligence artificielle (IA) Ă MontrĂ©al, mĂ©tropole qui connaĂźt depuis les annĂ©es 2010 un engouement social, Ă©conomique, politique et mĂ©diatique pour ce secteur peu touchĂ© par la crise et par lâinstabilitĂ© en emploi. Les travailleurs de lâIA occupent des emplois aux savoirs et aux savoir-faire hĂ©tĂ©rogĂšnes et collaborent directement et indirectement pour construire collectivement les passerelles entre la science et la technologie.
Au croisement de la sociologie des professions et de la sociologie du lien social, cette recherche interroge les caractĂ©ristiques des liens entre ces travailleurs mais aussi lâorganisation symbolique dans laquelle ils sont intĂ©grĂ©s. Elle mobilise le concept de communautĂ© professionnelle pour dĂ©signer dâune part les travailleurs de lâIA dans leur ensemble, et dâautre part, ce pouvoir moral qui unit leurs intĂ©rĂȘts individuels autant quâil les dĂ©passe. En Ă©tudiant leurs modes dâintĂ©gration, dâengagement dans lâactivitĂ©, de reconnaissance et de protection, il ressort que lâintĂ©rĂȘt partagĂ© pour lâintelligence artificielle et la satisfaction de participer à « lâessor » de son secteur dâactivitĂ© caractĂ©risent significativement les liens qui les unissent. La popularitĂ© politique et Ă©conomique du label « IA » renforce le prestige des travailleurs, qui doivent en retour continuer de renforcer sa lĂ©gitimitĂ© dans lâespace social. Construites sur une approche mixte, les analyses rĂ©vĂšlent en effet que ces liens entrainent des formes de dĂ©pendance et des rapports de pouvoir symbolique entre les professionnels et les travailleurs de mĂ©tier qui composent la communautĂ© professionnelle de lâIA.This dissertation investigates the social bonds between workers in the artificial intelligence
(AI) industry in Montreal. Through the 2010s, this city has manifested a growing social, economic,
political and media interest for this sector still rather sheltered from the crisis and job instability.
AI workers occupy jobs requiring a variety of knowledge and skills and collaborate both directly
and indirectly to build collectively the bridges between science and technology.
At the intersection of the sociology of professions and Durkheimâs sociology of the social
bond, this dissertation examines the ties that characterize these workers relationships but also the
symbolic structure in which they are integrated. I use the concept of professional community to
designate, on the one hand, AI workers as a whole, and on the other hand, this moral force that
unites their individual interests as much as it transcends them. Through an analysis of their modes
of integration, commitment to the activity, recognition, and protection, I argue that the bonds that
unite the AI workers are characterized by a shared interest in artificial intelligence and the
satisfaction of participating in the AI âboomâ. The political and economical popularity of the âAIâ
label reinforces the prestige of the workers, who in return must continue to strengthen the
legitimacy of the sector in the public sphere. Built on a mixed approach, the analyses presented in
this dissertation show that these bonds lead to dependencies and symbolic power relationships
between the professionals and the workers in the AI professional community
Art et mal-voyance Ă l'Ă©preuve : un paradoxe fertile
This dissertation focuses on the link between the human visual system â examined from a scientific point of view â and the personal plastic expression relating facilities and photographs which deal with visual impairment. How can art be made accessible to everybody? To answer this question I explored the links between art and science and I demonstrated that both deal with perception: art develops our sensitive approach whereas science relies on a deep knowledge of the eye and can alleviate its failures. I examined perception from a theoretical point of view, dwelling on the Gestalt theory as well as on the phenomena deriving from illusions and the synesthesia which emphasizes senses association. I then dealt with blindness, first with its terminology and statistics and then with the psychological and practical life experience of the visually impaired. Against this backdrop, my research led me to investigate the image of the visually impaired through literature and art in western culture. I assessed its evolution first from an analysis of its image in ancient Greece, then through a book entitled Les Aveugles by Sophie Calle and also through the Blue Period of melancholy Picasso. This led me to examine how the visually impaired connect with art in order to gauge how fundamental Braille is in painting, sculpture, photography performance etc. How can we perceive art without resorting to visual perception? By developing all other senses or by relying on visual perception economy? Architecture adapts to legal standards while developing a kind of inventiveness which enriches the âliving togetherâ. Regarding scientific innovations, revolutionary tools are being proposed such as sensory replacement devices, the artificial eye or a camera for the visually impaired. The perception being the key of a communication between clairvoyant and visually impaired.Cette thĂšse met en valeur une correspondance entre le systĂšme visuel humain dâun point de vue strictement scientifique et une expression plastique personnelle associant installations et photographies questionnant la mal-voyance. Comment rendre l'art accessible Ă tous ? Pour rĂ©pondre Ă cette question nous avons interrogĂ© les relations entre art et science et montrĂ© quâils sont tous deux concernĂ©s par la perception : lâart, car il dĂ©veloppe une approche sensible, la science, car elle sâappuie sur une connaissance approfondie de lâĆil et peut en pallier les dĂ©faillances. Nous avons Ă©tudiĂ© la perception dâun point vue thĂ©orique en nous attardant sur la thĂ©orie de la Gestalt, ainsi que les phĂ©nomĂšnes que constituent les illusions et la synesthĂ©sie qui met en avant lâassociation des sens. Nous avons ensuite abordĂ© la cĂ©citĂ© Ă partir des points de vue terminologique et statistique, puis du vĂ©cu psychique et pratique du mal-voyant. Forts de cela, notre propos repĂšre comment sâimpose la figure de lâaveugle dans la culture occidentale Ă travers la littĂ©rature et les arts. De sa considĂ©ration au cours de la GrĂšce antique Ă lâouvrage, Les Aveugles, de Sophie Calle en passant par le Picasso mĂ©lancolique de la pĂ©riode bleue, nous avons pu apprĂ©cier lâĂ©volution de son image. Il est alors temps de se pencher sur les rapports que le mal-voyant entretient avec lâart et, dans ce cadre lâintĂ©rĂȘt que peut revĂȘtir le braille qui infiltre la peinture, la sculpture, la photographie, la performance, etc. Comment apprĂ©hender lâart sans passer par le visuel en dĂ©veloppant tous les autres sens ou en misant sur lâĂ©conomie du visible ? Lâarchitecture quant-Ă elle sâadapte aux normes juridiques tout en dĂ©veloppant une crĂ©ativitĂ© qui enrichit le vivre ensemble. Les innovations de la science en arrivent Ă proposer des outils rĂ©volutionnaires comme les dispositifs de substitution sensorielle, lâĆil artificiel, ou encore un appareil photographie pour les mal-voyants. La perception Ă©tant la clĂ© dâune communication entre voyant et mal-voyant