93 research outputs found

    Contribution Ă  l’amĂ©lioration de la recherche d’information par utilisation des mĂ©thodes sĂ©mantiques: application Ă  la langue arabe

    Get PDF
    Un systĂšme de recherche d’information est un ensemble de programmes et de modules qui sert Ă  interfacer avec l’utilisateur, pour prendre et interprĂ©ter une requĂȘte, faire la recherche dans l’index et retourner un classement des documents sĂ©lectionnĂ©s Ă  cet utilisateur. Cependant le plus grand challenge de ce systĂšme est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons prĂ©sentĂ© deux contributions. Dans la premiĂšre nous avons proposĂ© une nouvelle approche pour la reformulation des requĂȘtes dans le contexte de la recherche d’information en arabe. Le principe est donc de reprĂ©senter la requĂȘte par un arbre sĂ©mantique pondĂ©rĂ© pour mieux identifier le besoin d'information de l'utilisateur, dont les nƓuds reprĂ©sentent les concepts (synsets) reliĂ©s par des relations sĂ©mantiques. La construction de cet arbre est rĂ©alisĂ©e par la mĂ©thode de la Pseudo-RĂ©injection de la Pertinence combinĂ©e Ă  la ressource sĂ©mantique du WordNet Arabe. Les rĂ©sultats expĂ©rimentaux montrent une bonne amĂ©lioration dans les performances du systĂšme de recherche d’information. Dans la deuxiĂšme contribution, nous avons aussi proposĂ© une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la mĂ©thode de la stratĂ©gie de Pooling utilisant les moteurs de recherches et l’algorithme NaĂŻve-Bayes de classification par l’apprentissage automatique. Pour l’expĂ©rimentation nous avons crĂ©Ă© une nouvelle collection de test composĂ©e d’une base documentaire de 632 documents et de 165 requĂȘtes avec leurs jugements de pertinence sous plusieurs topics. L’expĂ©rimentation a Ă©galement montrĂ© l’efficacitĂ© du classificateur BayĂ©sien pour la rĂ©cupĂ©ration de pertinences des documents, encore plus, il a rĂ©alisĂ© des bonnes performances aprĂšs l’enrichissement sĂ©mantique de la base documentaire par le modĂšle word2vec

    Amélioration des systÚmes de traduction par analyse linguistique et thématique (Application à la traduction depuis l'arabe)

    Get PDF
    La traduction automatique des documents est considĂ©rĂ©e comme l une des tĂąches les plus difficiles en traitement automatique des langues et de la parole. Les particularitĂ©s linguistiques de certaines langues, comme la langue arabe, rendent la tĂąche de traduction automatique plus difficile. Notre objectif dans cette thĂšse est d'amĂ©liorer les systĂšmes de traduction de l'arabe vers le français et vers l'anglais. Nous proposons donc une Ă©tude dĂ©taillĂ©e sur ces systĂšmes. Les principales recherches portent Ă  la fois sur la construction de corpus parallĂšles, le prĂ©traitement de l'arabe et sur l'adaptation des modĂšles de traduction et de langue.Tout d'abord, un corpus comparable journalistique a Ă©tĂ© explorĂ© pour en extraire automatiquement un corpus parallĂšle. Ensuite, diffĂ©rentes approches d adaptation du modĂšle de traduction sont exploitĂ©es, soit en utilisant le corpus parallĂšle extrait automatiquement soit en utilisant un corpus parallĂšle construit automatiquement.Nous dĂ©montrons que l'adaptation des donnĂ©es du systĂšme de traduction permet d'amĂ©liorer la traduction. Un texte en arabe doit ĂȘtre prĂ©traitĂ© avant de le traduire et ceci Ă  cause du caractĂšre agglutinatif de la langue arabe. Nous prĂ©sentons notre outil de segmentation de l'arabe, SAPA (Segmentor and Part-of-speech tagger for Arabic), indĂ©pendant de toute ressource externe et permettant de rĂ©duire les temps de calcul. Cet outil permet de prĂ©dire simultanĂ©ment l Ă©tiquette morpho-syntaxique ainsi que les proclitiques (conjonctions, prĂ©positions, etc.) pour chaque mot, ensuite de sĂ©parer les proclitiques du lemme (ou mot de base). Nous dĂ©crivons Ă©galement dans cette thĂšse notre outil de dĂ©tection des entitĂ©s nommĂ©es, NERAr (Named Entity Recognition for Arabic), et nous examions l'impact de l'intĂ©gration de la dĂ©tection des entitĂ©s nommĂ©es dans la tĂąche de prĂ©traitement et la prĂ©-traduction de ces entitĂ©s nommĂ©es en utilisant des dictionnaires bilingues. Nous prĂ©sentons par la suite plusieurs mĂ©thodes pour l'adaptation thĂ©matique des modĂšles de traduction et de langue expĂ©rimentĂ©es sur une application rĂ©elle contenant un corpus constituĂ© d un ensemble de phrases multicatĂ©goriques.Ces expĂ©riences ouvrent des perspectives importantes de recherche comme par exemple la combinaison de plusieurs systĂšmes lors de la traduction pour l'adaptation thĂ©matique. Il serait Ă©galement intĂ©ressant d'effectuer une adaptation temporelle des modĂšles de traduction et de langue. Finalement, les systĂšmes de traduction amĂ©liorĂ©s arabe-français et arabe-anglais sont intĂ©grĂ©s dans une plateforme d'analyse multimĂ©dia et montrent une amĂ©lioration des performances par rapport aux systĂšmes de traduction de base.Machine Translation is one of the most difficult tasks in natural language and speech processing. The linguistic peculiarities of some languages makes the machine translation task more difficult. In this thesis, we present a detailed study of machine translation systems from arabic to french and to english.Our principle researches carry on building parallel corpora, arabic preprocessing and adapting translation and language models. We propose a method for automatic extraction of parallel news corpora from a comparable corpora. Two approaches for translation model adaptation are explored using whether parallel corpora extracted automatically or parallel corpora constructed automatically. We demonstrate that adapting data used to build machine translation system improves translation.Arabic texts have to be preprocessed before machine translation and this because of the agglutinative character of arabic language. A prepocessing tool for arabic, SAPA (Segmentor and Part-of-speech tagger for Arabic), much faster than the state of the art tools and totally independant of any other external resource was developed. This tool predicts simultaneously morphosyntactic tags and proclitics (conjunctions, prepositions, etc.) for every word, then splits off words into lemma and proclitics.We describe also in this thesis, our named entity recognition tool for arabic, NERAr, and we focus on the impact of integrating named entity recognition in the preprocessing task. We used bilingual dictionaries to propose translations of the detected named entities. We present then many approaches to adapt thematically translation and language models using a corpora consists of a set of multicategoric sentences.These experiments open important research perspectives such as combining many systems when translating. It would be interesting also to focus on a temporal adaptation of translation and language models.Finally, improved machine translation systems from arabic to french and english are integrated in a multimedia platform analysis and shows improvements compared to basic machine translation systems.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    DiversitĂ© et recommandation : une investigation sur l’apport de la fouille d’opinions pour la distinction d’articles d’opinion dans une controverse mĂ©diatique

    Full text link
    Les plateformes de consultation d’articles de presse en format numĂ©rique comme Google ActualitĂ©s et Yahoo! ActualitĂ©s sont devenues de plus en plus populaires pour la recherche et la lecture de l’information journalistique en ligne. Dans le but d’aider les usagers Ă  s’orienter parmi la multitude de sources d’information, ces plateformes intĂšgrent Ă  leurs moteurs de recherche des mĂ©canismes de filtrage automatisĂ©s, connus comme systĂšmes de recommandation. Ceux-ci aident les usagers Ă  retrouver des ressources informationnelles qui correspondent davantage Ă  leurs intĂ©rĂȘts et goĂ»ts personnels, en prenant comme base des comportements antĂ©rieurs, par exemple, l’historique de documents consultĂ©s. Cependant, ces systĂšmes peuvent nuire Ă  la diversitĂ© d’idĂ©es et de perspectives politiques dans l’environnement informationnel qu’ils crĂ©ent : la gĂ©nĂ©ration de rĂ©sultats de recherche ou de recommandations excessivement spĂ©cialisĂ©es, surtout dans le contexte de la presse en ligne, pourrait cacher des idĂ©es qui sont importantes dans un dĂ©bat. Quand l’environnement informationnel est insuffisamment divers, il y a un manque d’opportunitĂ© pour produire l’enquĂȘte ouverte, le dialogique et le dĂ©saccord constructif, ce qui peut rĂ©sulter dans l’émergence d’opinions extrĂ©mistes et la dĂ©gradation gĂ©nĂ©rale du dĂ©bat. Les travaux du domaine de l’intelligence artificielle qui tentent de rĂ©pondre au problĂšme de la diversitĂ© dans les systĂšmes de recommandation d’articles de presse sont confrontĂ©s par plusieurs questions, dont la reprĂ©sentation de textes numĂ©riques dans le modĂšle vectoriel Ă  partir d’un ensemble de mots statistiquement discriminants dans ces textes, ainsi que le dĂ©veloppement d’une mesure statistique capable de maximiser la diffĂ©rence entre des articles similaires qui sont retournĂ©s lors d’un processus de recommandation Ă  un usager. Un courant de recherche propose des systĂšmes de recommandation basĂ©s sur des techniques de fouille d’opinions afin de dĂ©tecter de maniĂšre automatique la diffĂ©rence d’opinions entre des articles de presse qui traitent d’un mĂȘme thĂšme lors du processus de recommandation. Dans cette approche, la reprĂ©sentation des textes numĂ©riques se fait par un ensemble de mots qui peuvent ĂȘtre associĂ©s, dans les textes, Ă  l’expression d’opinions, comme les adjectifs et les Ă©motions. NĂ©anmoins, ces techniques s’avĂšrent moins efficaces pour dĂ©tecter les diffĂ©rences entre les opinions relatives Ă  un dĂ©bat public argumentĂ©, puisque l’expression de l’opinion dans les discussions politiques n’est pas nĂ©cessairement liĂ©e Ă  l’expression de la subjectivitĂ© ou des Ă©motions du journaliste. Notre recherche doctorale s’inscrit dans l’objectif de (1) systĂ©matiser et de valider une mĂ©thodologie de fouille d’opinions permettant d’assister l’identification d’opinions divergentes dans le cadre d’une controverse et (2) d’explorer l’applicabilitĂ© de cette mĂ©thodologie pour un systĂšme de recommandation d’articles de presse. Nous assimilons la controverse Ă  un type de dĂ©bat d’opinions dans la presse, dont la particularitĂ© est la formation de camps explicitement opposĂ©s quant Ă  la façon de voir et de comprendre une question d’importance pour la collectivitĂ©. Notre recherche apporte des questionnements sur la dĂ©finition d’opinion dans ce contexte prĂ©cis et discute la pertinence d’exploiter les thĂ©ories discursives et Ă©nonciatives dans les recherches de fouille d’opinions. Le corpus expĂ©rimental est composĂ© par 495 articles d’opinion publiĂ©s dans la presse au sujet de la mobilisation Ă©tudiante du QuĂ©bec en 2012 contre la hausse de droits de scolaritĂ© annoncĂ©e par le gouvernement de Jean Charest. Ils ont Ă©tĂ© classĂ©s dans deux catĂ©gories, ETUD et GOUV, en fonction du type d’opinion qu’ils vĂ©hiculent. Soit ils sont favorables aux Ă©tudiants et Ă  la continuitĂ© de la grĂšve soit favorables au gouvernement et critiques envers le mouvement de grĂšve. Sur le plan mĂ©thodologique, notre recherche se base sur la dĂ©marche proposĂ©e par les travaux qui explorent des techniques du champ de la linguistique du corpus dans la fouille d’opinions, ainsi que les concepts de la sĂ©mantique interprĂ©tative de François Rastier. Elle systĂ©matise les Ă©tapes de cette dĂ©marche, en prĂ©conisant la description des textes du corpus, pour relever et interprĂ©ter les mots spĂ©cifiques qui contrastent les types d’opinions qui devront ĂȘtre classĂ©s. Ce travail permet de sĂ©lectionner des critĂšres textuels interprĂ©tables et descriptifs des phĂ©nomĂšnes Ă©nonciatifs Ă©tudiĂ©s dans le corpus qui serviront Ă  reprĂ©senter les textes numĂ©riques dans le format vectoriel. La dĂ©marche proposĂ©e par ces travaux a Ă©tĂ© validĂ©e avec l’utilisation du corpus de presse constituĂ© pour l’expĂ©rimentation. Les rĂ©sultats dĂ©montrent que la sĂ©lection de 447 critĂšres textuels par une approche interprĂ©tative du corpus est plus performante pour la classification automatique des articles que le choix d’un ensemble de mots dont la sĂ©lection ne prend pas en compte de facteurs linguistiques liĂ©s au corpus. Notre recherche a Ă©galement Ă©valuĂ© la possibilitĂ© d’une application dans les systĂšmes de recommandation d’articles de presse, en faisant une Ă©tude sur l’évolution chronologique du vocabulaire du corpus de l’expĂ©rimentation. Nous dĂ©montrons que la sĂ©lection de critĂšres textuels effectuĂ©e au dĂ©but de la controverse est efficace pour prĂ©dire l’opinion des articles qui sont publiĂ©s par la suite, suggĂ©rant que la dĂ©marche de sĂ©lection de critĂšres interprĂ©tables peut ĂȘtre mise au profit d’un systĂšme de recommandation qui propose des articles d’opinion issus d’une controverse mĂ©diatique.Web-based reading services such as Google News and Yahoo! News have become increasingly popular with the growth of online news consumption. To help users cope with information overload on these search engines, recommender systems and personalization techniques are utilized. These services help users find content that matches their personal interests and tastes, using their browser history and past behavior as a basis for recommendations. However, recommender systems can limit diversity of thought and the range of political perspectives that circulate within the informational environment. In consequence, relevant ideas and questions may not be seen, debatable assumptions may be taken as facts, and overspecialized recommendations may reinforce confirmation bias, special interests, tribalism, and extremist opinions. When the informational environment is insufficiently diverse, there is a loss of open inquiry, dialogue and constructive disagreement—and, as a result, an overall degradation of public discourse. Studies within the artificial intelligence field that try to solve the diversity problem for news recommender systems are confronted by many questions, including the vector model representation of digital texts and the development of a statistical measure that maximizes the difference between similar articles that are proposed to the user by the recommendation process. Studies based on opinion mining techniques propose to tackle the diversity problem in a different manner, by automatically detecting the difference of perspectives between news articles that are related by content in the recommendation process. In this latter approach, the representation of digital texts in the vector model considers a set of words that are associated with opinion expressions, such as adjectives or emotions. However, those techniques are less effective in detecting differences of opinion in a publicly argued debate, because journalistic opinions are not necessarily linked with the journalist’s subjectivity or emotions. The aims of our research are (1) to systematize and validate an opinion mining method that can classify divergent opinions within a controversial debate in the press and (2) to explore the applicability of this method in a news recommender system. We equate controversy to an opinion debate in the press where at least two camps are explicitly opposed in their understanding of a consequential question in their community. Our research raises questions about how to define opinion in this context and discusses the relevance of using discursive and enunciation theoretical approaches in opinion mining. The corpus of our experiment has 495 opinion articles about the 2012 student protest in Quebec against the raise of tuition fees announced by the Liberal Premier Minister Jean Charest. Articles were classified into two categories, ETUD and GOUV, representing the two types of opinions that dominated the debate: namely, those that favored the students and the continuation of the strike or those that favored the government and criticized the student movement. Methodologically, our research is based on the approach of previous studies that explore techniques from the corpus linguistics field in the context of opinion mining, as well as theoretical concepts of François Rastier’s Interpretative Semantics. Our research systematizes the steps of this approach, advocating for a contrastive and interpretative description of the corpus, with the aim of discovering linguistic features that better describe the types of opinion that are to be classified. This approach allows us to select textual features that are interpretable and compatible with the enunciative phenomena in the corpus that are then used to represent the digital texts in the vector model. The approach of previous works has been validated by our analysis of the corpus. The results show that the selection of 447 textual features by an interpretative approach of the corpus performs better for the automatic classification of the opinion articles than a selection process in which the set of words are not identified by linguistic factors. Our research also evaluated the possibility of applying this approach to the development of a news recommender system, by studying the chronological evolution of the vocabulary in the corpus. We show that the selection of features at the beginning of the controversy effectively predicts the opinion of the articles that are published later, suggesting that the selection of interpretable features can benefit the development of a news recommender system in a controversial debate

    Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d'analyse thématique de documents textuels non structurés

    Get PDF
    Depuis les dix derniĂšres annĂ©es, on observe une hausse considĂ©rable du nombre d'initiatives visant Ă  numĂ©riser et Ă  rendre disponible le patrimoine informationnel des organisations et des diffĂ©rentes branches du savoir. Les consĂ©quences dĂ©coulant de ces initiatives sont importantes et trĂšs nombreuses. Elles ont entre autres conduit Ă  l'Ă©mergence d'applications permettant diffĂ©rentes opĂ©rations complexes d'analyse et de gestion des documents. MalgrĂ© la diversitĂ© de ces applications, on constate que l'ensemble des disciplines reliĂ©es Ă  l'analyse et Ă  la gestion des documents textuels sont axĂ©es sur la comprĂ©hension et l'informatisation des processus d'identification des contenus thĂ©matiques et d'analyse thĂ©matique. Le projet que nous prĂ©sentons aborde prĂ©cisĂ©ment les problĂ©matiques de l'identification des thĂšmes et de l'assistance Ă  l'analyse thĂ©matique des documents textuels. L'objectif gĂ©nĂ©ral du projet est de dĂ©velopper et de valider deux mĂ©thodologies informatiques fondĂ©es respectivement sur la catĂ©gorisation et la classification automatiques permettant d'assister efficacement l'identification des thĂšmes et, surtout, l'analyse thĂ©matique des documents textuels. Il vise ainsi Ă  effectuer un transfert de concepts et de mĂ©thodologies provenant, d'une part, des recherches thĂ©oriques et pluridisciplinaires portant sur l'analyse thĂ©matique et, d'autre part, des recherches appliquĂ©es en classification et en catĂ©gorisation automatiques des donnĂ©es afin de proposer une mĂ©thodologie et un prototype d'application flexible visant Ă  assister le chercheur dans son travail d'analyse thĂ©matique des textes. Le dĂ©fi principal de ce projet rĂ©side donc dans l'opĂ©rationnalisation de l'analyse thĂ©matique en employant certaines stratĂ©gies de classification et de catĂ©gorisation automatiques des textes. Au niveau cognitif, nous proposons d'explorer la pertinence et la fĂ©conditĂ© de certaines thĂ©ories d'inspiration linguistique et littĂ©raire ayant abordĂ© la question du thĂšme pour nous aider dans l'identification du contenu thĂ©matique et l'analyse thĂ©matique des documents textuels. À ce niveau, notre objectif est de dĂ©montrer comment les thĂ©ories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont dĂ©fini le thĂšme de telle sorte qu'il est possible d'en assister informatiquement l'identification et l'analyse Ă  l'aide de la mĂ©thodologie que nous proposons. Au niveau informatique, un premier volet de notre dĂ©marche consiste Ă  explorer et Ă  comparer les performances des opĂ©rations de catĂ©gorisation et de classification automatiques Ă  des fins d'identification du contenu thĂ©matique et d'analyse thĂ©matique des documents textuels non structurĂ©s. Les rĂ©sultats sont Ă©valuĂ©s en appliquant un systĂšme de catĂ©gorisation hybride neuro-flou et un algorithme de classification neuronal non supervisĂ© sur un corpus d'articles de journaux. Par ailleurs, la classification et la catĂ©gorisation sont des opĂ©rations traditionnellement appliquĂ©es Ă  des documents entiers. Nous proposons une maniĂšre alternative de rĂ©aliser ces processus : notre dĂ©marche consiste d'abord Ă  segmenter chacun des documents puis Ă  soumettre aux processus de regroupement les diffĂ©rents segments de texte. Cette dĂ©marche a l'avantage de pouvoir attribuer plusieurs catĂ©gories thĂ©matiques Ă  chaque document, ce qui est plus difficilement rĂ©alisable lorsque les documents sont traitĂ©s en entier. Finalement, dans bon nombre d'applications d'analyse et de gestion des documents textuels, le processus de catĂ©gorisation est effectuĂ© en utilisant un plan de classification ou une taxinomie de catĂ©gories prĂ©dĂ©finies. Le dĂ©veloppement de ces taxinomies, bien qu'il puisse ĂȘtre assistĂ© dans certains cas par des applications informatiques, s'avĂšre coĂ»teux et trĂšs complexe. Dans ce projet, nous dĂ©montrerons qu'il est possible, en l'absence de taxinomies, d'employer certains termes du lexique initial du corpus comme Ă©tiquettes thĂ©matiques.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : analyse thĂ©matique, identification de thĂšmes, Lecture et Analyse de Textes AssistĂ©es par Ordinateur (LATAO), classification automatique, catĂ©gorisation automatique

    Images et modĂšles 3D en milieux naturels

    Get PDF
    Ce numéro 12 de la Collection EDYTEM est à l'image des précédents : un espace ouvert d'expression dédié au croisement de regards scientifiques. L'accent est ici mis sur les méthodes dédiées aux représentations 3D des milieux naturels afin d'en extraire les données nécessaires aux recherches aussi bien en géosciences, en sciences de l'environnement, qu'en sciences humaines et sociales. Ce numéro recueille plus de vingt articles consacrés à l'imagerie et à la modélisation 3D. Ce volume s'ouvre par quatre articles qui posent les concepts, les méthodes et les outils de la lasergrammétrie et de la photogrammétrie. Les articles suivants constituent autant d'exemples d'application. Un tiers de ceux-ci sont issus des recherches menées par des collÚgues qui participent à l'école thématique. Les deux autres tiers concernent les travaux que mÚne le laboratoire EDYTEM en montagne (glaciers, parois, torrents...) et en milieu souterrain naturel
    • 

    corecore