25 research outputs found

    Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

    Get PDF
    National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

    Analyse lexicale outillée de la parole transcrite de patients schizophrÚnes

    Get PDF
    International audienceThis article details the results of analyses we conducted on the discourse of schizophrenic patients, at the oral production (disfluences) and lexical (part-of-speech and lemmas) levels. This study is part of a larger project, which includes other levels of analyses (syntax and discourse). The obtained results should help us rebut or identify new linguistic evidence participating in the manifestation of a dysfunction at these different levels. The corpus contains more than 375,000 words, its analysis therefore required that we use Natural Language Processing (NLP) and lexicometric tools. In particular, we processed disfluencies and parts-of-speech separately, which allowed us to demonstrate that if schizophrenic patients do produce more disfluencies than control, their lexical richness is not significatively different.Cet article détaille les résultats d'analyses réalisées sur la transcription d'entretiens avec des patients schizophrÚnes, aux niveaux de la production orale (disfluences) et du lexique (morpho-syntaxe et lemmes). L'étude s'inscrit dans le cadre d'un projet plus large qui prévoit d'autres niveaux d'analyse (syntaxique et du discours), les résultats obtenus devant nous permettre de réfuter ou d'identifier de nouveaux indices linguistiques présents dans la manifestation d'un dysfonctionnement à ces différents niveaux. Le corpus traité contient plus de 375~000 mots, son analyse a donc nécessité l'utilisation d'outils de traitement automatique des langues (TAL) et de textométrie. Nous avons en particulier séparé le traitement des disfluences du traitement lexical, ce qui nous a permis de montrer que si les schizophrÚnes produisent davantage d'achoppements et de répétitions (disfluences) que les témoins, la richesse de leur lexique n'est pas significativement différente

    Analyse comparative de la terminologie des médias sociaux : contribution des domaines de la communication et de l'informatique à la néologie

    Full text link
    L’objectif de cette Ă©tude est de repĂ©rer des nĂ©ologismes Ă  partir de corpus de textes français au moyen d’une mĂ©thode semi-automatique. Plus prĂ©cisĂ©ment, nous extrayons les nĂ©ologismes de corpus associĂ©s Ă  deux domaines diffĂ©rents, mais traitant du mĂȘme thĂšme, nous examinons leur rĂ©partition et nous les classons selon leur type. L’étude s’appuie sur l’analyse de corpus traitant des mĂ©dias sociaux. Le premier aborde les mĂ©dias sociaux du point de vue de la communication, l’autre le fait du point de vue de l’informatique. Ces points de vue ont Ă©tĂ© privilĂ©giĂ©s, car la communication considĂšre ce qui a trait l’utilisation des mĂ©dias sociaux et l’informatique aborde leur cartographie. La mĂ©thode fait appel Ă  l’extracteur de termes TermoStat pour recenser la terminologie des mĂ©dias sociaux pour chaque point de vue. Ensuite, nous soumettons les 150 termes les plus spĂ©cifiques de chaque point de vue Ă  une mĂ©thode de validation divisĂ©e en trois tests destinĂ©s Ă  valider leur statut nĂ©ologique : des dictionnaires spĂ©cialisĂ©s, des dictionnaires de langue gĂ©nĂ©rale et un outil de visualisation de n-grammes. Finalement, nous Ă©tiquetons les nĂ©ologismes selon la typologie de Dubuc (2002). L’analyse des rĂ©sultats de la communication et de l’informatique est comparative. La comparaison des deux corpus rĂ©vĂšle les contributions respectives de la communication et de l'informatique Ă  la terminologie des mĂ©dias sociaux en plus de montrer les termes communs aux deux disciplines. L’étude a Ă©galement permis de repĂ©rer 60 nĂ©ologismes, dont 28 sont exclusifs au corpus de la communication, 28 exclusifs Ă  celui de l’informatique et 4 communs aux deux corpus. La recherche rĂ©vĂšle Ă©galement que les composĂ©s par subordination sont les types de nĂ©ologismes les plus prĂ©sents dans nos rĂ©sultats.The objective of this study is to identify the neologisms within corpora of French texts by means of a semi-automatic method. More precisely, we will extract the neologisms from corpora associated to two different areas; however dealing with the same topic, we examine their distribution and we classify them according to their type. This study is based on an analysis of two corpora within social media. The first one approaches social media from the point of view of communication, and the other approaches it from the point of view of computer science. We prioritize these two points of view being that communication is used as the main source of social media’s utilization and that computer science allows us to understand what is involved to allow for social media to be functional. For this method, we use the TermoStat term extractor in order to take census of terminology for each point of view. We then submit 150 of the most specific terms related to each point of view by way of an exclusion corpus from which we divide into three different tests meant to validate their neological status: specialized dictionaries, general language dictionaries, and a visualization tool for n-grams. Lastly, we label the neologisms according to Dubuc’s (2002) typology. The analysis of the results obtained for communication and computer science uses a comparative method. The comparison of the two corpora reveals the respective contributions from communication and computer science with respect to the terminology of social medias, as well it demonstrates common terms found within the two disciplines. This examination also allowed for the identification of 60 neologisms; of which 28 are exclusive to the corpus of communication, another 28 are exclusive to that of computer science, and four were found to be common to both corpora. This research also reveals that subordinate compounds are the most present types of neologisms according to our results

    Répondre à des questions à réponses multiples sur le Web

    Get PDF
    Les systĂšmes de question-rĂ©ponse renvoient une rĂ©ponse prĂ©cise Ă  une question formulĂ©e en langue naturelle. Les systĂšmes de question-rĂ©ponse actuels, ainsi que les campagnes d'Ă©valuation les Ă©valuant, font en gĂ©nĂ©ral l'hypothĂšse qu'une seule rĂ©ponse est attendue pour une question. Or nous avons constatĂ© que, souvent, ce n'Ă©tait pas le cas, surtout quand on cherche les rĂ©ponses sur le Web et non dans une collection finie de documents.Nous nous sommes donc intĂ©ressĂ©s au traitement des questions attendant plusieurs rĂ©ponses Ă  travers un systĂšme de question-rĂ©ponse sur le Web en français. Pour cela, nous avons dĂ©veloppĂ© le systĂšme Citron capable d'extraire des rĂ©ponses multiples diffĂ©rentes Ă  des questions factuelles en domaine ouvert, ainsi que de repĂ©rer et d'extraire le critĂšre variant (date, lieu) source de la multiplicitĂ© des rĂ©ponses. Nous avons montrĂ© grĂące Ă  notre Ă©tude de diffĂ©rents corpus que les rĂ©ponses Ă  de telles questions se trouvaient souvent dans des tableaux ou des listes mais que ces structures sont difficilement analysables automatiquement sans prĂ©traitement. C'est pourquoi, nous avons Ă©galement dĂ©veloppĂ© l'outil Kitten qui permet d'extraire le contenu des documents HTML sous forme de texte et aussi de repĂ©rer, analyser et formater ces structures. Enfin, nous avons rĂ©alisĂ© deux expĂ©riences avec des utilisateurs. La premiĂšre expĂ©rience Ă©valuait Citron et les ĂȘtres humains sur la tĂąche d'extraction de rĂ©ponse multiples : les rĂ©sultats ont montrĂ© que Citron Ă©tait plus rapide que les ĂȘtres humains et que l'Ă©cart entre la qualitĂ© des rĂ©ponses de Citron et celle des utilisateurs Ă©tait raisonnable. La seconde expĂ©rience a Ă©valuĂ© la satisfaction des utilisateurs concernant la prĂ©sentation de rĂ©ponses multiples : les rĂ©sultats ont montrĂ© que les utilisateurs prĂ©fĂ©raient la prĂ©sentation de Citron agrĂ©geant les rĂ©ponses et y ajoutant un critĂšre variant (lorsqu'il existe) par rapport Ă  la prĂ©sentation utilisĂ©e lors des campagnes d'Ă©valuation.Question answering systems find and extract a precise answer to a question in natural language. Both current question-answering systems and evaluation campaigns often assume that only one single answeris expected for a question. Our corpus studies show that this is rarely the case, specially when answers are extracted from the Web instead of a frozen collection of documents.We therefore focus on questions expecting multiple correct answers fromthe Web by developping the question-answering system Citron. Citron is dedicated to extracting multiple answers in open domain and identifying theshifting criteria (date, location) which is often the reason of this answer multiplicity Our corpus studies show that the answers of this kind of questions are often located in structures such as tables and lists which cannot be analysed without a suitable preprocessing. Consequently we developed the Kitten software which aims at extracting text information from HTML documents and also both identifying and formatting these structures.We finally evaluate Citron through two experiments involving users. Thefirst experiment evaluates both Citron and human beings on a multipleanswer extraction task: results show that Citron was faster than humans andthat the quality difference between answers extracted by Citron andhumans was reasonable. The second experiment evaluates user satisfaction regarding the presentation of multiple answers: results show that user shave a preference for Citron presentation aggregating answers and adding the shifting criteria (if it exists) over the presentation used by evaluation campaigns.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF

    Représentations robustes de documents bruités dans des espaces homogÚnes

    Get PDF
    In the Information Retrieval field, documents are usually considered as a "bagof-words". This model does not take into account the temporal structure of thedocument and is sensitive to noises which can alter its lexical form. These noisescan be produced by different sources : uncontrolled form of documents in microbloggingplatforms, automatic transcription of speech documents which are errorprone,lexical and grammatical variabilities in Web forums. . . The work presented inthis thesis addresses issues related to document representations from noisy sources.The thesis consists of three parts in which different representations of content areavailable. The first one compares a classical representation based on a term-frequencyrepresentation to a higher level representation based on a topic space. The abstractionof the document content allows us to limit the alteration of the noisy document byrepresenting its content with a set of high-level features. Our experiments confirm thatmapping a noisy document into a topic space allows us to improve the results obtainedduring different information retrieval tasks compared to a classical approach based onterm frequency. The major problem with such a high-level representation is that it isbased on a space theme whose parameters are chosen empirically.The second part presents a novel representation based on multiple topic spaces thatallow us to solve three main problems : the closeness of the subjects discussed in thedocument, the tricky choice of the "right" values of the topic space parameters and therobustness of the topic-based representation. Based on the idea that a single representationof the contents cannot capture all the relevant information, we propose to increasethe number of views on a single document. This multiplication of views generates "artificial"observations that contain fragments of useful information. The first experimentvalidated the multi-view approach to represent noisy texts. However, it has the disadvantageof being very large and redundant and of containing additional variability associatedwith the diversity of views. In the second step, we propose a method based onfactor analysis to compact the different views and to obtain a new robust representationof low dimension which contains only the informative part of the document whilethe noisy variabilities are compensated. During a dialogue classification task, the compressionprocess confirmed that this compact representation allows us to improve therobustness of noisy document representation.Nonetheless, during the learning process of topic spaces, the document is consideredas a "bag-of-words" while many studies have showed that the word position in a7document is useful. A representation which takes into account the temporal structureof the document based on hyper-complex numbers is proposed in the third part. Thisrepresentation is based on the hyper-complex numbers of dimension four named quaternions.Our experiments on a classification task have showed the effectiveness of theproposed approach compared to a conventional "bag-of-words" representation.En recherche d’information, les documents sont le plus souvent considĂ©rĂ©s comme des "sacs-de-mots". Ce modĂšle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altĂ©rer la forme lexicale. Ces bruits peuvent ĂȘtre produits par diffĂ©rentes sources : forme peu contrĂŽlĂ©e des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilitĂ©s lexicales et grammaticales dans les forums du Web. . . Le travail prĂ©sentĂ© dans cette thĂšse s’intĂ©resse au problĂšme de la reprĂ©sentation de documents issus de sources bruitĂ©es.La thĂšse comporte trois parties dans lesquelles diffĂ©rentes reprĂ©sentations des contenus sont proposĂ©es. La premiĂšre partie compare une reprĂ©sentation classique utilisant la frĂ©quence des mots Ă  une reprĂ©sentation de haut-niveau s’appuyant sur un espace de thĂšmes. Cette abstraction du contenu permet de limiter l’altĂ©ration de la forme de surface du document bruitĂ© en le reprĂ©sentant par un ensemble de caractĂ©ristiques de haut-niveau. Nos expĂ©riences confirment que cette projection dans un espace de thĂšmes permet d’amĂ©liorer les rĂ©sultats obtenus sur diverses tĂąches de recherche d’information en comparaison d’une reprĂ©sentation plus classique utilisant la frĂ©quence des mots.Le problĂšme majeur d’une telle reprĂ©sentation est qu’elle est fondĂ©e sur un espace de thĂšmes dont les paramĂštres sont choisis empiriquement.La deuxiĂšme partie dĂ©crit une nouvelle reprĂ©sentation s’appuyant sur des espaces multiples et permettant de rĂ©soudre trois problĂšmes majeurs : la proximitĂ© des sujets traitĂ©s dans le document, le choix difficile des paramĂštres du modĂšle de thĂšmes ainsi que la robustesse de la reprĂ©sentation. Partant de l’idĂ©e qu’une seule reprĂ©sentation des contenus ne peut pas capturer l’ensemble des informations utiles, nous proposons d’augmenter le nombre de vues sur un mĂȘme document. Cette multiplication des vues permet de gĂ©nĂ©rer des observations "artificielles" qui contiennent des fragments de l’information utile. Une premiĂšre expĂ©rience a validĂ© cette approche multi-vues de la reprĂ©sentation de textes bruitĂ©s. Elle a cependant l’inconvĂ©nient d’ĂȘtre trĂšs volumineuse,redondante, et de contenir une variabilitĂ© additionnelle liĂ©e Ă  la diversitĂ© des vues. Dans un deuxiĂšme temps, nous proposons une mĂ©thode s’appuyant sur l’analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle reprĂ©sentation robuste,de dimension rĂ©duite, ne contenant que la partie "utile" du document tout en rĂ©duisant les variabilitĂ©s "parasites". Lors d’une tĂąche de catĂ©gorisation de conversations,ce processus de compression a confirmĂ© qu’il permettait d’augmenter la robustesse de la reprĂ©sentation du document bruitĂ©.Cependant, lors de l’élaboration des espaces de thĂšmes, le document reste considĂ©rĂ© comme un "sac-de-mots" alors que plusieurs Ă©tudes montrent que la position d’un terme au sein du document est importante. Une reprĂ©sentation tenant compte de cette structure temporelle du document est proposĂ©e dans la troisiĂšme partie. Cette reprĂ©sentation s’appuie sur les nombres hyper-complexes de dimension appelĂ©s quaternions. Nos expĂ©riences menĂ©es sur une tĂąche de catĂ©gorisation ont montrĂ© l’efficacitĂ© de cette mĂ©thode comparativement aux reprĂ©sentations classiques en "sacs-de-mots"

    Colloque Humanistica 2021 - Recueil des résumés

    Get PDF

    ELiTe-[FLE]ÂČ : Un environnement d'ALAO fondĂ© sur la linguistique textuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie

    Get PDF
    This thesis presents a computer device aimed at helping future FFL teacher training in Colombian universities. It is grounded in text linguistics and aims to contribute to improving the linguistic level of university students currently in training. To do so, this device is based on a textual corpus specifically annotated and labeled thanks to natural language processing (NLP) tools and to manual annotations in XML format. This should allow the development of activities with a formative aim, while also taking into account the needs expressed by the target public (teachers/trainers and their students, the trainees). As explained throughout this thesis, the elaboration of such a system is based on knowledge and skills stemming from several disciplines and/or fields: language didactics, educational engineering, general linguistics, textual linguistics, corpus linguistics, NLP and CALL. The ambition is to provide trainees and trainers in higher education in Colombia with a tool designed according to their needs and their learning aims and objectives. Finally, the originality of this system consists in the choice of target users, the didactic training model implemented and the specificity of the corpus annotated for the activities. It is one of the first CALL systems based on textual linguistics specifically targeted at training future FFL teachers in a non-native language context.Nous prĂ©sentons, dans ce manuscrit, un dispositif informatique d'aide Ă  la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche Ă  amĂ©liorer le niveau linguistique des Ă©tudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondĂ© sur un corpus textuel spĂ©cifiquement annotĂ© et Ă©tiquetĂ© grĂące aux outils de traitement automatique de langues (TAL) et Ă  des annotations manuelles en format XML. Ceci permet de dĂ©velopper des activitĂ©s Ă  visĂ©e formative, en tenant compte des besoins exprimĂ©s par les publics cibles (enseignants-formateurs et leurs Ă©tudiants en formation). Comme nous l'exposons tout au long de cette thĂšse, l'Ă©laboration d'un systĂšme comme le nĂŽtre est le produit de la mise en Ɠuvre de connaissances et de compĂ©tences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingĂ©nierie pĂ©dagogique, linguistique gĂ©nĂ©rale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pĂ©dagogique pour la formation des Ă©tudiants en FLE dans le contexte de l'Ă©ducation supĂ©rieure en Colombie, un outil pensĂ© en fonction des besoins et des objectifs de cet apprentissage. L'originalitĂ© de notre systĂšme repose sur le type de public choisi, le modĂšle didactique de formation mis en Ɠuvre et la spĂ©cificitĂ© du corpus utilisĂ©. À notre connaissance, il s'agit d'un des premiers systĂšmes d'ALAO fondĂ© sur la linguistique textuelle s'adressant Ă  la formation des futurs enseignants de FLE dans un contexte exolingue

    Questions-Réponses en domaine ouvert (sélection pertinente de documents en fonction du contexte de la question)

    Get PDF
    Les problĂ©matiques abordĂ©es dans ma thĂšse sont de dĂ©finir une adaptation unifiĂ©e entre la sĂ©lection des documents et les stratĂ©gies de recherche de la rĂ©ponse Ă  partir du type des documents et de celui des questions, intĂ©grer la solution au systĂšme de Questions-RĂ©ponses (QR) RITEL du LIMSI et Ă©valuer son apport. Nous dĂ©veloppons et Ă©tudions une mĂ©thode basĂ©e sur une approche de Recherche d Information pour la sĂ©lection de documents en QR. Celle-ci s appuie sur un modĂšle de langue et un modĂšle de classification binaire de texte en catĂ©gorie pertinent ou non pertinent d un point de vue QR. Cette mĂ©thode permet de filtrer les documents sĂ©lectionnĂ©s pour l extraction de rĂ©ponses par un systĂšme QR. Nous prĂ©sentons la mĂ©thode et ses modĂšles, et la testons dans le cadre QR Ă  l aide de RITEL. L Ă©valuation est faite en français en contexte web sur un corpus de 500 000 pages web et de questions factuelles fournis par le programme Quaero. Celle-ci est menĂ©e soit sur des documents complets, soit sur des segments de documents. L hypothĂšse suivie est que le contenu informationnel des segments est plus cohĂ©rent et facilite l extraction de rĂ©ponses. Dans le premier cas, les gains obtenus sont faibles comparĂ©s aux rĂ©sultats de rĂ©fĂ©rence (sans filtrage). Dans le second cas, les gains sont plus Ă©levĂ©s et confortent l hypothĂšse, sans pour autant ĂȘtre significatifs. Une Ă©tude approfondie des liens existant entre les performances de RITEL et les paramĂštres de filtrage complĂšte ces Ă©valuations. Le systĂšme de segmentation crĂ©Ă© pour travailler sur des segments est dĂ©taillĂ© et Ă©valuĂ©. Son Ă©valuation nous sert Ă  mesurer l impact de la variabilitĂ© naturelle des pages web (en taille et en contenu) sur la tĂąche QR, en lien avec l hypothĂšse prĂ©cĂ©dente. En gĂ©nĂ©ral, les rĂ©sultats expĂ©rimentaux obtenus suggĂšrent que notre mĂ©thode aide un systĂšme QR dans sa tĂąche. Cependant, de nouvelles Ă©valuations sont Ă  mener pour rendre ces rĂ©sultats significatifs, et notamment en utilisant des corpus de questions plus importants.This thesis aims at defining a unified adaptation of the document selection and answer extraction strategies, based on the document and question types, in a Question-Answering (QA) context. The solution is integrated in RITEL (a LIMSI QA system) to assess the contribution. We develop and investigate a method based on an Information Retrieval approach for the selection of relevant documents in QA. The method is based on a language model and a binary model of textual classification in relevant or irrelevant category. It is used to filter unusable documents for answer extraction by matching lists of a priori relevant documents to the question type automatically. First, we present the method along with its underlying models and we evaluate it on the QA task with RITEL in French. The evaluation is done on a corpus of 500,000 unsegmented web pages with factoid questions provided by the Quaero program (i.e. evaluation at the document level or D-level). Then, we evaluate the methodon segmented web pages (i.e. evaluation at the segment level or S-level). The idea is that information content is more consistent with segments, which facilitates answer extraction. D-filtering brings a small improvement over the baseline (no filtering). S-filtering outperforms both the baseline and D-filtering but not significantly. Finally, we study at the S-level the links between RITEL s performances and the key parameters of the method. In order to apply the method on segments, we created a system of web page segmentation. We present and evaluate it on the QA task with the same corpora used to evaluate our document selection method. This evaluation follows the former hypothesis and measures the impact of natural web page variability (in terms of size and content) on RITEL in its task. In general, the experimental results we obtained suggest that our IR-based method helps a QA system in its task, however further investigations should be conducted especially with larger corpora of questions to make them significant.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF
    corecore