11 research outputs found

    A Framework of Evaluation for Question-Answering Systems

    Get PDF
    International audienceEvaluating complex systems is a complex task. Evaluation campaigns are organized each year to test different systems on global results, but they do not evaluate the relevance of the criteria used. Our purpose consists in modifying the intermediate results created by the components and inserting the new results into the process, without modifyingthe components. We will describe our framework of glass-box evaluation

    InteRessources : une plateforme de catalogage de ressources linguistiques

    Get PDF
    International audienceLe recensement, ou catalogage, des ressources linguistiques (corpus, lexiques, dictionnaires, outils) existantes en Sciences Humaines et Sociales reste compliqué à mener tant les ressources sont nombreuses et les besoins spécifiques. Il est également difficile de maintenir des descriptifs à jour qui suivent les évolutions de ces ressources. De plus, documenter ces objets en respectant les standards du domaine sous la forme de métadonnées n'est pas toujours chose aisée.Si des plateformes comme ORTOLANG ou COCOON permettent d'archiver, de stocker et de diffuser des ressources linguistiques, elles ne permettent pas pour autant une recherche exhaustive de l'existant. Un outil de recensement de ces données serait complémentaire à de telles plateformes, et pourrait être alimenté par elles.Nous présentons ici une plateforme web de recensement et de documentation de ressources linguistiques (données et outils) réalisée dans le cadre du LabEx Empirical Foundations of Linguistics : InteRessources. Elle permet de décrire une ressource via un formulaire, crée une fiche consultable en ligne avec une adresse stable et de générer automatiquement des métadonnées aux formats standards Dublin Core, OLAC, TEI Header et CMDI. Elle propose également un moteur de recherche à facettes permettant d'accéder finement aux ressources en fonction des besoins de l'utilisateur.Nous décrivons son architecture ainsi que des perspectives d'amélioration, qui pourront être menées au sein du Consortium Corpus, Langues et Interactions (CORLI)

    Fine-grained Linguistic Evaluation of Question Answering Systems

    Get PDF
    International audienceQuestion answering systems are complex systems using natural language processing. Some evaluation campaigns are organized to evaluate such systems in order to propose a classification of systems based on final results (number of correct answers). Nevertheless, teams need to evaluate more precisely the results obtained by their systems if they want to do a diagnostic evaluation. There are no tools or methods to do these evaluations systematically. We present REVISE, a tool for glass box evaluation based on diagnostic of question answering system results

    REVISE, un outil d'évaluation précise des systèmes questions-réponses

    Get PDF
    National audienceDes campagnes d’évaluations sont organisées chaque année pour évaluer des systèmes de questions-réponses sur la validité des résultats fournis. Pour les équipes, il s’agit ensuite de réussir à mesurer la pertinence des stratégies développées ainsi que le fonctionnement des composants. À ces fins, nous décrivons un outil générique d’évaluation de type boîte transparente qui permet à un système produisant des résultats intermédiaires d’évaluer ses résultats. Nous illustrerons cette démarche en testant l’impact d’une nouvelle définition de la notion de focus

    Évaluation transparente de systèmes de questions-réponses : application au focus

    No full text
    National audienc

    Évaluation transparente du traitement des éléments de réponse à une question factuelle

    No full text
    Question answering systems (QAS) allow a user to search a precise information in a huge corpus like the Web. These systems are complex, using natural language processing (NLP) techniques. Evaluation campaigns are organized to evaluate their final performance but research teams still need diagnostic evaluations to know the reasons of their successes and their failures. However there are no tools or methods to produce systematic evaluations of linguistic criteria for such systems. The goal of this work is to propose a methodology based on the glass box evaluation of intermediary results produced by QAS. This methodology makes use of both overall performance evaluation and corpus analysis. Therefore we will discuss the usual methods of evaluation and their limits in terms of diagnostic evaluation. Our first step will be to examine evaluation procedures, both of final results and of results produced by each component, in order to determine which elements are most relevant to a finer-grained evaluation of linguistic strategies used by QAS. This study will allow us to shed light on the methodological principles guiding a glass box diagnostic evaluation of QAS. In the second part of this work we will discuss the typical errors that occur in QAS in order to review which functions would be required in creating a specific tool for systematic error analysis. This lead us to the creation of REVISE (Research, Extraction, VISualisation and Evaluation), a tool that stores intermediary results of a system for further annotation, modification, visualisation and evaluation. We will also be discussing the tool's genericity by applying it to the results of another QAS : RITEL. Finally we carried out two types of studies, successively applying REVISE to two different QAS : FRASQUES and QALC. The first study concerns a linguistic criterion which we have called the "focus" - extracted during question analysis - and its contextual variations in the answer sentences selected by the system. The second study deals with the extraction rules for precise answers.Les systèmes de questions-réponses permettent à un utilisateur de rechercher une information précise dans un corpus de données massif, comme le Web. Ce sont des systèmes complexes qui utilisent des techniques de traitement automatique des langues (TAL). Des campagnes d'évaluation sont organisées pour évaluer leur performance finale, mais les équipes de recherche doivent ensuite réaliser des évaluations de diagnostic pour savoir les raisons de leurs succès et de leurs échecs. Or, il n'existe ni outil, ni méthode pour réaliser des évaluations systématiques de critères linguistiques pour de tels systèmes. L'objectif de ce travail est de proposer une méthodologie d'évaluation transparente des résultats intermédiaires produits par les systèmes de questions-réponses, en combinant à la fois une évaluation de performance et une analyse de corpus. Ainsi, nous discuterons de l'évaluation telle qu'elle est menée pour ces systèmes, et des limites rencontrées pour une évaluation de diagnostic. Dans un premier temps, nous nous interrogerons sur les pratiques d'évaluation, qu'elles portent sur les résultats finaux d'un système ou bien sur ceux que produisent les différents composants dans l'optique de dégager les tenants et les aboutissants d'une évaluation plus fine des stratégies linguistiques mise en œuvre au sein des systèmes de questions-réponses. Cette étude nous permettra de dégager les principes d'une méthodologie d'évaluation de diagnostic transparente pour les systèmes de questions-réponses. Dans un deuxième temps, nous nous sommes intéressée aux erreurs classiques d'un système de questions-réponses afin de détailler les fonctionnalités nécessaires à un outil de diagnostic systématique de ces erreurs. Ceci nous a conduit à la création d'un outil d'évaluation, REVISE (Recherche, Extraction, VISualisation et Évaluation), qui permet de stocker les résultats intermédiaires d'un système de façon à en disposer pour les annoter, les modifier, les visualiser et les évaluer. Nous avons également discuté la généricité de cet outil à l'aide des résultats du système de questions-réponses RITEL. Enfin, nous avons mené à l'aide de notre outil deux types d'études sur les systèmes de questions-réponses FRASQUES et QALC, l'une portant sur le critère linguistique focus extrait lors de l'analyse des questions et sur ses variations en contexte dans les phrases réponses sélectionnées par le système ; l'autre sur l'application des règles d'extraction de réponses précises

    Du lexique à la grammaire, en passant par la ludicité

    No full text
    International audienc

    Evaluation transparente du traitement des éléments de réponse à une question factuelle

    No full text
    Les systèmes de questions-réponses permettent à un utilisateur de rechercher une information précise dans un corpus de données massif, comme le Web. Ce sont des systèmes complexes qui utilisent des techniques de traitement automatique des langues (TAL). Les campagnes d'évaluation sont organisées pour évaluer leur performance finale, mais les équipes de recherche doivent ensuite réaliser des évaluation de diagnostic pour savoir les raisons de leurs succès et de leurs échecs. Or, il n'existe ni outil, ni méthode pour réaliser des évaluations systématiques de critères linguistiques pour de tels systèmes. L'objectif de ce travail est de proposer une méthodologie d'évaluation transparente des résultats intermédiaires produits par les systèmes de questions-réponses, en combinant à la fois une évaluation de performance et une analyse de corpus. Ainsi, nous discuterons de l'évaluation telle qu'elle est menée pour ces systèmes, et des limites rencontrées pour une évaluation de diagnostic. Dans un premier temps, nous nous interrogerons sur les pratiques d'évaluation, qu'elles portent sur les résultats finaux d'un système ou bien sur ceux que produisent les différents composants, dans l'optique de dégager les tenants et les aboutissants d'une évaluation plus fine des stratégies linguistiques mise en oeuvre au sein des systèmes de questions-réponses. Cette étude nous permettra de dégager les principes d'une méthodologie d'évaluation de diagnostic transparente pour les systèmes de questions-réponses. Dans un deuxième temps, nous nous sommes intéressée aux erreurs classiques d'un système de questions-réponses afin de détailler les fonctionnalités nécessaires à un outil de diagnostic systématique de ces erreurs. Ceci nous a conduit à la création d'un outil d'évaluation, REVISE (Recherche, Extraction, VISualisation et Evaluation), qui permet de stocker les résultats intermédiaires d'un système de façon à en disposer pour les annoter, les modifier, les visualiser et les évaluer. Nous avons également discuté la généricité de cet outil à l'aide des résultats du système de questions-réponses RITEL. Enfin, nous avons mené à l'aide de notre outil deux types d'études sur les systèmes de questions-réponses FRASQUES et QALC, l'une portant sur le critère linguistique focus extrait lors de l'analyse des questions et sur ses variations en contexte dans les phrases réponses sélectionnées par le s stème; l'autre sur l'application des règles d'extraction de réponses précisesQuestion answering systems (QAS) allow a user to search a precise information in a huge corpus like the Web. These systems are complex, using natural language processing (NLP) techniques. Evaluation campaigns are organized to evaluate their final performance but research teams still need diagnostic evaluations to know the reasons of their successes and their failures. However there are no tools or methods to produce systematic evaluations of linguistic criteria for such systems. The goal of this work is to propose a methodology based on the glass box evaluation of intermediary results produced by QAS. This methodology makes use of both overall performance evaluation and corpus analysis. Therefore we will discuss the usual methods of evaluation and their limits in terms of diagnostic evaluation. Our first step will be to examine evaluation procedures, both of final results and of results produced by each component, in order to determine which elements are most relevant to a finer-grained evaluation of linguistic strategies used by QAS. This study will allow us to shed light on the methodological principles guiding a glass box diagnostic evaluation of QAS. ln the second pan of this work we will discuss the typical errors that occur in QAS in order to review which functions would be required in creating a specific tool for systematic error analysis. This lead us to the creation of REVISE (Research, Extraction, Visualisation and Evaluation), a tool that stores intermediary results of a system for further annotation, modification, visualisation and evaluation. We will also be discussing the tool's genericity by applying it to the results of another QAS : RITEL. Finally we carried out two types of studies, successively applying REVISE to two different QAS : FRASQUES and QALC. The first study concems a linguistic criterion which we have called the "focus" - extracted during question analysis - and its contextual variations in the answer sentences selected bv the svstem. The second studv deals with the extraction mIes for Drecise answers.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF
    corecore