CALOR-QUEST : un corpus d'entraînement et d'évaluation pour la compréhension automatique de textes

Abstract

International audienceMachine reading comprehension is a task related to the Question-Answering task where questions are not generic in scope but are related to a particular document. Recently very large corpora (SQuAD, MS MARCO) containing triplets (document, question, answer) were made available to the scientific community to develop supervised methods based on deep neural networks with promising results. These methods need very large training corpus to be efficient, however such kind of data only exists for English at the moment. The purpose of this study is the development of such resources for other languages by proposing a method generating questions from a semantic frame analysis in a semi-automatic way. The collect of natural questions is reduced to a validation/test set. We applied this method on the French CALOR-Frame corpus in order to develop the CALOR-QUEST resource presented in this paper.La compréhension automatique de texte est une tâche faisant partie de la famille des systèmes de Question/Réponse où les questions ne sont pas à portée générale mais sont liées à un document particulier. Récemment de très grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, réponse) ont été mis à la disposition de la communauté scientifique afin de développer des méthodes supervisées à base de réseaux de neurones profonds en obtenant des résultats prometteurs. Ces méthodes sont cependant très gourmandes en données d'apprentissage, données qui n'existent pour le moment que pour la langue anglaise. Le but de cette étude est de permettre le développement de telles ressources pour d'autres langue à moindre coût en proposant une méthode générant des questions à partir d'une analyse sémantique de manière semi-automatique. La collecte de questions naturelle est réduite à un ensemble de validation/test. L'application de cette méthode sur le corpus CALOR-Frame a permis de développer la ressource CALOR-QUEST présentée dans cet article

    Similar works