Search CORE

1,028 research outputs found

Identification d'indicateurs stratégiques dans les documents

Author: Hasnaoui Ali
Publication venue
Publication date: 01/01/2019
Field of study

Retour aux origines de la statistique textuelle : Benzécri et l'école française d'analyse des données

Author: Beaudouin Valérie
Publication venue: HAL CCSD
Publication date: 07/06/2016
Field of study

International audienceIn this article, we have attempted to trace the history of the statistical analysis of textual data, focusing on the influence of Benzécri's work and school, and to make explicit their theoretical positions, clearly opposed to AI and to Chomskyan linguistics. After a presentation of the intellectual project, as an inductive approach to language based on the exploration of corpora, we present the principles of correspondence analysis, which is the main method developed in the Data Analysis School, used for corpus analysis but also for many other types of datasets. Then, we will focus on textual data analysis. Based on the fact that software programmes have played a major role in the use of these statistical techniques, we shall examine a selection of these, display their specificities and their underlying theoretical bases.Résumé Cet article revient sur une des deux branches à l'origine de la statistique textuelle, l'école d'analyse des données « à la française », dont Jean-Paul Benzécri peut être considéré comme l'initiateur. Après avoir explicité les orientations théoriques de l'analyse des données, et le rôle joué par une approche inductive du langage, nous présentons rapidement les principes de l'analyse des correspondances. Ensuite, nous explorerons l'application de l'analyse des données aux corpus de textes en montrant le rôle joué par les logiciels dans la diffusion de cette approche

HAL-MINES ParisTech

HAL-Polytechnique

Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes

Author: Tanguy Ludovic
Publication venue: HAL CCSD
Publication date: 11/09/2012
Field of study

Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 dernières années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagières disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagières, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroître de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Systèmes de compréhension et de traduction de la parole (vers une approche unifiée dans le cadre de la portabilité multilingue des systèmes de dialogue)

Author: BESACIER Laurent
JABAIAN Bassam
LEFEVRE Fabrice
Publication venue
Publication date: 01/01/2012
Field of study

La généralisation de l usage des systèmes de dialogue homme-machine accroît la nécessité du développement rapide des différents composants de ces systèmes. Les systèmes de dialogue peuvent être conçus pour différents domaines d application et dans des langues différentes. La nécessité d une production rapide pour de nouvelles langues reste un problème ouvert et crucial auquel il est nécessaire d apporter des solutions efficaces.Nos travaux s intéressent particulièrement au module de compréhension de la parole et proposent des approches pour la portabilité rapide peu coûteuse de ce module.Les méthodes statistiques ont montré de bonnes performances pour concevoir les modules de compréhension de la parole pour l étiquetage sémantique de tours de dialogue.Cependant ces méthodes nécessitent de larges corpus pour être apprises. La collecte de ces corpus est aussi coûteuse en temps et en expertise humaine.Dans cette thèse, nous proposons plusieurs approches pour porter un système de compréhension d une langue vers une autre en utilisant les techniques de la traduction automatique. Les premiers travaux consistent à appliquer la traduction automatique à plusieurs niveaux du processus de portabilité du système de compréhension afin de réduire le coût lié à production de nouvelles données d apprentissage. Les résultats expérimentaux montrent que l utilisation de la traduction automatique permet d obtenir des systèmes performant avec un minimum de contribution humaine.Cette thèse traite donc à la fois de la traduction automatique et de la compréhension de la parole. Nous avons effectué une comparaison approfondie entre les méthodes utilisées pour chacune des tâches et nous avons proposé un décodage conjoint basé sur une méthode discriminante qui à la fois traduit une phrase et lui attribue ses étiquettes sémantiques. Ce décodage est obtenu par une approche à base de graphe qui permet de composer un graphe de traduction avec un graphe de compréhension. Cette représentation peut être généralisée pour permettre des transmissions d informations riches entre les composants du système de dialogueThe generalisation of human-machine dialogue system increases the need for a rapid development of the various components of these systems. Dialogue systems can be designed for different applications and in different languages. The need for a fast production of systems for new languages is still an open and crucial issue which requires effective solutions. Our work is particularly interested in speech understanding module and propose approaches for language portability of this module. The statistical methods showed good performance to design modules for speech understanding. However, these methods require large corpora to be trained. The collection of these corpora is expensive in time and human expertise. In this thesis, we propose several approaches to port an understanding system from one language to another using machine translation techniques. The experimental results show that the use of machine translation allows to produce efficient systems with minimal human effort. This thesis addresses both machine translation and speech understanding domain. We conducted a comparison between the methods used for each task and we have proposed a joint decoding between translation and understanding based on a discriminant method. This decoding is achieved by a graph-based approach which allows to compose a translation graph with an understanding graph. This representation can be generalized to allow a rich transmission of information between the components of the dialogue systemAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

OpenGrey Repository

L’évaluation en didactique de la traduction et l’intégration des outils technopédagogiques : étude qualitative et expérimentation

Author: Gardy Philippe
Publication venue: Bibliotheque de l' Universite Laval
Publication date: 01/01/2015
Field of study

La présente recherche, qui ressortit explicitement à la recherche-action, vise à étudier les pratiques d’évaluation en didactique de la traduction en vigueur actuellement au Canada, à définir – au regard de l’état de la recherche en sciences de l’éducation, notamment dans une perspective constructiviste – les facteurs clés de succès de l’évaluation en didactique de la traduction, et à étudier l’apport potentiel de l’intégration des technologies de l’information et de la communication au processus d’évaluation des travaux des apprenants. L’objectif général est de proposer une méthodologie d’évaluation qui constitue un véritable outil d’apprentissage tout en prenant en compte les conditions réelles d’exercice des professions d’enseignant et de traducteur. La première partie de ces travaux repose sur les informations recueillies auprès de 32 enseignants et de 357 étudiants en traduction quant à leurs pratiques en matière d’évaluation et leurs perceptions liées à ce processus. La seconde partie présente les enseignements tirés de l’analyse des résultats d’une expérimentation menée auprès de 88 étudiants, dans laquelle la vidéo a été utilisée pour la rétroaction de leurs travaux en lieu et place de la traditionnelle copie papier. Il ressort de la première partie que les modalités d’évaluation actuellement en vigueur n’ont pas évolué de manière significative par rapport à celles qui prévalaient au 20e siècle, qu’elles se pratiquent de façon presque monolithique, indépendamment de l’avancement des étudiants dans leur cursus, et que l’évaluation ne constitue pas un sujet d’échange et de discussion au sein de la communauté enseignante, mais plutôt un motif de stress. Par ailleurs, il apparaît que la perception positive qu’ont les étudiants de l’évaluation au début de leur formation tend à s’estomper au fil du temps pour faire place à une certaine désillusion chez les finissants. Les apprenants pointent du doigt la quantité insuffisante de rétroaction et sa fréquente illisibilité. Quant à la seconde partie de l’étude, elle a mis en évidence les apports mesurables de l’utilisation de la rétroaction vidéo tant sur le plan de la progression des apprenants que sur celui de leur satisfaction vis-à-vis du processus d’évaluation, notamment au regard des deux critiques énoncées précédemment.This research project, an explicit example of action research, has a three-fold objective: First, to study current assessment practices in translation teaching in Canada. Secondly, to define – with regard to the state of research in educational sciences, and notably in a constructivist perspective – the key factors of successful assessment in translation teaching. And lastly, to study the potential contribution of integrating information and communication technologies into the process of evaluating students’ work. The general objective is to propose an assessment methodology that may serve as a true learning tool, while at the same time taking into account the real conditions in which the teaching and translating professions are exercised. The first part of the work is based on information gathered from 32 teachers and 357 translation students concerning their assessment practices and their perceptions related to this process. The second part presents the lessons drawn from analyzing the results of an experiment conducted with 88 students in which video was used to provide feedback on their work instead of the traditional paper assessment. It emerges from the first part of the paper that the assessment methods currently in use have not significantly evolved compared to those that were prevalent in the 20th century. These methods are used in an almost monolithic way, independent of the progress of students in their course of study. In addition, assessment does not seem to constitute a subject of exchange and discussion within the teaching community; it seems rather to constitute a source of stress. Moreover, it appears that the positive perception of assessment that students have at the beginning of their studies tends to wear off over time, giving way to a kind of disillusion by the time students near the end of their studies. Students point the finger at an insufficient amount of feedback, feedback which is frequently illegible. The second part of the study highlights the measurable contribution of using screen capture feedback, with regard both to students’ progress and to their satisfaction with assessment methods, particularly as concerns the two criticisms expressed earlier

CorpusUL

Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018: Volume 2 : Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Author: Cellier Peggy
Claveau Vincent
Grouin Cyril
Ligozat Anne-Laure
Minard Anne-Lyse
Paroubek Patrick
Publication venue: HAL CCSD
Publication date: 14/05/2018
Field of study

International audienc

INRIA a CCSD electronic archive server

Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

Author: Kostov Jovan
Šmilauer Ivan
Publication venue: HAL CCSD
Publication date: 04/07/2016
Field of study

National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

Hal-Diderot

Comparer les résultats des systèmes éducatifs nationaux : les défis méthodologiques des enquêtes PISA

Author: Le Donne Noémie
Publication venue: Observatoire sociologique du changement
Publication date: 01/10/2013
Field of study

Les enquêtes PISA (Programme International pour le Suivi des Acquis des Élèves) font actuellement office de référence dans le panorama des évaluations internationales des élèves. Elles ont donné lieu à de nombreux rapports nationaux et travaux comparatifs en éducation. Cette note s’adresse aux utilisateurs des données PISA, ainsi qu’à tous ceux qui souhaitent porter un regard distancié sur ces enquêtes et leurs exploitations. Elle expose de manière réflexive, sous les angles statistique et sociologique, la structure, les atouts et les limites du dispositif PISA depuis sa première édition en 2000. Elle cherche également à examiner la manière dont PISA répond aux défis méthodologiques des comparaisons internationales. Dans un premier temps, nous présentons les objectifs pour lesquels le programme PISA a été initialement conçu, à savoir comparer les résultats des systèmes éducatifs dans leur ensemble. Nous montrons ensuite que ce changement de cap des évaluations internationales est à l’origine d’un certain nombre d’innovations méthodologiques pour assurer la comparabilité des données produites. Ces choix méthodologiques ne sont pas sans conséquence sur la manière de traiter les informations recueillies. Au fil de cet examen critique ainsi qu’en conclusion, nous précisons donc le type d’analyse secondaire à privilégier à partir des enquêtes PISA

HAL Descartes

SPIRE - Sciences Po Institutional REpository