1,028 research outputs found
Retour aux origines de la statistique textuelle : Benzécri et l'école française d'analyse des données
International audienceIn this article, we have attempted to trace the history of the statistical analysis of textual data, focusing on the influence of BenzĂ©cri's work and school, and to make explicit their theoretical positions, clearly opposed to AI and to Chomskyan linguistics. After a presentation of the intellectual project, as an inductive approach to language based on the exploration of corpora, we present the principles of correspondence analysis, which is the main method developed in the Data Analysis School, used for corpus analysis but also for many other types of datasets. Then, we will focus on textual data analysis. Based on the fact that software programmes have played a major role in the use of these statistical techniques, we shall examine a selection of these, display their specificities and their underlying theoretical bases.RĂ©sumĂ© Cet article revient sur une des deux branches Ă l'origine de la statistique textuelle, l'Ă©cole d'analyse des donnĂ©es « Ă la française », dont Jean-Paul BenzĂ©cri peut ĂȘtre considĂ©rĂ© comme l'initiateur. AprĂšs avoir explicitĂ© les orientations thĂ©oriques de l'analyse des donnĂ©es, et le rĂŽle jouĂ© par une approche inductive du langage, nous prĂ©sentons rapidement les principes de l'analyse des correspondances. Ensuite, nous explorerons l'application de l'analyse des donnĂ©es aux corpus de textes en montrant le rĂŽle jouĂ© par les logiciels dans la diffusion de cette approche
Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problÚmes
Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 derniÚres années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagiÚres disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagiÚres, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroßtre de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel
SystÚmes de compréhension et de traduction de la parole (vers une approche unifiée dans le cadre de la portabilité multilingue des systÚmes de dialogue)
La gĂ©nĂ©ralisation de l usage des systĂšmes de dialogue homme-machine accroĂźt la nĂ©cessitĂ© du dĂ©veloppement rapide des diffĂ©rents composants de ces systĂšmes. Les systĂšmes de dialogue peuvent ĂȘtre conçus pour diffĂ©rents domaines d application et dans des langues diffĂ©rentes. La nĂ©cessitĂ© d une production rapide pour de nouvelles langues reste un problĂšme ouvert et crucial auquel il est nĂ©cessaire d apporter des solutions efficaces.Nos travaux s intĂ©ressent particuliĂšrement au module de comprĂ©hension de la parole et proposent des approches pour la portabilitĂ© rapide peu coĂ»teuse de ce module.Les mĂ©thodes statistiques ont montrĂ© de bonnes performances pour concevoir les modules de comprĂ©hension de la parole pour l Ă©tiquetage sĂ©mantique de tours de dialogue.Cependant ces mĂ©thodes nĂ©cessitent de larges corpus pour ĂȘtre apprises. La collecte de ces corpus est aussi coĂ»teuse en temps et en expertise humaine.Dans cette thĂšse, nous proposons plusieurs approches pour porter un systĂšme de comprĂ©hension d une langue vers une autre en utilisant les techniques de la traduction automatique. Les premiers travaux consistent Ă appliquer la traduction automatique Ă plusieurs niveaux du processus de portabilitĂ© du systĂšme de comprĂ©hension afin de rĂ©duire le coĂ»t liĂ© Ă production de nouvelles donnĂ©es d apprentissage. Les rĂ©sultats expĂ©rimentaux montrent que l utilisation de la traduction automatique permet d obtenir des systĂšmes performant avec un minimum de contribution humaine.Cette thĂšse traite donc Ă la fois de la traduction automatique et de la comprĂ©hension de la parole. Nous avons effectuĂ© une comparaison approfondie entre les mĂ©thodes utilisĂ©es pour chacune des tĂąches et nous avons proposĂ© un dĂ©codage conjoint basĂ© sur une mĂ©thode discriminante qui Ă la fois traduit une phrase et lui attribue ses Ă©tiquettes sĂ©mantiques. Ce dĂ©codage est obtenu par une approche Ă base de graphe qui permet de composer un graphe de traduction avec un graphe de comprĂ©hension. Cette reprĂ©sentation peut ĂȘtre gĂ©nĂ©ralisĂ©e pour permettre des transmissions d informations riches entre les composants du systĂšme de dialogueThe generalisation of human-machine dialogue system increases the need for a rapid development of the various components of these systems. Dialogue systems can be designed for different applications and in different languages. The need for a fast production of systems for new languages is still an open and crucial issue which requires effective solutions. Our work is particularly interested in speech understanding module and propose approaches for language portability of this module. The statistical methods showed good performance to design modules for speech understanding. However, these methods require large corpora to be trained. The collection of these corpora is expensive in time and human expertise. In this thesis, we propose several approaches to port an understanding system from one language to another using machine translation techniques. The experimental results show that the use of machine translation allows to produce efficient systems with minimal human effort. This thesis addresses both machine translation and speech understanding domain. We conducted a comparison between the methods used for each task and we have proposed a joint decoding between translation and understanding based on a discriminant method. This decoding is achieved by a graph-based approach which allows to compose a translation graph with an understanding graph. This representation can be generalized to allow a rich transmission of information between the components of the dialogue systemAVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF
LâĂ©valuation en didactique de la traduction et lâintĂ©gration des outils technopĂ©dagogiques : Ă©tude qualitative et expĂ©rimentation
La prĂ©sente recherche, qui ressortit explicitement Ă la recherche-action, vise Ă Ă©tudier les pratiques dâĂ©valuation en didactique de la traduction en vigueur actuellement au Canada, Ă dĂ©finir â au regard de lâĂ©tat de la recherche en sciences de lâĂ©ducation, notamment dans une perspective constructiviste â les facteurs clĂ©s de succĂšs de lâĂ©valuation en didactique de la traduction, et Ă Ă©tudier lâapport potentiel de lâintĂ©gration des technologies de lâinformation et de la communication au processus dâĂ©valuation des travaux des apprenants. Lâobjectif gĂ©nĂ©ral est de proposer une mĂ©thodologie dâĂ©valuation qui constitue un vĂ©ritable outil dâapprentissage tout en prenant en compte les conditions rĂ©elles dâexercice des professions dâenseignant et de traducteur. La premiĂšre partie de ces travaux repose sur les informations recueillies auprĂšs de 32 enseignants et de 357 Ă©tudiants en traduction quant Ă leurs pratiques en matiĂšre dâĂ©valuation et leurs perceptions liĂ©es Ă ce processus. La seconde partie prĂ©sente les enseignements tirĂ©s de lâanalyse des rĂ©sultats dâune expĂ©rimentation menĂ©e auprĂšs de 88 Ă©tudiants, dans laquelle la vidĂ©o a Ă©tĂ© utilisĂ©e pour la rĂ©troaction de leurs travaux en lieu et place de la traditionnelle copie papier. Il ressort de la premiĂšre partie que les modalitĂ©s dâĂ©valuation actuellement en vigueur nâont pas Ă©voluĂ© de maniĂšre significative par rapport Ă celles qui prĂ©valaient au 20e siĂšcle, quâelles se pratiquent de façon presque monolithique, indĂ©pendamment de lâavancement des Ă©tudiants dans leur cursus, et que lâĂ©valuation ne constitue pas un sujet dâĂ©change et de discussion au sein de la communautĂ© enseignante, mais plutĂŽt un motif de stress. Par ailleurs, il apparaĂźt que la perception positive quâont les Ă©tudiants de lâĂ©valuation au dĂ©but de leur formation tend Ă sâestomper au fil du temps pour faire place Ă une certaine dĂ©sillusion chez les finissants. Les apprenants pointent du doigt la quantitĂ© insuffisante de rĂ©troaction et sa frĂ©quente illisibilitĂ©. Quant Ă la seconde partie de lâĂ©tude, elle a mis en Ă©vidence les apports mesurables de lâutilisation de la rĂ©troaction vidĂ©o tant sur le plan de la progression des apprenants que sur celui de leur satisfaction vis-Ă -vis du processus dâĂ©valuation, notamment au regard des deux critiques Ă©noncĂ©es prĂ©cĂ©demment.This research project, an explicit example of action research, has a three-fold objective: First, to study current assessment practices in translation teaching in Canada. Secondly, to define â with regard to the state of research in educational sciences, and notably in a constructivist perspective â the key factors of successful assessment in translation teaching. And lastly, to study the potential contribution of integrating information and communication technologies into the process of evaluating studentsâ work. The general objective is to propose an assessment methodology that may serve as a true learning tool, while at the same time taking into account the real conditions in which the teaching and translating professions are exercised. The first part of the work is based on information gathered from 32 teachers and 357 translation students concerning their assessment practices and their perceptions related to this process. The second part presents the lessons drawn from analyzing the results of an experiment conducted with 88 students in which video was used to provide feedback on their work instead of the traditional paper assessment. It emerges from the first part of the paper that the assessment methods currently in use have not significantly evolved compared to those that were prevalent in the 20th century. These methods are used in an almost monolithic way, independent of the progress of students in their course of study. In addition, assessment does not seem to constitute a subject of exchange and discussion within the teaching community; it seems rather to constitute a source of stress. Moreover, it appears that the positive perception of assessment that students have at the beginning of their studies tends to wear off over time, giving way to a kind of disillusion by the time students near the end of their studies. Students point the finger at an insufficient amount of feedback, feedback which is frequently illegible. The second part of the study highlights the measurable contribution of using screen capture feedback, with regard both to studentsâ progress and to their satisfaction with assessment methods, particularly as concerns the two criticisms expressed earlier
Actes de la conférence Traitement Automatique de la Langue Naturelle, TALN 2018: Volume 2 : Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
International audienc
Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL
National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues
Comparer les rĂ©sultats des systĂšmes Ă©ducatifs nationaux : les dĂ©fis mĂ©thodologiques des enquĂȘtes PISA
Les enquĂȘtes PISA (Programme International pour le Suivi des Acquis des ĂlĂšves) font actuellement
office de référence dans le panorama des évaluations internationales des élÚves. Elles ont donné lieu à de
nombreux rapports nationaux et travaux comparatifs en Ă©ducation. Cette note sâadresse aux utilisateurs des donnĂ©es PISA, ainsi quâĂ tous ceux qui souhaitent porter un regard distanciĂ© sur ces enquĂȘtes et leurs exploitations. Elle expose de maniĂšre rĂ©flexive, sous les angles statistique et sociologique, la structure, les
atouts et les limites du dispositif PISA depuis sa premiĂšre Ă©dition en 2000. Elle cherche Ă©galement Ă examiner
la maniÚre dont PISA répond aux défis méthodologiques des comparaisons internationales. Dans un premier
temps, nous présentons les objectifs pour lesquels le programme PISA a été initialement conçu, à savoir
comparer les rĂ©sultats des systĂšmes Ă©ducatifs dans leur ensemble. Nous montrons ensuite que ce changement de cap des Ă©valuations internationales est Ă lâorigine dâun certain nombre dâinnovations mĂ©thodologiques pour assurer la comparabilitĂ© des donnĂ©es produites. Ces choix mĂ©thodologiques ne sont pas sans consĂ©quence sur la maniĂšre de traiter les informations recueillies. Au fil de cet examen critique ainsi quâen conclusion, nous prĂ©cisons donc le type dâanalyse secondaire Ă privilĂ©gier Ă partir des enquĂȘtes PISA
- âŠ