1,028 research outputs found

    Retour aux origines de la statistique textuelle : Benzécri et l'école française d'analyse des données

    Get PDF
    International audienceIn this article, we have attempted to trace the history of the statistical analysis of textual data, focusing on the influence of BenzĂ©cri's work and school, and to make explicit their theoretical positions, clearly opposed to AI and to Chomskyan linguistics. After a presentation of the intellectual project, as an inductive approach to language based on the exploration of corpora, we present the principles of correspondence analysis, which is the main method developed in the Data Analysis School, used for corpus analysis but also for many other types of datasets. Then, we will focus on textual data analysis. Based on the fact that software programmes have played a major role in the use of these statistical techniques, we shall examine a selection of these, display their specificities and their underlying theoretical bases.RĂ©sumĂ© Cet article revient sur une des deux branches Ă  l'origine de la statistique textuelle, l'Ă©cole d'analyse des donnĂ©es « Ă  la française », dont Jean-Paul BenzĂ©cri peut ĂȘtre considĂ©rĂ© comme l'initiateur. AprĂšs avoir explicitĂ© les orientations thĂ©oriques de l'analyse des donnĂ©es, et le rĂŽle jouĂ© par une approche inductive du langage, nous prĂ©sentons rapidement les principes de l'analyse des correspondances. Ensuite, nous explorerons l'application de l'analyse des donnĂ©es aux corpus de textes en montrant le rĂŽle jouĂ© par les logiciels dans la diffusion de cette approche

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problÚmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 derniÚres années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagiÚres disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagiÚres, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroßtre de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel

    SystÚmes de compréhension et de traduction de la parole (vers une approche unifiée dans le cadre de la portabilité multilingue des systÚmes de dialogue)

    Get PDF
    La gĂ©nĂ©ralisation de l usage des systĂšmes de dialogue homme-machine accroĂźt la nĂ©cessitĂ© du dĂ©veloppement rapide des diffĂ©rents composants de ces systĂšmes. Les systĂšmes de dialogue peuvent ĂȘtre conçus pour diffĂ©rents domaines d application et dans des langues diffĂ©rentes. La nĂ©cessitĂ© d une production rapide pour de nouvelles langues reste un problĂšme ouvert et crucial auquel il est nĂ©cessaire d apporter des solutions efficaces.Nos travaux s intĂ©ressent particuliĂšrement au module de comprĂ©hension de la parole et proposent des approches pour la portabilitĂ© rapide peu coĂ»teuse de ce module.Les mĂ©thodes statistiques ont montrĂ© de bonnes performances pour concevoir les modules de comprĂ©hension de la parole pour l Ă©tiquetage sĂ©mantique de tours de dialogue.Cependant ces mĂ©thodes nĂ©cessitent de larges corpus pour ĂȘtre apprises. La collecte de ces corpus est aussi coĂ»teuse en temps et en expertise humaine.Dans cette thĂšse, nous proposons plusieurs approches pour porter un systĂšme de comprĂ©hension d une langue vers une autre en utilisant les techniques de la traduction automatique. Les premiers travaux consistent Ă  appliquer la traduction automatique Ă  plusieurs niveaux du processus de portabilitĂ© du systĂšme de comprĂ©hension afin de rĂ©duire le coĂ»t liĂ© Ă  production de nouvelles donnĂ©es d apprentissage. Les rĂ©sultats expĂ©rimentaux montrent que l utilisation de la traduction automatique permet d obtenir des systĂšmes performant avec un minimum de contribution humaine.Cette thĂšse traite donc Ă  la fois de la traduction automatique et de la comprĂ©hension de la parole. Nous avons effectuĂ© une comparaison approfondie entre les mĂ©thodes utilisĂ©es pour chacune des tĂąches et nous avons proposĂ© un dĂ©codage conjoint basĂ© sur une mĂ©thode discriminante qui Ă  la fois traduit une phrase et lui attribue ses Ă©tiquettes sĂ©mantiques. Ce dĂ©codage est obtenu par une approche Ă  base de graphe qui permet de composer un graphe de traduction avec un graphe de comprĂ©hension. Cette reprĂ©sentation peut ĂȘtre gĂ©nĂ©ralisĂ©e pour permettre des transmissions d informations riches entre les composants du systĂšme de dialogueThe generalisation of human-machine dialogue system increases the need for a rapid development of the various components of these systems. Dialogue systems can be designed for different applications and in different languages. The need for a fast production of systems for new languages is still an open and crucial issue which requires effective solutions. Our work is particularly interested in speech understanding module and propose approaches for language portability of this module. The statistical methods showed good performance to design modules for speech understanding. However, these methods require large corpora to be trained. The collection of these corpora is expensive in time and human expertise. In this thesis, we propose several approaches to port an understanding system from one language to another using machine translation techniques. The experimental results show that the use of machine translation allows to produce efficient systems with minimal human effort. This thesis addresses both machine translation and speech understanding domain. We conducted a comparison between the methods used for each task and we have proposed a joint decoding between translation and understanding based on a discriminant method. This decoding is achieved by a graph-based approach which allows to compose a translation graph with an understanding graph. This representation can be generalized to allow a rich transmission of information between the components of the dialogue systemAVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF

    L’évaluation en didactique de la traduction et l’intĂ©gration des outils technopĂ©dagogiques : Ă©tude qualitative et expĂ©rimentation

    Get PDF
    La prĂ©sente recherche, qui ressortit explicitement Ă  la recherche-action, vise Ă  Ă©tudier les pratiques d’évaluation en didactique de la traduction en vigueur actuellement au Canada, Ă  dĂ©finir – au regard de l’état de la recherche en sciences de l’éducation, notamment dans une perspective constructiviste – les facteurs clĂ©s de succĂšs de l’évaluation en didactique de la traduction, et Ă  Ă©tudier l’apport potentiel de l’intĂ©gration des technologies de l’information et de la communication au processus d’évaluation des travaux des apprenants. L’objectif gĂ©nĂ©ral est de proposer une mĂ©thodologie d’évaluation qui constitue un vĂ©ritable outil d’apprentissage tout en prenant en compte les conditions rĂ©elles d’exercice des professions d’enseignant et de traducteur. La premiĂšre partie de ces travaux repose sur les informations recueillies auprĂšs de 32 enseignants et de 357 Ă©tudiants en traduction quant Ă  leurs pratiques en matiĂšre d’évaluation et leurs perceptions liĂ©es Ă  ce processus. La seconde partie prĂ©sente les enseignements tirĂ©s de l’analyse des rĂ©sultats d’une expĂ©rimentation menĂ©e auprĂšs de 88 Ă©tudiants, dans laquelle la vidĂ©o a Ă©tĂ© utilisĂ©e pour la rĂ©troaction de leurs travaux en lieu et place de la traditionnelle copie papier. Il ressort de la premiĂšre partie que les modalitĂ©s d’évaluation actuellement en vigueur n’ont pas Ă©voluĂ© de maniĂšre significative par rapport Ă  celles qui prĂ©valaient au 20e siĂšcle, qu’elles se pratiquent de façon presque monolithique, indĂ©pendamment de l’avancement des Ă©tudiants dans leur cursus, et que l’évaluation ne constitue pas un sujet d’échange et de discussion au sein de la communautĂ© enseignante, mais plutĂŽt un motif de stress. Par ailleurs, il apparaĂźt que la perception positive qu’ont les Ă©tudiants de l’évaluation au dĂ©but de leur formation tend Ă  s’estomper au fil du temps pour faire place Ă  une certaine dĂ©sillusion chez les finissants. Les apprenants pointent du doigt la quantitĂ© insuffisante de rĂ©troaction et sa frĂ©quente illisibilitĂ©. Quant Ă  la seconde partie de l’étude, elle a mis en Ă©vidence les apports mesurables de l’utilisation de la rĂ©troaction vidĂ©o tant sur le plan de la progression des apprenants que sur celui de leur satisfaction vis-Ă -vis du processus d’évaluation, notamment au regard des deux critiques Ă©noncĂ©es prĂ©cĂ©demment.This research project, an explicit example of action research, has a three-fold objective: First, to study current assessment practices in translation teaching in Canada. Secondly, to define – with regard to the state of research in educational sciences, and notably in a constructivist perspective – the key factors of successful assessment in translation teaching. And lastly, to study the potential contribution of integrating information and communication technologies into the process of evaluating students’ work. The general objective is to propose an assessment methodology that may serve as a true learning tool, while at the same time taking into account the real conditions in which the teaching and translating professions are exercised. The first part of the work is based on information gathered from 32 teachers and 357 translation students concerning their assessment practices and their perceptions related to this process. The second part presents the lessons drawn from analyzing the results of an experiment conducted with 88 students in which video was used to provide feedback on their work instead of the traditional paper assessment. It emerges from the first part of the paper that the assessment methods currently in use have not significantly evolved compared to those that were prevalent in the 20th century. These methods are used in an almost monolithic way, independent of the progress of students in their course of study. In addition, assessment does not seem to constitute a subject of exchange and discussion within the teaching community; it seems rather to constitute a source of stress. Moreover, it appears that the positive perception of assessment that students have at the beginning of their studies tends to wear off over time, giving way to a kind of disillusion by the time students near the end of their studies. Students point the finger at an insufficient amount of feedback, feedback which is frequently illegible. The second part of the study highlights the measurable contribution of using screen capture feedback, with regard both to students’ progress and to their satisfaction with assessment methods, particularly as concerns the two criticisms expressed earlier

    Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

    Get PDF
    National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

    Comparer les rĂ©sultats des systĂšmes Ă©ducatifs nationaux : les dĂ©fis mĂ©thodologiques des enquĂȘtes PISA

    Get PDF
    Les enquĂȘtes PISA (Programme International pour le Suivi des Acquis des ÉlĂšves) font actuellement office de rĂ©fĂ©rence dans le panorama des Ă©valuations internationales des Ă©lĂšves. Elles ont donnĂ© lieu Ă  de nombreux rapports nationaux et travaux comparatifs en Ă©ducation. Cette note s’adresse aux utilisateurs des donnĂ©es PISA, ainsi qu’à tous ceux qui souhaitent porter un regard distanciĂ© sur ces enquĂȘtes et leurs exploitations. Elle expose de maniĂšre rĂ©flexive, sous les angles statistique et sociologique, la structure, les atouts et les limites du dispositif PISA depuis sa premiĂšre Ă©dition en 2000. Elle cherche Ă©galement Ă  examiner la maniĂšre dont PISA rĂ©pond aux dĂ©fis mĂ©thodologiques des comparaisons internationales. Dans un premier temps, nous prĂ©sentons les objectifs pour lesquels le programme PISA a Ă©tĂ© initialement conçu, Ă  savoir comparer les rĂ©sultats des systĂšmes Ă©ducatifs dans leur ensemble. Nous montrons ensuite que ce changement de cap des Ă©valuations internationales est Ă  l’origine d’un certain nombre d’innovations mĂ©thodologiques pour assurer la comparabilitĂ© des donnĂ©es produites. Ces choix mĂ©thodologiques ne sont pas sans consĂ©quence sur la maniĂšre de traiter les informations recueillies. Au fil de cet examen critique ainsi qu’en conclusion, nous prĂ©cisons donc le type d’analyse secondaire Ă  privilĂ©gier Ă  partir des enquĂȘtes PISA
    • 

    corecore