Search CORE

5 research outputs found

Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

Author: Fabre Cécile
Publication venue: HAL CCSD
Publication date: 29/11/2010
Field of study

Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

La notion de collocation fondamentale. Etude de corpus en vue d'une exploitation didactique.

Author: BENIGNO Veronica
Publication venue
Publication date: 13/04/2012
Field of study

Archivio istituzionale della ricerca - Università di Palermo

Thésaurus distributionnels pour la recherche d'information et vice-versa

Author: Claveau Vincent
Kijak Ewa
Publication venue: HAL CCSD
Publication date: 01/01/2015
Field of study

National audienceRÉSUMÉ. Les thésaurus distributionnels sont utiles à de nombreuses tâches du Traitement Auto-matique des Langues. Dans cet article, nous abordons les problèmes de leur construction et de leur évaluation sous l'angle de la recherche d'information. Deux contributions sont proposées. D'une part, en poursuite des travaux initiés par (Claveau et al., 2014), nous montrons comment les techniques de RI peuvent être utilisées avec succès pour construire ces thésaurus. Au moyen d'une évaluation directe par comparaison avec des lexiques de référence et au travers de plusieurs expérimentations, nous montrons que les résultats obtenus par certains modèles de RI dépassent les performances des systèmes état-de-l'art. D'autre part, nous utilisons la RI comme cadre applicatif pour proposer une évaluation indirecte des thésaurus produits. Là encore, cette évaluation valide l'approche. Mais surtout, elle permet de mettre en regard les performances obtenues sur cette tâche avec celles des évaluations directes utilisées dans la littérature. Les différences constatées remettent en cause en partie ces pratiques d'évaluation. ABSTRACT. Distributional thesauri are useful in many tasks of Natural Language Processing. In this paper, we address the problem of building and evaluating such thesauri with the help of Information Retrieval concepts. Two main contributions are proposed. First, in the continuation of the work of (Claveau et al., 2014), we show how IR tools and concepts can be used with success to build thesaurus. Through several experiments and by evaluating directly the results with reference lexicons, we show that some IR models outperform state-of-the-art systems. Secondly , we use IR as an applicative framework to indirectly evaluate the generated thesaurus. Here again, this task-based evaluation validate the IR approach used to build the thesaurus. Moreover, it allows us to compare these results with those from the direct evaluation framework used in the literature. The observed differences question these evaluation habits. MOTS-CLÉS : thésaurus distributionnels, sémantique distributionnelle, construction de lexique, modèles de RI, évaluation directe, évaluation par tâche, extension de requêtes

HAL-CentraleSupelec

INRIA a CCSD electronic archive server

HAL-Rennes 1

La politique culturelle du Québec de 1992 : continuité ou changement? : les acteurs, les coalitions et les enjeux

Author: Saint-Pierre Diane
Publication venue
Publication date: 01/01/2001
Field of study

Cette thèse s'intéresse à l'intervention du gouvernement québécois en matière de culture. Elle s'attarde plus précisément au processus qui a donné naissance à la Politique culturelle du Québec adoptée en décembre 1992 par l'Assemblée nationale du Québec. Cette « première » politique culturelle gouvernementale, qui a défini une nouvelle mission du ministère et a modifié ses pouvoirs et ses responsabilités, a finalement contribué à la création du Conseil des arts et des lettres du Québec (CALQ). Un autre objectif majeur de cette thèse est de vérifier et de confronter quelques hypothèses d'une " théorie alternative du processus politique ", élaborée par Paul A. Sabatier et Hank Jenkins-Smith (1987-1988, 1993, 1999). Ce cadre d'analyse cherche à expliquer le changement de l'action publique au sein de secteurs spécifiques d'intervention sur des périodes de dix ans ou plus. L'explication fondamentale repose sur la compétition entre des coalitions, chacune étant composée d'acteurs de multiples horizons et partageant un même système de croyances

ESPACE ENAP

Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels

Author: Claveau Vincent
Ferret Olivier
Kijak Ewa
Publication venue: HAL CCSD
Publication date: 01/07/2014
Field of study

National audienceDans cet article, nous abordons le problème de construction et d'amélioration de thésaurus distributionnels. Nous montrons d'une part que les outils de recherche d'information peuvent être directement utilisés pour la construction de ces thésaurus, en offrant des performances comparables à l'état de l'art. Nous nous intéressons d'autre part plus spécifiquement à l'amélioration des thésaurus obtenus, vus comme des graphes de plus proches voisins. En tirant parti de certaines des informations de voisinage contenues dans ces graphes nous proposons plusieurs contributions. 1) Nous montrons comment améliorer globalement les listes de voisins en prenant en compte la réciprocité de la relation de voisinage, c'est-à-dire le fait qu'un mot soit un voisin proche d'un autre et vice-versa. 2) Nous proposons également une méthode permettant d'associer à chaque liste de voisins (i.e. à chaque entrées du thésaurus construit) un score de confiance. 3) Enfin, nous montrons comment utiliser ce score de confiance pour réordonner les listes de voisins les plus proches. Ces différentes contributions sont validées expérimentalement et offrent des améliorations significatives sur l'état de l'art

HAL-CentraleSupelec

INRIA a CCSD electronic archive server

HAL-CEA

HAL-Rennes 1