127 research outputs found

    Praxis métalinguistiques et ontologie des catégories

    Get PDF
    Recul épistémologique quant aux différents champs abordés et problématisation "méta-" en termes d'outils, de corpus et de conventions notationnelles, à partir des objets linguistiques que j'avais pu travailler, notamment la complétive nominale

    Interprétation linguistique et computationnelle des valeurs par défaut dans le domaine syntaxique

    Full text link
    Thèse diffusée initialement dans le cadre d'un projet pilote des Presses de l'Université de Montréal/Centre d'édition numérique UdeM (1997-2008) avec l'autorisation de l'auteur

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    Identification automatique et analyse sémantique des marqueurs illocutoires du français québécois en contexte de conversation familière

    Get PDF
    Les marqueurs illocutoires (MI) sont des unités lexicales indépendantes syntaxiquement qui réalisent des actes illocutoires expressifs, directifs ou assertifs. Ces mots-phrases, comme wow, coudon, franchement! et mon dieu!, nous apparaissent comme une des clés de l'expression de la subjectivité à l'oral en contexte de conversation. L'analyse automatique de ces unités, leur identification et la détermination de leur sens par un système informatique, soulève des problèmes particuliers liés à leur polysémie, à leur comportement syntaxique et à leur relative faible fréquence dans les corpus actuellement disponibles. Dans cette thèse, nous cherchons à résoudre ces problèmes à l'aide du Corpus de français parlé au Québec (CFPQ) comme source de données, des librairies en Python du Natural Language Toolkit (NLTK) et de scikit-learn comme outils informatiques et des travaux réalisés dans les cadres de la Métalangue sémantique naturelle (MSN) et de la théorie Sens-Texte (TST) comme outils théoriques. Suite à un état de la question au sujet des MI et du traitement automatique des marqueurs discursifs en général, nous présentons les résultats d'une expérience au sujet de l'identification automatique des MI ambigus présents dans le CFPQ. L'identification de certains MI est triviale parce que ceux-ci se présentent sous des formes qui ne sont pas ambiguës (chut et coudon, par exemple). L'identification des MI qui sont homonymes avec d'autres classes grammaticales (comme regarde et sérieux) est plus difficile. Nous voyons qu'il est possible de repérer ceux-ci à l'aide de méthodes automatiques qui obtiennent des f-mesures variant entre 75% et 100% selon les unités, avec une moyenne de 93,98% pour la meilleure méthode. Un étiqueteur à n-grammes et un classifieur de type SVM (support vector machine) sont les principaux outils informatiques utilisés par ces méthodes. L'étiqueteur à n-grammes est entraîné sur un ensemble d'étiquettes spécifiquement conçu pour favoriser l'identification des MI. Le classifieur SVM base principalement son entraînement et son analyse sur l'observation des textes et des résultats de l'étiqueteur à n-grammes. Nous proposons ensuite un système de description sémantique modulaire des MI qui nous permet de décrire leurs signifiés par la combinaison de 17 paraphrases simples en langue naturelle. Nous terminons notre étude par la présentation d'un exemple d'analyse de texte à l'aide du système d'identification et d'interprétation des MI développé au cours de la thèse

    Vers une grammaire d'unification Sens-Texte du français : le temps verbal dans l'interface sémantique-syntaxe

    Full text link
    Thèse numérisée par la Division de la gestion de documents et des archives de l'Université de Montréal

    Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français

    Get PDF
    English abstract not availableLe travail présenté dans la thèse a été réalisé dans le cadre d'une Convention industrielle de formation par la recherche en entreprise (CIFRE) au Centre de recherche européen de Xerox (XRCE), le laboratoire universitaire associé étant le Groupe de recherche dans les industries de la langue (GRIL) de l'université Blaise-Pascal à Clermont-Ferrand.La thèse est organisée en deux parties: nous présentons, dans une première partie, une étude générale des « phénomènes de reprises », et, dans une deuxième partie, l'implantation d'un système d'interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne. La thèse a en outre pour objectif d'illustrer une méthode de travail qui exige que les descriptions linguistiques que nous proposerons puissent être et soient évaluées, c'est-à-dire confrontées à la réalité observable des textes.La première partie de la thèse a pour double objectif de présenter une étude générale des phénomènes de reprise et d'illustrer une méthodologie, qui met l'accent sur la nécessité de tester les hypothèses par rapport au réel observable. Le premier chapitre est consacré à la délimitation des phénomènes de reprise. Il y a reprise lorsqu'entre deux expressions d'un même texte existe un lien sémantique caractérisé en ayant recours à une relation d'identité. La notion de reprise recouvre la relation de coréférence, mais également d'autres relations. Elle recouvre également certains phénomènes d'anaphore, mais, contrairement à cette dernière, elle ne met pas en jeu une caractérisation du phénomène par la forme des expressions. La caractérisation des différents types de liens de reprise fait l'objet du chapitre 2.Ces deux chapitres ont pour vocation de spécifier un système d'organisation des données linguistiques: on définit les objets qui devront être observés, et comment ils devront l'être. Étant donné un texte quelconque et les définitions des chapitres 1 et 2, un observateur quelconque doit pouvoir spécifier quels sont les liens de reprise à l'intérieur de ce texte. Les chapitres 3 et 4 abordent la problématique de l'évaluation. Le chapitre 3 est plus particulièrement dédié à la définition de critères et de mesures d'évaluation pour les phénomènes relevant de la coréférence au sens strict. Des critères et mesures d'évaluation pour la coréférence existaient préalablement à cette thèse; nous en proposons de nouveaux, en les justifiant.Pour attester l'existence de conditions d'évaluation externes à un système d'hypothèses, il est nécessaire de montrer que l'observation des phénomènes visés est inter-subjective. Le chapitre 4 présente les résultats d'une expérience visant à évaluer cette inter-subjectivité sur l'observation des différentes relations à distance qui peuvent être observées entre les expressions d'un même texte. Cinq étudiants du GRIL ont noté les relations qu'ils observaient sur trois articles de journaux, observations que nous comparons avec les observations que nous-mêmes avions faites sur ces textes. L'existence des conditions d'évaluation dépendra du degré d'accord entre les observations faites par les étudiants et nos propres observations. Si la première partie de la thèse donne une vue générale des phénomènes de reprise, la seconde partie a un caractère plus applicatif: on y décrit l'implantation d'un système d'interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne dans les textes en français.Le chapitre 5 décrit notre objectif pour cette seconde partie de la thèse, l'environnement de travail et la méthodologie adoptée.Le chapitre 6 présente les approches possibles du problème que nous voulons résoudre. On recense d'abord les différentes sources d'information qui peuvent entrer en jeu dans les mécanismes d'interprétation des expressions pronominales (syntaxe, sémantique, etc.), puis on décrit quelques-uns des principaux systèmes d'interprétation automatique des pronoms, par rapport auxquels nous mettons notre propre système en perspective.Le chapitre 7 décrit les données sur lesquelles seront exprimées nos hypothèses sur l'interprétation des pronoms. Il s'agit essentiellement d'une représentation de la structure syntaxique des phrases, telle que produite par l'analyseur syntaxique développé au Centre de recherche de Xerox (XRCE).Nos hypothèses sur l'interprétation des expressions pronominales retenues ont été implantées dans le formalisme de l'outil XIP, développé à XRCE. La description de ce formalisme fait l'objet du chapitre 8.Notre système d'hypothèses sur l'interprétation des expressions pronominales est présenté plus spécifiquement dans les chapitres 9 (organisation globale du système), 10 et 11 (description précise des hypothèses). Il est ensuite évalué dans le chapitre suivant. Le système donne une interprétation correcte pour 75 % des expressions pronominales visées, évaluation effectuée sur un ensemble de 417 expressions apparaissant dans un recueil d'articles de presse traitant du domaine de la finance

    Raisonner l'orthographe au cycle 3

    Get PDF
    Mise à disposition de l'ouvrage : Raisonner l'orthographe au cycle 3 - CRDP de Grenoble - 2002Ouvrage de vulgarisation en didactique de l'orthographe.Le document est au format htmlL'orthographe est un système clos qui n'a rien de naturel. Là réside toute la difficulté de son apprentissage. Comment faire entrer les élèves dans le système orthographique ? Cet ouvrage ouvre quelques portes : construction de connaissances, raisonnements, évaluation. Inclure l’apprentissage de l’écriture dans un projet de classe ou de cycle, tel est l’objectif de ce livre. Un apport d’informations théoriques pour le maitre soutient des propositions d’activités pour les élèves. Une aide au projet répond aux inquiétudes que peut susciter le changement pédagogique sur un terrain aussi sensible que la norme orthographique

    Le système des verbes à classificateur de la langue des signes québécoise

    Get PDF
    Cette thèse porte sur les verbes à classificateur (VCL) de la LSQ. Les VCL se distinguent des autres verbes de la langue par le fait de contenir un morphème classificateur, qui renvoie à un référent nominal en fonction de propriétés saillantes de son référent, le plus souvent des propriétés de forme. Les VCL expriment la localisation, le mouvement, le changement de position, la manipulation et la forme d'une entité. Parce qu'ils mettent à profit l'iconicité, la simultanéité et l'utilisation linguistique de l'espace, les VCL défient les analyses traditionnelles. Dans les langues des signes, ils ont donné lieu à une panoplie d'analyses et des caractérisations divergentes (voir Schembri, 2003). Avant cette thèse, les descriptions précédentes des VCL de la LSQ (Dubuisson et al., 1996; Lajeunesse, 2001) ont porté sur la description générale des classificateurs (la configuration manuelle), leur sélection en fonction de leur antécédent nominal ainsi que de leur classification. On ne disposait que de très peu d'informations sur leur comportement en contexte discursif et leurs fonctions dans la langue. L'objectif de cette thèse est de fournir une analyse explicative de la nature et du fonctionnement des VCL de la LSQ. Plus spécifiquement, il s'agit 1) d'effectuer une analyse de leurs éléments de structure, 2) de décrire leur marquage argumental et les situer dans le système verbal de la LSQ, 3) d'expliquer leur distribution en contexte discursif et 4) de formuler et de tester une proposition de la catégorisation des VCL et d'en montrer la pertinence. Les moyens mis de l'avant dans la thèse pour atteindre ces objectifs sont la description et l'analyse des VCL, autant d'un point de vue lexical, morphosyntaxique, syntaxique que discursif, à partir de données provenant d'un corpus de productions discursives de quatre participants sourds (Lelièvre et al., 2009). Nos résultats ont permis de mettre à jour un inventaire de 12 classificateurs, et révèlent de nouvelles formes et emplois. Notre analyse propose que les classificateurs de la LSQ sont des éléments monosémiques qui peuvent entrer dans la formation de VCL de trois catégories (sur la base des travaux de Schembri, 2001, 2003, entre autres) : 1) les VCL entité, 2) les VCL de préhension, et 3) les VCL spécificateurs de taille et de forme. Par ailleurs, c'est le mouvement du VCL en contexte qui détermine la catégorie du VCL. Du point de vue du marquage argumentai, nos résultats ont montré que comme pour les verbes lexicaux (Parisot, 2003), la forme de base du VCL (son mouvement primaire) détermine les possibilités du marquage argumental. Les VCL peuvent être apparentés aux verbes souples et semi-rigides, qui marquent l'accord à l'aide de la localisation directe. Toutefois, à la différence de ces derniers, ils n'utilisent ni l'orientation ni le POINTÉ afin de marquer leurs arguments. En effet, dans les VCL, l'orientation marque l'orientation du référent et n'est donc pas une stratégie disponible pour marquer l'accord. De plus, la forme manuelle des VCL (classificateur et localisation directe) est utilisée pour marquer l'accord, réduisant le besoin de l'ajout d'un marqueur comme le POINTÉ pour l'accord. Nous proposons donc que les VCL constituent un sous-système particulier du système verbal de la LSQ, avec des caractéristiques qui lui sont propres. Notre analyse de la distribution des VCL montre qu'en contexte discursif, la réutilisation du contexte spatial est l'élément qui influence le plus la production de VCL que la simple description d'entité. De plus, les VCL sont utilisés avant tout dans des contextes de production de formes saillantes. Enfin, le choix d'utiliser un type de VCL plutôt qu'un autre dépend de la perspective pragmatique adoptée par le signeur. En ce qui a trait à la relation entre le classificateur et son antécédent, nos résultats montrent que l'identification du référent précède l'actualisation du VCL et que les VCL sont le plus souvent utilisés pour maintenir la référence d'un nom. Finalement, au niveau propositionnel, notre analyse montre que les propositions à VCL sans argument lexicalement réalisé sont fréquentes et que la représentation corporelle influence le nombre d'arguments réalisés. De plus, les VCL se retrouvent dans des constructions verbales complexes (séquences verbales, verbes écho et VCL simultanés). Les résultats de cette thèse contribuent à mieux comprendre le système des VCL de la LSQ et la façon dont il s'intègre au système verbal. De plus, ils contribuent à l'approfondissement des connaissances sur les aspects distributionnels, jusqu'ici peu explorés en LSQ, et particulièrement en contexte discursif. Enfin, les connaissances sur les VCL participent à l'avancement des connaissances sur l'impact de la modalité visuogestuelle sur la structure des langues des signes.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Langue des signes québécoise (LSQ), verbes à classificateur, classificateur, morphosyntaxe, marquage argumental
    • …
    corecore