18 research outputs found

    Affinités syntaxiques et sémantiques entre mots : apports mutuels de la linguistique et du TAL

    Get PDF
    Je présente un bilan des travaux que j'ai menés depuis mon recrutement à l'Université de Toulouse 2 - Le Mirail (1997) dans le domaine de la linguistique et du Traitement Automatique des Langues (TAL). J'ai exploré le lien entre ces deux disciplines de deux façons que j'estime complémentaires : tout d'abord, je considère le champ applicatif du TAL comme un terrain d'investigation important pour la linguistique. Le TAL, et de façon générale, les applications relevant du domaine de l'ingénierie des langues, sollicitent un renouvellement des objets d'étude de la linguistique et élargissent le champ de ses questionnements. En retour, la linguistique gagne à s'appuyer sur des procédures de découverte issues du TAL, basées sur le traitement de corpus numérisés et annotés et sur le recours à des techniques de quantification adaptées aux besoins de la description linguistique. Au sein de ce cadre général, les travaux que j'ai menés ont porté principalement sur deux thématiques de recherche que j'ai résumées sous les termes d'affinités sémantiques et syntaxiques. Le premier concerne la question du repérage des rapports de proximité sémantique entre différents types d'unités (mots, termes, structures prédicatives). Identifier sous la diversité des formulations des éléments de contenu similaire est un objectif crucial pour de nombreuses applications qui visent l'accès à l'information dans les textes. Dans cette perspective, j'ai cherché à considérer sur le plan linguistique cette question de la proximité sémantique, en faisant en particulier appel à des techniques d'analyse distributionnelle automatique qui visent à calculer les rapprochements sémantiques entre mots sur la base de la similarité de leur comportement syntaxique dans les corpus. Cette approche inductive des relations de sens déborde largement les limites des relations classiquement décrites en linguistique et sollicite des procédures nouvelles de description et de validation. Le second volet concerne la question des affinités syntaxiques entre mots : impliquée dans le projet de développement et d'exploitation d'un analyseur syntaxique automatique, syntex, je me suis intéressée à une question qui est au coeur des problèmes d'ambiguïté syntaxique, à savoir le rattachement des groupes prépositionnels. J'ai travaillé en particulier à la mise au point d'une méthode permettant de distinguer des types différents de rattachement prépositionnel, de nature argumentale ou adjonctive. Dans ce cas également, mon travail est guidé par un objectif qui relève du TAL (améliorer les performances d'un analyseur), et ce projet m'a amenée en retour à retravailler une question linguistique centrale en syntaxe, la distinction entre arguments et circonstants, et à développer des méthodes d'analyse de corpus qui permettent de substituer à une conception binaire de ces notions une appréciation plus graduelle de l'autonomie du groupe prépositionnel par rapport au verbe. Je propose donc de montrer comment les outils de TAL appliqués aux corpus offrent à la linguistique des instruments d'observation et d'expérimentation qui permettent d'aborder les faits langagiers par le biais de l'observation des usages et sous l'angle de la quantification. Ma conviction est que la linguistique ainsi outillée peut jouer un rôle plus important sur les nombreux terrains applicatifs qui nécessitent l'analyse de données langagières

    Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    Get PDF
    Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

    Composition dynamique de services sensibles au contexte dans les systèmes intelligents ambiants

    Get PDF
    With the appearance of the paradigms of the ambient intelligence and ubiquitaire robotics, we attend the emergence of new ambient intelligent systems to create and manage environments or intelligent ecosystems in a intuitive and transparent way. These environments are intelligent spaces characterized in particular by the opening, the heterogeneousness, the uncertainty and the dynamicité of the entities which establish(constitute) them. These characteristics so lift(raise) considerable scientific challenges for the conception(design) and the implementation of an adequate intelligent system. These challenges are mainly among five: the abstraction of the representation of the heterogeneous entities, the management of the uncertainties, the reactivity in the events, the sensibility in the context and the auto-adaptationAvec l'apparition des paradigmes de l'intelligence ambiante et de la robotique ubiquitaire, on assiste à l'émergence de nouveaux systèmes intelligents ambiants visant à créer et gérer des environnements ou écosystèmes intelligents d'une façon intuitive et transparente. Ces environnements sont des espaces intelligents caractérisés notamment par l'ouverture, l'hétérogénéité, l'incertitude et la dynamicité des entités qui les constituent. Ces caractéristiques soulèvent ainsi des défis scientifiques considérables pour la conception et la mise en œuvre d'un système intelligent adéquat. Ces défis sont principalement au nombre de cinq : l'abstraction de la représentation des entités hétérogènes, la gestion des incertitudes, la réactivité aux événements, la sensibilité au contexte et l'auto-adaptation face aux changements imprévisibles qui se produisent dans l'environnement ambiant. L'approche par composition dynamique de services constitue l'une des réponses prometteuses à ces défis. Dans cette thèse, nous proposons un système intelligent capable d'effectuer une composition dynamique de services en tenant compte, d'une part, du contexte d'utilisation et des diverses fonctionnalités offertes par les services disponibles dans un environnement ambiant et d'autre part, des besoins variables exprimés par les utilisateurs. Ce système est construit suivant un modèle multicouche, adaptatif et réactif aux événements. Il repose aussi sur l'emploi d'un modèle de connaissances expressif permettant une ouverture plus large vers les différentes entités de l'environnement ambiant notamment : les dispositifs, les services, les événements, le contexte et les utilisateurs. Ce système intègre également un modèle de découverte et de classification de services afin de localiser et de préparer sémantiquement les services nécessaires à la composition de services. Cette composition est réalisée d'une façon automatique et dynamique en deux phases principales: la phase offline et la phase online. Dans la phase offline, un graphe global reliant tous les services abstraits disponibles est généré automatiquement en se basant sur des règles de décision sur les entrées et les sorties des services. Dans la phase online, des sous-graphes sont extraits automatiquement à partir du graphe global selon les tâches à réaliser qui sont déclenchées par des événements qui surviennent dans l'environnement ambiant. Les sous-graphes ainsi obtenus sont exécutés suivant un modèle de sélection et de monitoring de services pour tenir compte du contexte d'utilisation et garantir une meilleure qualité de service. Les différents modèles proposés ont été mis en œuvre et validés sur la plateforme ubiquitaire d'expérimentation du laboratoire LISSI à partir de plusieurs scénarii d'assistance et de maintien de personnes à domicil

    Description de la phraséologie transdisciplinaire des écrits scientifiques et réflexions didactiques pour l'enseignement à des étudiants non-natifs : application aux marqueurs discursifs

    Get PDF
    This thesis proposes a new approach to scientific writings which takes discourse markers as starting point. It is part of the framework of French for Academic Purposes. In this work, we are particularly interested in multi-word discourse markers and we integrate them into a broader concept of phraseology. The particularity of this work lies in linking linguistic descriptions of discourse markers and didactic transposition of these tokens with a corpus, which is still little discussed in the didactic francophone field. We aim to meet two main objectives of linguistic and didactic nature. The linguistic objectives are to set up a model for analyzing multi-word discourse markers that combines both syntactic and semantic properties and is totally reconfigurable to other discourse markers. Linguistic analyses will then be used for the teaching/learning of these units. For didactic purposes, this research aims to develop a methodology for teaching/learning discourse markers from the observation of the corpus. Methodological considerations proposed in the framework of the thesis provide attractive ways for teaching/learning these language elements and for making access to the academic writings easier to non-native students.Cette thèse propose une nouvelle approche des écrits scientifiques en prenant comme point de départ les marqueurs discursifs (MD). Elle s'inscrit dans le cadre du Français sur Objectif Universitaire (FOU). Dans ce travail, nous nous intéressons tout particulièrement aux MD polylexicaux et les intégrons dans une conception large de la phraséologie. La particularité de cette recherche réside dans le fait de relier les descriptions linguistiques des MD et la transposition didactique de ces unités lexicales à l'aide de corpus, ce qui est encore peu abordé dans le champ de la didactique francophone. Nous cherchons à répondre à des objectifs à la fois linguistiques et didactiques. Pour les objectifs linguistiques, nous mettons en place un modèle d'analyse des MD polylexicaux associant les propriétés syntaxiques et sémantiques et qui est tout à fait réadaptable à d'autres MD. Les analyses linguistiques des MD serviront par la suite à l'enseignement/apprentissage de ces unités. Pour les objectifs didactiques, cette recherche vise à concevoir une méthodologie d'enseignement/apprentissage des MD à partir de l'observation de corpus. Les considérations méthodologiques proposées dans le cadre de cette thèse ouvrent des pistes intéressantes pour l'enseignement/apprentissage de ces éléments linguistiques ainsi que pour faciliter l'accès aux écrits scientifiques auprès des étudiants non-natifs

    Lexique-grammaire et Unitex : quels apports pour une description terminologique bilingue de qualité ? : analyse sur deux corpus comparables de médecine thermale

    Get PDF
    Terminology is the science concerned with the study of the terms, those lexical units thatpossess a specialized meaning within a scientific or technical context. Established as ascience in the first half of 20th century, terminology is an interdisciplinary field takingadvantage of contributions from linguistics, logics, and informatics. This latter in particularhas allowed significant developments in terminology. Lexicon-grammar is an empirical method of linguistic description inspired by the works of Zellig S. Harris, which has been founded by the French linguist Maurice Gross at the end of the 1960s. Linguistic description has been carried out in parallel with the development of informatics tools able to formalise and exploit linguistic data, including the software Unitex (Paumier, 2002). Both lexicon-grammar and Unitex have an interesting, largely unexploited potential for further developments in terminology. In this work, we assess the contributions brought by lexicon-grammar and Unitex to a high-profile bilingual terminological description. After defining quality criteria for such terminological description, we carry out our evaluation on two comparable corpora specific of thermal medicine, both in French and in ItalianLa terminologie est une science qui étudie les termes, ces unités lexicales véhiculant un sens spécialisé dans un discours scientifique ou technique. Constituée en science dans la première moitié du XXe siècle, la terminologie est un terrain interdisciplinaire qui se nourrit des apports de la linguistique, de la logique et de l'informatique. C'est surtout grâce à cette dernière qu'elle a pu se développer considérablement. Le lexique-grammaire est une méthode de description linguistique strictement empirique d'inspiration harrissienne qui a vu le jour en France à la fin des années 1960. La description linguistique a été menée en parallèle avec la réalisation d'outils informatiques nécessaires à la formalisation et à l'exploitation de ces données, parmi lesquels il y a aussi le logiciel Unitex (Paumier, 2002). Tant le lexique-grammaire que le logiciel Unitex présentent un potentiel intéressant, largement inexploité, pour la terminologie. Dans ce travail, nous nous proposons d'évaluer les apports des méthodes liées au lexique-grammaire et au logiciel Unitex à une description terminologique bilingue de qualité. Après avoir défini des critères de qualité d'une description terminologique, nous menons cette évaluation sur deux corpus comparables ayant trait à la médecine thermale, en français et en italie

    Emergence des adjectifs dans le langage de l'enfant en français et en anglais : Etude de 3 cas.

    Get PDF
    Adjectives have not always had good press among writers, as they may reflect a distorted prose. Researchers in early lexical development currently regard adjectives as problematic: they may well emerge late in child language, and comprise a small portion of the lexicon. However, we argue that it is precisely this property, along with their subjective stance, which makes adjectives relevant for research. Given that their choice is non obligatory, both on the paradigmatic axis (for attributive adjectives) and on the syntagmatic one (determinative and classifying functions excluded), these markers may help reveal the speaker’s sensory, perceptual and mental worlds. Using a theoretical approach at the crossroads of the French enunciative and the Anglo-Saxon usage-based theories, the data of three children speaking French, English, and bilingual French English, were analysed. We first tracked how their inventories developed until their fourth birthday, the range during which considerable variations occur. These perspectives were then broadened to encompass other categories so as to further understand how the adjectival category develops within this larger system. The environmental properties that might have an impact on the children’s behaviour were examined in detail. The results show that children first use properties anchored in immediate perceptions, while their parents favour more abstract properties, often expressing affect. The English speaking dyad uses significantly more affective adjectives than the other dyads. Adjectives emerge a few months after the first conventional words, and remain a low frequency category (4% of the lexicon in average).Les adjectifs n’ont pas toujours eu bonne presse chez les grammairiens et les gens de lettre. Leur caractère facultatif a peut-être aussi rebuté les auteurs intéressés par les premiers développements des répertoires de l’enfant, conscients de leur probable rareté à ces stades précoces. C’est pourtant justement leur inscription sur ce versant optionnel et en outre souvent assez subjectif qui leur confère, à notre sens, tout leur intérêt. Leur choix n’étant contraint ni sur l’axe paradigmatique (lorsqu’ils sont épithètes) ni sur l’axe syntagmatique (fonctions déterminative et classifiante exclues), ces marqueurs seront des révélateurs privilégiés des mondes sensoriels, perceptuels et psychiques des locuteurs. Dans un cadre théorique souple et syncrétique, à la croisée des théories énonciatives françaises et des approches anglo-saxonnes dites basées sur l’usage, nous retracerons le développement des répertoires adjectivaux de trois enfants, francophone, anglophone et bilingue français anglais, jusqu’à leur quatrième anniversaire, période généralement admise comme la plus propice aux variations. Nous élargirons ensuite les perspectives aux autres classes de mots constitutives de ces premiers inventaires, afin de percevoir comment la catégorie des adjectifs se développe dans ce système global. Une attention particulière sera accordée aux propriétés de l’environnement susceptibles d’influencer les comportements des enfants.Les résultats montrent que les enfants se saisissent d’abord de propriétés concrètes et perceptuellement saillantes, souvent assez descriptives. Leurs parents utilisent dans le même temps des propriétés plutôt évaluatives, qui traduisent l’affect. La dyade anglophone utilise significativement plus de propriétés évaluatives que les autres dyades. Les adjectifs émergent quelques mois après les premiers mots conventionnels, et restent une catégorie somme toute assez peu fréquente (4 % du lexique total en moyenne)
    corecore