29 research outputs found

    Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstractiondes contextes

    Get PDF
    In specialised domains, the applications such as information retrieval for machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suffer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of different sizes, different languages and different domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to defining semantic clusters of better quality, that are also more consistent and more homogeneous.Dans les domaines de spécialité, les applications telles que la recherche d'information ou la traduction automatique, s'appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l'analyse distributionnelle s'appuie sur la redondance d'informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en œuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte.En corpus de spécialité, ces informations contextuelles redondantes sont d'autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leur faible nombre d'occurrence. Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier la matrice des contextes en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L'analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l'analyse distributionnelle, l'abstraction des contextes distributionnels permet d'obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes

    SEMANTIQUE DISTRIBUTIONNELLE

    Get PDF
    This special issue contains state-of-the-art papers on distributional semantic

    Distributional Semantics Today

    Get PDF
    This introduction to the special issue of the TAL journal on distributional semantics provides an overview of the current topics of this field and gives a brief summary of the contribution

    Diachronie en langue de spécialité. Définition d'une méthode linguistique outillée pour repérer l'évolution des connaissances en corpus. Un exemple appliqué au domaine spatial.

    Get PDF
    Co-financée par le Centre National d'Études Spatiales et le Centre National de la Recherche Scientifiques (Bourse de Docteur Ingénieur CNRS/Entreprise)This doctoral dissertation explores the question of the diachronic dimension in terminology using a tool-based approach applied to a diachronic corpus. This study focuses on a request from the French National Space Agency (Cnes) where both knowledge and technology necessarily evolve over the course of “long-term” space projects (approx. 20 yrs.). This phenomenon can be tricky and a source of difficulties, such as poor communication with new coming engineers who arrive during the project or unconscious modifications of the meaning or forms of terms, etc. Learning how to identify this evolution is therefore of prime importance. Our research aims at defining a linguistic method to track down knowledge evolution within texts. This aim allows us to structure a triple point of view: a theoretical one, a methodological one and an applied one. To do so, this doctoral dissertation presents a description of four linguistic cues which can be semi-automatically identified in corpora to observe evolution: frequency, contexts of evolution, variants and syntactic dependencies. The cues are studied in two diachronic corpora from the Cnes: one corpus made up of three editions of a course on optics and optoelectronics (1994-2002) and one technical corpus composed of specification reports from the DORIS project (1989-2000). This context makes it possible to offer theoretical and methodological paths in textual terminology to track down, study and characterize the evolution that is likely to appear in specialized fields, especially within an environment that has been very little explored, i.e. short-term diachrony. The approach developed in this study also sheds light on the interpretation of corpus data, firstly, by combining linguistic cues in order to build up a reliable interpretation (or even a diagnosis) of the evolution through linguistic cues; secondly, by reflecting on the place and role of the experts in analyses and by analyst-expert dialoguing as a driving force in the co-construction of interpretations.Dans cette thèse nous abordons la question de la diachronie dans les langues de spécialité à travers la définition d'une méthode linguistique pour repérer l'évolution des connaissances en corpus. Cette recherche s'ancre dans une demande appliquée émanant du Centre National d'Études Spatiales (Cnes), où la question de l'évolution prend une dimension particulière dans le cadre de projets spatiaux dits « de longue durée » (~20 ans), au long desquels les connaissances impliquées évoluent nécessairement. Ce phénomène, inévitable mais parfois insidieux, est susceptible d'entraîner un certain nombre de difficultés telles qu'une mauvaise communication avec les ingénieurs qui arrivent en cours de projet, une modification non consciente du sens/de la forme des termes, etc. L'objectif est donc de proposer une méthode pour repérer cette évolution, objectif qui permet d'articuler un triple regard sur la diachronie : un regard théorique, un regard descriptif et un regard appliqué. Pour ce faire, cette thèse propose la description de quatre indices linguistiques repérables semi-automatiquement en corpus pour observer l'évolution : la fréquence, les contextes d'évolution, les variantes et les dépendances syntaxiques. Ces indices sont explorés à partir de deux corpus diachroniques : trois éditions d'un cours d'optique et optoélectronique (1994-2002) et un corpus de rapports de spécification du projet spatial DORIS (1989-2000). Ce contexte permet de proposer des pistes théoriques et méthodologiques en terminologie textuelle pour repérer, étudier et caractériser l'évolution susceptible de se manifester dans les domaines de spécialité, en particulier sur de très courts intervalles temporels. La démarche mise en place dans cette recherche permet également d'alimenter la question de l'interprétation des données en corpus : tout d'abord à travers la combinaison d'indices comme moyen de construire une interprétation (voire un diagnostic) fiable de l'évolution à partir d'indices linguistiques ; ensuite à travers la question du rôle et de la place des experts dans l'analyse et du dialogue analyste/expert du domaine comme moteurs d'une co-construction de l'interprétation

    Aide à l'identification de relations lexicales au moyen de la sémantique distributionnelle et son application à un corpus bilingue du domaine de l'environnement

    Get PDF
    L’analyse des relations lexicales est une des étapes principales du travail terminologique. Cette tâche, qui consiste à établir des liens entre des termes dont les sens sont reliés, peut être facilitée par des méthodes computationnelles, notamment les techniques de la sémantique distributionnelle. En estimant la similarité sémantique des mots à partir d’un corpus, ces techniques peuvent faciliter l’analyse des relations lexicales. La qualité des résultats offerts par les méthodes distributionnelles dépend, entre autres, des nombreuses décisions qui doivent être prises lors de leur mise en œuvre, notamment le choix et le paramétrage du modèle. Ces décisions dépendent, à leur tour, de divers facteurs liés à l’objectif visé, tels que la nature des relations lexicales que l’on souhaite détecter; celles-ci peuvent comprendre des relations paradigmatiques classiques telles que la (quasi-)synonymie (p. ex. conserver -> préserver), mais aussi d’autres relations telles que la dérivation syntaxique (p. ex. conserver -> conservation). Cette thèse vise à développer un cadre méthodologique basé sur la sémantique distributionnelle pour l’analyse des relations lexicales à partir de corpus spécialisés. À cette fin, nous vérifions comment le choix, le paramétrage et l’interrogation d’un modèle distributionnel doivent tenir compte de divers facteurs liés au projet terminologique envisagé : le cadre descriptif adopté, les relations ciblées, la partie du discours des termes à décrire et la langue traitée (en l’occurrence, le français ou l’anglais). Nous montrons que deux des relations les mieux détectées par l’approche distributionnelle sont la (quasi-)synonymie et la dérivation syntaxique, mais que les modèles qui captent le mieux ces deux types de relations sont très différents. Ainsi, les relations ciblées ont une influence importante sur la façon dont on doit paramétrer le modèle pour obtenir les meilleurs résultats possibles. Un autre facteur à considérer est la partie du discours des termes à décrire. Nos résultats indiquent notamment que les relations entre verbes sont moins bien modélisées par cette approche que celles entre adjectifs ou entre noms. Le cadre descriptif adopté pour un projet terminologique est également un facteur important à considérer lors de l’application de l’approche distributionnelle. Dans ce travail, nous comparons deux cadres descriptifs, l’un étant basé sur la sémantique lexicale et l’autre, sur la sémantique des cadres. Nos résultats indiquent que les méthodes distributionnelles détectent les termes qui évoquent le même cadre sémantique moins bien que certaines relations lexicales telles que la synonymie. Nous montrons que cet écart est attribuable au fait que les termes qui évoquent des cadres sémantiques comprennent une proportion importante de verbes et aux différences importantes entre les modèles qui produisent les meilleurs résultats pour la dérivation syntaxique et les relations paradigmatiques classiques telles que la synonymie. En somme, nous évaluons deux modèles distributionnels différents, analysons systématiquement l’influence de leurs paramètres et vérifions comment cette influence varie en fonction de divers aspects du projet terminologique. Nous montrons de nombreux exemples de voisinages distributionnels, que nous explorons au moyen de graphes, et discutons les sources d’erreurs. Ce travail fournit ainsi des balises importantes pour l’application de méthodes distributionnelles dans le cadre du travail terminologique.Identifying semantic relations is one of the main tasks involved in terminology work. This task, which aims to establish links between terms whose meanings are related, can be assisted by computational methods, including those based on distributional semantics. These methods estimate the semantic similarity of words based on corpus data, which can help terminologists identify semantic relations. The quality of the results produced by distributional methods depends on several decisions that must be made when applying them, such as choosing a model and selecting its parameters. In turn, these decisions depend on various factors related to the target application, such as the types of semantic relations one wishes to identify. These can include typical paradigmatic relations such as (near-)synonymy (e.g. preserve -> protect), but also other relations such as syntactic derivation (e.g. preserve -> preservation). This dissertation aims to further the development of a methodological framework based on distributional semantics for the identification of semantic relations using specialized corpora. To this end, we investigate how various aspects of terminology work must be accounted for when selecting a distributional semantic model and its parameters, as well as those of the method used to query the model. These aspects include the descriptive framework, the target relations, the part of speech of the terms being described, and the language (in this case, French or English). Our results show that two of the relations that distributional semantic models capture most accurately are (near-)synonymy and syntactic derivation. However, the models that produce the best results for these two relations are very different. Thus, the target relations are an important factor to consider when choosing a model and tuning it to obtain the most accurate results. Another factor that should be considered is the part of speech of the terms that are being worked on. Among other things, our results suggest that relations between verbs are not captured as accurately as those between nouns or adjectives by distributional semantic models. The descriptive framework used for a given project is also an important factor to consider. In this work, we compare two descriptive frameworks, one based on lexical semantics and another based on frame semantics. Our results show that terms that evoke the same semantic frame are not captured as accurately as certain semantic relations, such as synonymy. We show that this is due to (at least) two reasons: a high percentage of frame-evoking terms are verbs, and the models that capture syntactic derivation most accurately are very different than those that work best for typical paradigmatic relations such as synonymy. In summary, we evaluate two different distributional semantic models, we analyze the influence of their parameters, and we investigate how this influence varies with respect to various aspects of terminology work. We show many examples of distributional neighbourhoods, which we explore using graphs, and discuss sources of noise. This dissertation thus provides important guidelines for the use of distributional semantic models for terminology work

    Sémantique interprétative et analyses automatiques de textes : que deviennent les sèmes ?

    Get PDF
    Numéro thématique dirigé par Benoît HABERT et intitulé :"Dépasser les sens iniques dans l'accès automatisé aux textes"National audienceSemes are usually understood as semantic primitives, in order to describe meanings. As for F. Rastier, semes are contextually defined, and are the result of an interpretative path. This modelisation accounts for successes and limits of some statistical and distributional approaches. Some of the mathematical properties implied are not linguistically appropriate, so that the processing has to be defined on new bases. Text semantics also sheds new light on NLP tools and processes : dictionaries, taggers, corpus. A new clustering method is proposed as a means to modelize isotopies, and thus texts topics. These computed semantic classes are inherently different from the ones manually defined by experts.Le sème est souvent compris comme une primitive utilisable pour décrire les sens des mots. Or, tel que le présente F. Rastier, il est défini par et dans un contexte, et apparaît comme le résultat de l'interprétation d'un texte. Cette conception du sème permet de comprendre les succès et les limites d'analyses statistiques ou distributionnelles de textes. Certaines propriétés mathématiques des modélisations se révèlent linguistiquement inadéquates ; choisir le cadre de la sémantique interprétative conduit alors à redéfinir les traitements par-delà le seul ajustement des paramètres. Cette perspective oriente également certains choix concernant les outils et les étapes du TAL : dictionnaires, analyseurs morpho-syntaxiques, corpus et étiquetage. Un nouveau mode de classification automatique est présenté, comme moyen de repérage et de représentation des isotopies et donc de la thématique d'un texte. Ces classes sémantiques calculées sont d'une autre nature que celles définies par des experts

    Élaboration d’un modèle d’article de dictionnaire de collocations du lexique scientifique transdisciplinaire pour l’aide à la rédaction de textes scientifiques

    Full text link
    Cette recherche constitue une première étape dans l’élaboration d’un dictionnaire de collocations du lexique scientifique transdisciplinaire (LST), conçu pour aider des étudiants ou des chercheurs dans la rédaction de discours scientifiques ou universitaires, quel que soit leur domaine d’études. Elle a permis de concevoir deux modèles originaux d’articles de dictionnaire donnant accès aux collocations de termes nominaux et verbaux caractéristiques du LST. Les modèles d’articles sont ensuite appliqués à la description d’un échantillon de termes nominaux : analyse, caractéristique, figure, hypothèse, rapport et résultat; et verbaux : décrire et étudier. Les articles conçus dans ce mémoire offrent un accès convivial aux collocations du LST en situation de rédaction. Ils ont l’avantage de proposer une organisation cohérente de ce lexique sur les plans syntaxique et sémantique. En outre, ils permettent de présenter les termes du LST dans des contextes variés, ce qui peut contribuer au développement de la compétence lexicale.This research is the first step in the development of a collocations dictionary of “lexique scientifique transdisciplinaire” (LST), which is similar to the academic vocabulary, a collocations dictionary conceived to help students or researchers in scientific or academic writing, regardless of their field. In this research, we first developed two original models of dictionary articles which provide access to collocations of nouns and verbs characteristic of LST. Secondly, the models are used to describe a sample of nominal terms: analyse, caractéristique, figure, hypothèse, rapport, and résultat; and verbal terms: décrire, and étudier. The models developed in this thesis offer a convenient access to LST collocations in writing context. The advantage of these models is to propose a coherent organization of the lexicon in syntactic and semantic terms. In addition, they are made to present the LST terms in different contexts, which may contribute to the development of lexical competence

    Un système multi-agent adaptatif pour la construction d'ontologies à partir de textes

    Get PDF
    Semantic Web refers to a set of technologies trying to make the World Wide Web resources content available and usable by programs and software agents. Then, it should ease users access to information. Its raising requires the availability of ontologies which are formalized knowledge models usable by a software systems for their communication. Unfortunately their construction is generally slow and costly, and their maintenance raises issues generally underestimated. The usage of texts for designing ontologies is considered as a possible solution to their cost, despite the fact that this task is still difficult.Since ontologies must be maintained, and because they can be seen as complex systems of concepts, we propose to use adaptive multi-agent systems to semi-automate the process of building ontologies from texts. The stable state of those systems comes from the cooperative interactions between the constituting software agents. In our case, the agents use distributed algorithms of statistical analysis to find the most satisfying structure from a syntactical and distributional analysis of texts. Then, the user can validate, criticize or modify parts of the agent structure, which is the base of the ontology in progress, to make it fulfil his objectives and his own vision of the modeled domain. In return, the agents reorganize themselves to satisfy the newly introduced constraints. Ontologies which are generally fixed become here dynamic, they become a "living design". Those are the underlying principles used in our system named Dynamo.The relevance of this approach has been tested thanks to experiments aiming at evaluating the performances of our system, and by its use in real operations. In this thesis, we present and analyse the obtained results.Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels. Ainsi, il doit faciliter l'accès à l'information pour les utilisateurs. Or, un des enjeux du succès du Web sémantique est la disponibilité d'ontologies qui sont des représentations de connaissances formalisées et exploitables par des systèmes informatiques pour leur communication. Malheureusement leur construction est généralement longue et coûteuse, et leur maintenance soulève des problèmes jusqu'ici sous-estimés. S'appuyer sur des textes pour la conception d'ontologies est vu comme une issue possible à leur coût, malgré les difficultés inhérentes à l'exploration d'analyses textuelles.Parce que l'ontologie doit être maintenue, et parce qu'elle peut-être vue comme un système complexe constitué de concepts, nous proposons d'utiliser les systèmes multi-agents adaptatifs pour semi-automatiser le processus de construction des ontologies à partir de texte. L'état stable de ces systèmes résulte des interactions coopératives entre les agents logiciels qui les constituent. Dans notre cas, les agents utilisent des algorithmes distribués d'analyse statistique pour trouver la structure la plus satisfaisante d'après une analyse syntaxique et distributionnelle des textes. L'utilisateur peut alors valider, critiquer ou modifier des parties de cette structure d'agents, qui est la base de l'ontologie en devenir, pour la rendre conforme à ses objectifs et à sa vision du domaine modélisé. En retour, les agents se réorganisent pour satisfaire les nouvelles contraintes introduites. Les ontologies habituellement fixées deviennent ici dynamiques, leur conception devient « vivante ». Ce sont les principes sous-jacents de notre système nommé Dynamo.La pertinence de cette approche a été mise à l'épreuve par des expérimentations visant à évaluer la complexité algorithmique de notre système, et par son utilisation en conditions réelles. Dans ce mémoire, nous présentons et analysons les résultats obtenus

    Ecrit de recherche universitaire : éléments pour une sensibilisation au positionnement scientifique à travers la phraséologie transdisciplinaire

    Get PDF
    This research formulates some thoughts that are essential to initiate students, non native speakers, to academic writing and help in mastering it. Several questions have guided this study : What role might have the descriptive studies of scientific writing in a successful familiarization with academic writing? What is the point of an introduction to rhetorical functions based on transdisciplinary phraseology and on a so-called genre approach? Is it possible to submit support elements that would be beneficial to all students regardless of their disciplines? An exploratory study of a particular rhetorical function that is "positioning" has allowed us to understand the extent to which linguistic elements, namely transdisciplinary collocations could help students to less apprehend the requirement of an essentially polyphonic and argumentative writing or to further show their positioning in their academic writings.Ce travail de recherche se donne pour objectif de formuler des éléments de réflexion indispensables à une initiation à l'écrit de recherche universitaire, pour venir en aide aux étudiants locuteurs non natifs. Plusieurs questions ont sous-tendu cette étude : quel rôle pourraient avoir les études descriptives des écrits scientifiques dans une familiarisation réussie à l'écrit de recherche ? Quel est l'intérêt d'une initiation aux fonctions rhétoriques basée sur la phraséologie transdisciplinaire et fondée sur une approche dite par genre ? Est-il possible de soumettre des éléments d'aide dont pourraient profiter tous les étudiants quelles que soient leurs disciplines ?Une étude exploratoire autour d'une fonction rhétorique particulière qu'est "le positionnement" a permis de comprendre dans quelle mesure des éléments d'ordre linguistique, en l'occurrence les collocations transdisciplinaires, pourraient aider les étudiants à moins appréhender cette exigence d'un écrit essentiellement polyphonique et argumentatif ou encore à se positionner davantage

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats
    corecore