8,964 research outputs found

    Identification des unités de mesure dans les textes scientifiques

    Get PDF
    National audienceIdentification of units of measures in scientific texts. The work presented in this paper consists in identifying specialized terms (units of measures) in textual documents in order to enrich a onto-terminological resource (OTR). The first step permits to predict the localization of unit of measure variants in the documents. We have used a method based on supervised learning. This method permits to reduce significantly the variant search space staying in an optimal search context (reduction of 86% of the search space on the studied set of documents). The second step uses a new similarity measure identifying automatically variants associated with term denoting a unit of measure already present in the OTR with a precision rate of 82% for a threshold above 0.6 on the studied corpus.Le travail présenté dans cet article se situe dans le cadre de l'identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d'unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l'apprentissage supervisé. Cette méthode permet de réduire sensiblement l'espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l'espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l'espace de recherche réduit aux variants d'unités, utilise une nouvelle mesure de similarité permettant d'identifier automatiquement les variants découverts par rapport à un terme d'unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié

    Démarche, cheminement et stratégies : une approche en trois phases pour favoriser la compréhension des concepts scientifiques

    Get PDF
    Même si les difficultés des élèves en sciences sont diversifiées, la plupart semblent associées à des carences dans leur compréhension des concepts de base. Depuis une vingtaine d’années, différentes recherches ont tenté d’apporter des solutions à ce problème, favorisant la multiplication des directives à appliquer à l’enseignement des sciences. Pour intégrer leurs résultats, nous proposons, à la suite d’une recension des écrits de recherche, un schéma de la démarche de compréhension qui permet, non seulement de décrire l’ensemble des cheminements de l’apprenant, mais aussi de choisir les stratégies d’enseignement appropriées à favoriser cette dernière.Despite the fact that students’ difficulties in science vary, most of them seem related to misunderstandings of basic science concepts. Over the last twenty years, various investigations have attempted to find solutions to this problem, resulting in the multiplication of advice for science teaching. In order to integrate various research results and following a review of the literature, we propose a schema of the understanding process of scientific concepts. With the help of this schema, one may be able to, not only describe the many paths learners can take in their attempt to get a better understanding of science, but also choose teaching strategies that help them to do so.Si bien las dificultades de los alumnos en ciencias son diversas, la mayoría de ellas parecen estar asociadas con carencias en la comprensión que tienen los alumnos de los conceptos básicos. Desde hace 20 anos, varias investigaciones han intentado solucionar este problema, favoreciendo la multiplicación de directivas a aplicar a la enseñanza de las ciencias. Para integrar los resultados, proponemos, a raíz de una reseña de la literatura, un esquema del proceso de comprensión que permita, no solo describir la variedad de caminos que el alumno puede seguir, sino también seleccionar las estrategias de enseñanza que más fomentan la comprensión

    Approche cognitive de la traduction dans les langues de spécialité : vers une systématisation de la description de la conceptualisation métaphorique

    Get PDF
    Département de linguistique et de traductionLa conceptualisation métaphorique est un processus fondamental de la pensée largement mis en oeuvre dans la modélisation scientifique, y compris en biomédecine. Pour accéder à la compréhension des textes scientifiques, il est essentiel de pouvoir appréhender les métaphores conceptuelles parcourant le domaine de spécialité envisagé. Selon notre hypothèse de travail, non seulement la conceptualisation métaphorique fonde la spécificité d’un domaine, mais encore sous-tend-elle en grande partie la terminologie et la phraséologie des langues de spécialité. En maîtriser le repérage procure donc un outil cognitif puissant permettant de fonder un grand nombre de décisions traductionnelles. Le présent article fait état d’une méthodologie autorisant la description systématique de collocations motivées par une conceptualisation métaphorique sous-jacente. La question du repérage des unités lexicales témoignant d’une conceptualisation métaphorique (« indices de conceptualisation ») sera abordée, puis une caractérisation de collocations mises en jeu autour de ces unités lexicales particulières sera proposée. La description des collocations sera envisagée à l’aide des fonctions lexicales de la Théorie Sens-Texte, lesquelles pourront être utilisées afin de faciliter le passage d’une langue à l’autre.Metaphorical conceptualization is a fundamental process of thought in scientific modelling, including that of biomedicine. In order to understand the meaning of scientific texts, a reader must be able to grasp the conceptual metaphors of a domain. According to our working hypothesis, metaphorical conceptualization underlies not only the specificity of a domain, but also the terminology and phraseology of languages for specific purposes. To master the identification of these conceptual metaphors is to possess a powerful cognitive tool that guides the translator in making many translation decisions. This article presents a methodology that provides for the systematic description of collocations motivated by underlying metaphorical conceptualizations. The identification of lexical units that are indices of metaphorical conceptualization will first be described ; then a characterization of collocations in which these lexical units participate will be proposed. The description of these collocations will be carried out using lexical functions (Meaning-Text Theory), which facilitate the passage from one language to another

    Extraction d'arguments de relations n-aires dans les textes guidée par une RTO de domaine

    Get PDF
    Today, a huge amount of data is made available to the research community through several web-based libraries. Enhancing data collected from scientific documents is a major challenge in order to analyze and reuse efficiently domain knowledge. To be enhanced, data need to be extracted from documents and structured in a common representation using a controlled vocabulary as in ontologies. Our research deals with knowledge engineering issues of experimental data, extracted from scientific articles, in order to reuse them in decision support systems. Experimental data can be represented by n-ary relations which link a studied object (e.g. food packaging, transformation process) with its features (e.g. oxygen permeability in packaging, biomass grinding) and capitalized in an Ontological and Terminological Ressource (OTR). An OTR associates an ontology with a terminological and/or a linguistic part in order to establish a clear distinction between the term and the notion it denotes (the concept). Our work focuses on n-ary relation extraction from scientific documents in order to populate a domain OTR with new instances. Our contributions are based on Natural Language Processing (NLP) together with data mining approaches guided by the domain OTR. More precisely, firstly, we propose to focus on unit of measure extraction which are known to be difficult to identify because of their typographic variations. We propose to rely on automatic classification of texts, using supervised learning methods, to reduce the search space of variants of units, and then, we propose a new similarity measure that identifies them, taking into account their syntactic properties. Secondly, we propose to adapt and combine data mining methods (sequential patterns and rules mining) and syntactic analysis in order to overcome the challenging process of identifying and extracting n-ary relation instances drowned in unstructured texts.Aujourd'hui, la communauté scientifique a l'opportunité de partager des connaissances et d'accéder à de nouvelles informations à travers les documents publiés et stockés dans les bases en ligne du web. Dans ce contexte, la valorisation des données disponibles reste un défi majeur pour permettre aux experts de les réutiliser et les analyser afin de produire de la connaissance du domaine. Pour être valorisées, les données pertinentes doivent être extraites des documents puis structurées. Nos travaux s'inscrivent dans la problématique de la capitalisation des données expérimentales issues des articles scientifiques, sélectionnés dans des bases en ligne, afin de les réutiliser dans des outils d'aide à la décision. Les mesures expérimentales (par exemple, la perméabilité à l'oxygène d'un emballage ou le broyage d'une biomasse) réalisées sur différents objets d'études (par exemple, emballage ou procédé de bioraffinerie) sont représentées sous forme de relations n-aires dans une Ressource Termino-Ontologique (RTO). La RTO est modélisée pour représenter les relations n-aires en associant une partie terminologique et/ou linguistique aux ontologies afin d'établir une distinction claire entre la manifestation linguistique (le terme) et la notion qu'elle dénote (le concept). La thèse a pour objectif de proposer une contribution méthodologique d'extraction automatique ou semi-automatique d'arguments de relations n-aires provenant de documents textuels afin de peupler la RTO avec de nouvelles instances. Les méthodologies proposées exploitent et adaptent conjointement des approches de Traitement automatique de la Langue (TAL) et de fouille de données, le tout s'appuyant sur le support sémantique apporté par la RTO de domaine. De manière précise, nous cherchons, dans un premier temps, à extraire des termes, dénotant les concepts d'unités de mesure, réputés difficiles à identifier du fait de leur forte variation typographique dans les textes. Après la localisation de ces derniers par des méthodes de classification automatique, les variants d'unités sont identifiés en utilisant des mesures d'édition originales. La seconde contribution méthodologique de nos travaux repose sur l'adaptation et la combinaison de méthodes de fouille de données (extraction de motifs et règles séquentiels) et d'analyse syntaxique pour identifier les instances d'arguments de la relation n-aire recherchée

    Discours, corpus, traitements automatiques

    Get PDF
    This chapter concerns the application of the methodological principles and methods of corpus linguistics to the study of text/discourse organisation. On the basis of the literature and the author's own research, it examines the specific corpus requirements and analytical difficulties for the discourse level. Discourse studies tend to be too analyst-dependent and small-scale, which makes them difficult to reproduce, their results difficult to generalise. The chapter goes on to look at connections between discourse studies, corpus analysis and language technology via applications such as automatic text summarization and aids to textual navigation. The quantitative techniques used in such systems deserve to be further explored in linguistic studies of text/discourse organisation. Another important direction for discourse research is the development of sharable resources, in particular corpora annotated with discourse structures and relations.Ce chapitre traite de l'application des principes et des méthodes des linguistiques de corpus à l'étude de l'organisation du texte/discours. A partir de la littérature du domaine et des travaux de l'auteur, il pose la question des exigences spécifiques en termes de corpus, et des difficultés d'analyse propres au niveau discursif. Les études sur le discours se caractérisent actuellement par une approche qualitative, sur des données de faible volume, avec des méthodes manuelles et donc subjectives, ce qui fait obstacle à leur reproductibilité – et partant à leur validation –, et à la généralisation de leurs résultats. Les interactions entre discours, traitement automatique des langues et analyses de corpus sont examinées à travers des applications comme le résumé automatique et l'aide à la navigation. Les questions posées par ces applications recoupent en de nombreux points celles qui motivent les études linguistiques du discours. Les techniques numériques auxquelles elles font appel mériteraient d'être explorées pour leur apport potentiel à l'étude linguistique de l'organisation du discours. Un dernier aspect particulièrement positif des linguistiques de corpus est l'accent mis sur la constitution de ressources collectives, en particulier de corpus enrichis d'annotations discursives (structures, relations de discours)

    Extraction de relations n-aires interphrastiques guidée par une RTO

    Get PDF
    National audienceNous proposons dans cet article une méthode d'extraction d'instances de relations naires dans un texte guidée par une Ressource Termino-Ontologique (RTO) de domaine. Une RTO est une ressource comportant une composante conceptuelle (l'ontologie) et une composante terminologique (la terminologie), dans laquelle les termes sont distingués des concepts qu'ils dénotent. L'ontologie permet la modélisation de relations n-aires, reliant des arguments pouvant être des concepts symboliques et des quantités. La méthode proposée s'applique aux relations n-aires formulées de façon implicite dans le texte et dont les instances d'arguments peuvent être exprimées à travers différentes phrases du texte. ABSTRACT. We propose in this paper a method to extract instances of n-ary relations in a text guided by an Ontological and Terminological Resource (OTR). An OTR is a resource composed of a conceptual component (the ontology) and a terminological component (the terminology) in which the terms are distinguished from the concepts they denote. The ontology allows n-ary relationships to be described between arguments which can be symbolic concepts and quantities. The method is dedicated to the extraction of n-ary relations which are implicit in the text and whose instances of arguments may be expressed in different sentences of the text

    Repérage et annotation d'indices de nouveautés dans les écrits scientifiques

    No full text
    International audienceThis paper deals with thecategorisation of textual cues in scientific abstracts with the aim to highlight the information contained while for exploring huge volumes of texts. Typically, one context of application is the rapid identification by an expert of strategic information for science and technology watch. From a study of a sample of abstracts in english, novelty, objective, result and conclusion cues are formalized as finite state automata and projected on a test corpus. Resultats show that using these cues is relevant. Using the type of cues identified and the supposed information announced, an XML markup of scientific abstracts is proposed. The final aim is to guide the reader towards information categories classified as such which can assist science and technology watch process.Cet article explore la catégorisation des indices textuels présents dans les résumés scientifiques afin de mettre en valeur les informations véhiculées lors de l'exploration de grandes masses de textes. Typiquement, un des contextes d'application est le repérage rapide par un utilisateur expert des informations à caractère stratégique pour la veille scientifique et technologique. Après étude d'un échantillon de résumes scientifiques en anglais, les indices de nouveautés, d'objectif, de résultats et de conclusions sont formalisés et projetés sur un deuxième corpus de test. Les résultats montrent que ces indices sont globalement ''performants'. S'appuyant sur les indices repérés et du type d'information véhiculée, un balisage XML des résumés est proposé. L'objectif est de guider le lecteur vers les catégories d'information balisées en tant que telles, susceptibles de contribuer au processus de veille scientifique et technologique

    Les collocations dans le discours spécialisés : le cas de la terminologie ornithologique

    Get PDF
    The aim of this paper is to show the problems that pose the establisment of a new terminological apparatus within an area where the referent is, firstly, relatively universal because it is stable, and secondly it is a referent that is very much influenced by local cultures. After a lexicographic assessment, we will provide evidence related to the issue of the development of consistent terminology that reflects the linguistic and conceptual requirements. In order to achieve this, we will work with the semantic field of ornithology. Particular attention will be paid to polylexical names used in order to distinguish species. Our goal is to establish a typology of expansions joined to noun phrases both in French and Arabic and to compare them to identify regularities and the impact on the functioning of syntagmatic names in the speech
    • …
    corecore