10 research outputs found

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Lexiculture and Linguistics: a corpus-driven approach to brand names in everyday speech

    Get PDF
    Perfecto mais aussi Perfectos : quel est donc le comportement des noms de marque (NdM) dans le discours au quotidien ? De quelles facettes culturelles, collectivement partagées, les NdM deviennent-ils porteurs chez les locuteurs qui se les approprient comme partie intégrante de leur bagage lexico-culturel ? À la confluence de sa nature linguistique et juridique, comment le signe linguistique du NdM s’adapte-t-il aux besoins de nomination des locuteurs ? Les parlants considèrent-ils Perfecto comme un NdM ou un nom de produit ? Sur la base de ces réflexions, l’objectif principal de cette thèse est de fournir un instantané lexico-culturel des NdM les plus courants au sein du panorama commercial français, à l’aide de bases de données institutionnelles : INPI, EUR-Lex, CURIA et Araneum, un corpus de 1,2 milliard de token qui supporte notre recherche menée avec approche guidée sur corpus à partir d’une base empirique de NdM réunis fin 2015. À l’aune des variations orthographique, morphosyntaxique et sémantique du NdM, l’analyse des données met en valeur la forte tendance des locuteurs à se servir des NdM comme vecteurs de sens collectivement partagé et à laisser libre cours à leur créativité par le biais de cet outil linguistique.Perfecto but also perfectos: in other words, how do proprietary eponyms behave in our everyday language? Which shade of meaning of a collectively shared culture do they give voice to? How do these genericized trademarks carry the message among interlocutors who make them their own, as an integral part of their lexical-cultural baggage? At the crossroads where eponyms linguistic and juridical natures converge, how does the generic trademark linguistic sign adapt to the different speakers’ communicative needs? In fact, do they perceive Perfecto as a proprietary eponym or as a product tradename? The principal aim of this work is to provide an instantaneous lexical-cultural picture of the most widely used proprietary eponyms in the French commercial scene, using the available institutional databases, such as: the French Industrial Property database, European Law databases and Araneum, a corpus of 1,2 million tokens to support a research conducted with a corpus-driven approach on the basis of a list of empirical datasets of proprietary eponyms collected at the end of the year 2015. The data study and analysis highlight the marked trend amongst speakers to make use of proprietary eponyms as collectively shared vehicles of meaning and explore their creativity and thought-processes through eponyms

    L'ordre des éléments de la phrase en coréen : esquisse de syntaxe énonciative

    Get PDF
    The aim of this study is to show how, in deep structure operations, word order in Korean takes on an important metalinguistic dimension, affecting the way the speakers see the world. Guillaume's psycho-mechanical theory, insofar as it does not cut off the speech act from the speaker and the context of communication is particularly well-equipped to examine this question.The study starts with the identification of the immediate constituents of the simple sentence in Korean (semasiological approach). Next, with a view to highlighting the morpho-syntactical and semantic organization of the language, the variations in meaning obtained by the different internal ordering of each functional constituent unit is examined at word level, at phrase level and at sentence level. To what extent is the speaker free to choose the order in which he arranges the elements of the sentence he instantiates in the speech act? These are just some of the questions that this study tries to answer. This study comprises four parts. The first examines the structure of Korean sentence: from the sentence to the phrase. The second focuses on the disposition of sentence constituents. The third part investigates the order of the constituents within the noun phrase, comparing relative positions of the determinant in the phrase. This relates to the rules governing the combination of lexical words and grammatical words; this sheds light on the internal syntax of each functional constituent of the utterance. Finally, the last part is devoted to syntax of the adverb, based on its mobility and the way that position affects adverbial incidence.L’enjeu de la présente étude est de montrer que l'ordre des mots acquiert un rôle métalinguistique important dans le système des opérations internes de la langue : il connote la manière de penser le monde phénoménal. Pour cette étude sur le coréen, la théorie que nous avons choisie est la systématique énonciative. Cette théorie met en œuvre une analyse qui ne sépare pas le Discours des conditions linguistiques de sa production. Dépassant le cadre d’une systématique des langues, elle rappelle qu’un énoncé n'est jamais isolé du contexte linguistique et situationnel où se trouve le sujet parlant. Nous commencerons par l’observation de l'énoncé fondamental, afin de dégager ses unités constitutives fonctionnelles ; en d’autres termes, nous adopterons la démarche sémasiologique, mais à partir des conditions d'énonciation et de la situation de production de l'énoncé. Nous examinerons ensuite l'ordre interne des éléments de l'unité constitutive fonctionnelle, qui relève aussi bien du domaine morpho-syntaxique que sémantique. Nous verrons que l’ordre à l’intérieur du syntagme et le choix du mot formel en coréen constituent un mécanisme majeur de la syntaxe coréenne, mécanisme qui dépend de la visée d’effet du locuteur. Si chaque langue a sa manière d’organiser les éléments au sein d’une unité donnée, c’est que chaque langue analyse à sa façon la perception du monde expérientiel. Quel est alors l’ordre prescrit par le système linguistique du coréen, au niveau du mot, du syntagme et de la phrase ? Quelle est la liberté de manœuvre du locuteur au moment de la construction de la phrase dans l’acte de langage ? C’est à ces deux questions que ce travail a tenté d’apporter une réponse. La présente étude comporte quatre parties. La première partie propose d’examiner la structure de l’énoncé : de l’énoncé au syntagme. La deuxième partie explique la disposition des constituants dans l’énoncé. La troisième partie étudie l’ordre des éléments au sein du syntagme nominal, en fonction de la place du déterminant. Cela concerne la logique combinatoire du mot matériel et du mot formel qui relève essentiellement de la syntaxe interne d’une unité constitutive fonctionnelle de l'énoncé. Enfin, la quatrième partie se consacre à une syntaxe de l’adverbe, basée sur sa mobilité au sein de l’énoncé, mobilité qui affecte l’incidence adverbiale

    Description de la phraséologie transdisciplinaire des écrits scientifiques et réflexions didactiques pour l'enseignement à des étudiants non-natifs : application aux marqueurs discursifs

    Get PDF
    This thesis proposes a new approach to scientific writings which takes discourse markers as starting point. It is part of the framework of French for Academic Purposes. In this work, we are particularly interested in multi-word discourse markers and we integrate them into a broader concept of phraseology. The particularity of this work lies in linking linguistic descriptions of discourse markers and didactic transposition of these tokens with a corpus, which is still little discussed in the didactic francophone field. We aim to meet two main objectives of linguistic and didactic nature. The linguistic objectives are to set up a model for analyzing multi-word discourse markers that combines both syntactic and semantic properties and is totally reconfigurable to other discourse markers. Linguistic analyses will then be used for the teaching/learning of these units. For didactic purposes, this research aims to develop a methodology for teaching/learning discourse markers from the observation of the corpus. Methodological considerations proposed in the framework of the thesis provide attractive ways for teaching/learning these language elements and for making access to the academic writings easier to non-native students.Cette thèse propose une nouvelle approche des écrits scientifiques en prenant comme point de départ les marqueurs discursifs (MD). Elle s'inscrit dans le cadre du Français sur Objectif Universitaire (FOU). Dans ce travail, nous nous intéressons tout particulièrement aux MD polylexicaux et les intégrons dans une conception large de la phraséologie. La particularité de cette recherche réside dans le fait de relier les descriptions linguistiques des MD et la transposition didactique de ces unités lexicales à l'aide de corpus, ce qui est encore peu abordé dans le champ de la didactique francophone. Nous cherchons à répondre à des objectifs à la fois linguistiques et didactiques. Pour les objectifs linguistiques, nous mettons en place un modèle d'analyse des MD polylexicaux associant les propriétés syntaxiques et sémantiques et qui est tout à fait réadaptable à d'autres MD. Les analyses linguistiques des MD serviront par la suite à l'enseignement/apprentissage de ces unités. Pour les objectifs didactiques, cette recherche vise à concevoir une méthodologie d'enseignement/apprentissage des MD à partir de l'observation de corpus. Les considérations méthodologiques proposées dans le cadre de cette thèse ouvrent des pistes intéressantes pour l'enseignement/apprentissage de ces éléments linguistiques ainsi que pour faciliter l'accès aux écrits scientifiques auprès des étudiants non-natifs

    Langage des jeunes de la décharge d'ordures municipale d'Andralanitra (Antananarivo) : étude du lexique et de ses valeurs socio-culturelles

    Get PDF
    This research work deals with the survey of the language used by young diggers (aged from 1 7 to 20) of the public dump of Antananarivo. It aims at exarnining the motivations that induce the lexical and linguistic choices in their own description and viewpoints of the conditions in which they live. lts main interest is to determine the way this language of marginalized young people convey emotions and different kinds of sentiments concerning various issues, including education, tradition and beliefs, socio-affective links, etc. A gender­ based lexical survey is also carried out with a view to contributing to the description of the current sociolinguistic situation of Madagascar. On the other hand, a study of shared social and cultural values and representations conveyed by this langage is conducted to examine influencing factors of the young dump diggers'behaviours and personalities. For instance, sometimes the complex relationship between tutelary authority and tsiny (common waming and censorship) is viewed as a positive concept encouraging persona! development and sometimes it is thought to be the cause of , marginalized young people's behavioural inhibition or excessive caution, as regards· their wishes for self-emancipation or social and professional integration. The opposing symbolic and psycbological or socio-identitary values of the public dump and the friendly or bannonic social integration territory, that the community represents, are studied in order to bring out elues as food for thought in order to set up social and professional integration polkies in favour of marginalized young people.Cette étude porte sur le langage- en sa faculté d'expression et de communication de la pensée - des jeunes (de 17 à 20 ans) exploitants la décharge d'ordures municipale d'Andralanitra (Antananarivo). D'une part, elle s'intéresse aux motivations des choix lexicaux et linguistiques opérés par ces jeunes. Il s'agit également d'une contribution à la réalisation de l'état des lieux de la situation sociolinguistique qui prévaut à Madagascar. Notre intérêt est de déterminer la manière dont les jeunes en situation d'exclusion sociale et de pauvreté expriment leurs sentiments, leur manière de voir les choses, et surtout leurs points de vue sur leurs conditions de vie. Afin d'y parvenir, une analyse lexico-sémantique selon le genre du discours de ces jeunes est réalisée par le biais des champs conceptuels tels que le fonctionnement de la vie psychique et l'affectivité, l 'éducation, la tradition et les croyances, les liens socio-affectifs, les notions et valeurs liées à l 'environnement et l 'habitat, etc.Par ailleurs, nous nous sommes également intéressé au fonctionnement des valeurs et des représentations socioculturelles communes, qui influencent les comportements et la personnalité de ces jeunes de la décharge. Sont, entre autres, examinées la perception des jeunes de la complexité de la notion d'autorité tutélaire et du tsiny (le blâme ou la censure) dans la société malgache, et l'implication de cette dernière dans le développement personnel et l'accompagnement de ces jeunes vers l'insertion sociale et-professionnelle. Enfin, l 'opposition entre les valeurs symboliques et psycho-identiaires associées à la décharge d'ordures et celles liées au territoire-refuge, que représente la communauté, est étudiée afin d'alimenter la réflexion en vue de contribuer à la facilitation de l'élaboration des politiques d'insertion sociale et professionnelle des jeunes en situation de pauvreté extrême et d'exclusion sociale

    Attitudes et idéologies linguistiques de locutrices et locuteurs du français au Québec face à une réforme de l’accord du participe passé

    Get PDF
    Dans ce mémoire, il est question de l’attitude des francophones du Québec devant la possibilité de réformer l’accord du participe passé, objet grammatical qui n’en est pas à sa première controverse depuis la consignation initiale de ses règles au 17e siècle. Plusieurs chercheurs et chercheuses ont étudié le participe passé ou l’attitude de la population (surtout enseignante) par rapport à d’autres réformes et changements linguistiques. La présente étude est la première à analyser en profondeur les attitudes face à une réforme de l’accord du participe passé, grâce à une enquête par questionnaire riche de 868 participations. Il y est avant tout question de savoir dans quelle mesure le Québec – qui a fait figure de pionnier dans la francophonie quant à la féminisation des titres, des fonctions et des noms de métiers dans les années 1980 – serait prêt à réformer cet accord controversé. Quelles attitudes ont les francophones du Québec à l’idée d’une telle réforme, et que révèlent leurs commentaires au sujet des idéologies linguistiques peuplant leur imaginaire ? Il s’avère que l’échantillon est assez divisé, mais qu’un intérêt pour une réforme douce et consensuelle existe en son sein. Nous verrons en fait que certains profils sociodémographiques et sociolinguistiques se démarquent par leur propension à appuyer ou au contraire à repousser la réforme proposée, et que l’appréciation et la compétence grammaticales rapportées ne seraient pas étrangères aux attitudes des témoins à l’égard de questions linguistiques. En ce qui concerne l’imaginaire collectif au sujet de la langue, de l’orthographe et de ses réformes, il ressort que des idéologies linguistiques irréconciliables se côtoient dans ce débat sociolinguistique. D’un côté, l’enthousiasme à l’égard de la réforme proposée tend à s’accompagner d’un désir de voir la grammaire évoluer et se systématiser, et, de l’autre, la réticence à son égard s’accompagne souvent de craintes peuplant l’imaginaire linguistique – notamment la peur de faire cavalier seul dans la francophonie. Entre les deux, bon nombre de gens ne savent trop qu’en penser. Il existe donc une certaine ouverture au sein de la population étudiée, quoique généralement conditionnelle à certains paramètres linguistiques, sociolinguistiques et politicolinguistiques
    corecore