267 research outputs found

    Le motif : une unité phraséologique englobante ? Étendre le champ de la phraséologie de la langue au discours*

    Get PDF
    International audienceA new and recent approach grounds phraseology not only on idiomaticity, but also on criteria such as frequency, recurrence, and memorization. In this context, this paper aims to introduce the "motif" as a new phraseological concept. While this proposal has the disadvantage of adding yet another term to an already rich and complex terminology, we will try to show that it nevertheless has rewarding advantages:-it promises to allow a discussion of the various acknowledged types of phraseological units, as well as an evaluation of the possibility of defining an integrative concept which could be able to subsume some of them, without denying the relevance of long-established oppositions;-it can widen the field of phraseology to incorporate discourse analysis by highlighting important but usually underestimated features of phraseological entities, that is to say the structuring and characterizing functions of certain text patterns.First, we will define the notion of "motif" from a formal and from a functional point of view; we will then evaluate the differences and similarities between motifs and the main types of phraseological units that are usually acknowledged by linguists. Finally, we will illustrate, with some basic Latin examples, the structuring and characterising functions of some motifs and of their discursive variations.L’objectif de cet article est de proposer, dans le cadre d’une conception récente de la phraséologie fondée sur des critères de fréquence, de récurrence et de mémorisation, et non pas du seul figement, l’intégration d’un nouveau concept – celui de motif – à l’ensemble conceptuel et terminologique de la discipline. On montre que cette proposition, qui a certes l’inconvénient d’alourdir une terminologie déjà riche et complexe, a aussi deux avantages :-le premier est de permettre une réflexion sur les différents types d’unités phraséologiques reconnues et de suggérer la possibilité d’un concept intégratif qui, sans nier la pertinence des oppositions établies, pourrait être à même d’en subsumer certaines ;-le second est d’ouvrir le champ de la phraséologie à l’analyse de discours en mettant en exergue une des fonctionnalités importantes de la création phraséologique jusqu’ici relativement sous-estimée : en effet, dans la définition que nous en proposons, nous considérons que certains motifs peuvent jouer un rôle fondamental d’agencement discursif propre à structurer les textes et à caractériser certains usages. Ainsi, après une définition de la notion de motif sur le plan formel et sur le plan fonctionnel, on confronte le motif avec les principales unités phraséologiques traditionnellement reconnues pour en montrer les proximités et les différences. Puis, à partir d’exemples empruntés au latin, on illustre la fonction structurante et la fonction caractérisante des motifs et de leurs différentes instanciations en discours

    Trees and after: The concept of text topology: Some applications to verb-form distributions in language corpora

    Get PDF
    International audienceThe model described here relies on the key concepts of topology, i.e. neighbourhood and equivalence of shape. A linguistic object L is studied in text T by means of one or several local questions Q. The set of successive local answers is processed so as to provide a global function characterizing the textual space under scrutiny. We begin with short sequences of tenses to illustrate the way in which to explore originally Emile Benveniste's concepts of history and discourse . We then supply life-size examples of other objects selected for their heuristic value. We go on to demonstrate the model at work on the distribution of strings of finite (F) and non-finite (n) verbal forms in the LOB Corpus of English. A topological chart is produced as the synthetic image mirroring the locations of the relevant linguistic entities throughout the text. All the individual strings concatenating any number of F and n are classified in a table. Alternatively, individual full-text strings can be extracted. We then proceed to refine the notion of lexical distribution in "rafales" in a lemmatized corpus of Latin texts, the purpose being to test the stability of the distributions in individual texts of selected verbs and assess whether a verb's behaviour is related to its semantic status. The final section is devoted to other Latin texts. The use of segments of equal length makes it possible to draw up the narrative profile of each author as revealed by his handling of tenses in main clauses

    Le deep learning auxiliaire de l’ADT dans le choix de textes à étiqueter en vue d’un corpus de comparaison : à propos de l’étude stylistique des lettres de Pierre Damien

    Full text link
    peer reviewedTo carry out a complete and reliable morphosyntactic labeling of Latin texts is a particularly time-consuming task. It is therefore necessary to choose wisely the texts to be included in a labelled comparison corpus when one wishes to study the intertextual distances between a given author, in particular a medieval one, and his predecessors. A stylistic research on the letters of Peter Damian (11th century) was the occasion to question the methods to be implemented to operate this selection. The intertextual distances were first computed on the forms using additive tree analysis. The results were then compared to the predictions of the deep learning, attributing with variable recognition rates passages of Damian to various authors of the comparison corpus. Where ADT relies primarily on the lexicon, the Convolutional Neural Network takes into account morphosyntactic parameters, with strong areas of activation suggesting a recognition of linguistic patterns that Damian shares with some of his predecessors

    To what extent are lemmatisation and annotation relevant for deep learning assignments and textual motifs detection? The case-study of Peter Damian’s letters (11th century)

    Full text link
    peer reviewedThis paper wishes to explore to what extent lemmatisation and morphosyntactic annotation are important for deep learning predictions and textual motif detection. A broader research on the style of Peter Damian’s letters (11th century) was the occasion to explore this question. After having trained two deep learning models on a selection of 12 classical authors using the Hyperdeep platform, one on lexical forms alone and the other on lemmatised and annotated texts, we introduced to them the medieval letters of Peter Damian in order to not only examine which authors are deemed to be stylistically close to Peter according to both models, but also to compare whether the results are similar and whether the same linguistic structures receive a high activation rate. The results suggest that a dialogue between both methods could be an interesting path to explore in the search for textual motifs, as the first “lexical” model may indicate rough outlines of these motifs, whereas the second model can offer concrete examples and/or variants of the first motifs identified

    Hyperdeep : deep learning descriptif pour l'analyse de données textuelles

    Get PDF
    International audienceSince few years, some tools that are helping us to interpret results of deep learning have appeared (LIME, LSTMVIS, TDS). In this paper, we propose to go further by searching hidden information encoded in intermediate layers of deep learning thanks to a new tool. Hyperdeep allows, on the one hand, to predict the belonging of a text and to appreciate its borrowings from different styles or authors and, on the other hand, it allows to analyze, by deconvolution, the spatial and static patterns of the text in order to bring up the linguistic markers learned by the network. This new type of linguistic objects is gathered and highlighted in a graphical tool combining visualizations and hypertext. This tool is fully integrated in the Hyperbase Web platform, which offers the adequate environment and a natural starting point for any study mixing deep learning and text mining. Abstract 2 (in French) Depuis peu, les outils d'aide à l'interprétation des résultats du deep learning font leur apparition (LIME, LSTMVIS, TDS). Dans cette communication nous proposons d'aller plus loin en allant chercher l'information cachée au plus profond des couches intermédiaires du deep learning grâce à un nouvel outil. Hyperdeep permet d'une part de prédire l'appartenance d'un texte et d'en apprécier les emprunts à différents styles ou auteurs et d'autre part, par déconvolution, d'analyser les motifs spatiaux et statiques du texte afin d'en faire remonter les marqueurs linguistiques appris par le réseau. Cette information d'un genre nouveau est rassemblée et mise en valeur dans un nouvel outil mêlant visualisations graphiques et texte dynamique. Son utilisation est accompagnée d'une intégration complète dans la plateforme Hyperbase Web qui propose l'environnement adéquate et un point de départ naturel pour toute étude mêlant deep learning et statistiques du texte.Depuis peu, les outils d'aide à l'interprétation des résultats du deep learning font leur apparition (LIME, LSTMVIS, TDS). Dans cette communication nous proposons d'aller plus loin en allant chercher l'information cachée au plus profond des couches intermédiaires du deep learning grâce à un nouvel outil. Hyperdeep permet d'une part de prédire l’appartenance d’un texte et d’en apprécier les emprunts à différents styles ou auteurs et d’autre part, par déconvolution, d'analyser les saillances du texte afin d’en faire remonter les marqueurs linguistiques appris par le réseau. Cette information d’un genre nouveau est rassemblée et mise en valeur dans un nouvel outil mêlant visualisations graphiques et texte dynamique. Son utilisation est accompagnée d’une intégration complète dans la plateforme Hyperbase Web qui propose l’environnement adéquate et un point de départ naturel pour toute étude mêlant deep learning et statistiques du texte

    Représentations du texte pour la classification arborée et l’analyse automatique de corpus. Application à un corpus d’historiens latins

    Get PDF
    Nous exposons ici différentes méthodes de classification automatique des textes littéraires et nous en comparons les performances, notamment en ce qui concerne leur aptitude à traduire les structurations génériques du corpus. Nous montrons qu’une approche topologique des textes, qui prend en compte leur linéarité fondamentale, c’est-à-dire l’ordre macro- et micro-structurel de leurs différentes unités constitutives, permet d’obtenir de meilleurs résultats classificatoires que les méthodes traditionnelles qui tendent à négliger cette structure linéaire.In this paper, we present different methods of automatic classification applied to a corpus of literary texts and we compare their different results; in particular we evaluate how each of them is suitable for exhibiting the generic classification of the corpus. We demonstrate that a topological approach of the texts which takes into account their linearity, i.e. the order of their micro- and macro-structures, results in better clustering than traditional quantitative methods which leave generally out of count this linear structure
    • …
    corecore