143 research outputs found
Lettres, mots, textes - Clefs d'accès à l'écrit numérique
National audienceLes moteurs de recherche en texte intégral font partie des outils centraux pour l'anayse littéraire sur corpus numérique. Une introduction simple aux techniques usuelles (indexation par fichier inverse, modèle de l'espace vectoriel) permet de comprendre sur quoi reposent les différents modes d'accès au texte et de prendre en compte les biais induits par le traitement automatique. Avec une approche linguistique, on examine en particulier dans le détail le fonctionnement et la signification de l'ensemble des opérateurs booléens courants issus des langages documentaires (troncature, ET, OU, etc.), pour en maîtriser et adapter l'utilisation pour l'interrogation du texte intégral. On explique pourquoi certaines propositions novatrices (interrogation en langage naturel, pondération manuelle des mots-clés, tri par pertinence décroissante, représentations cartographiques...) peuvent s'avérer contre-productives, et supposent a minima un utilisateur averti. Le texte intégral se prête en définitive à trois approches dont il faut cultiver la complémentarité : il peut être vu comme une suite de lettres (perspective graphique), donnant notamment accès à certaines propriétés morphologiques quelquefois intéressantes en contexte multilingue ; le texte peut être naturellement analysé comme formé d'unités lexicales articulées syntaxiquement ; mais cette seconde persective ne doit pas occulter un point de vue textuel, qui restitue aux unités linguistiques les contextes conditionnant leur composition et leur interprétation
Modélisation textométrique des textes
International audienceThis contribution analyses the data model for textometry (for calculations like the ones in textual statistics (Lebart & Salem, 1994)). It also presents a review of the textual representations proposed by textometric software. Taking into account a linguistic point of view (especially Rastier's textual semantics), it then points out the limits of these representations, and explores new propositions for textual modelization in textometry.Les statistiques textuelles (ou textométrie) exploitent une représentation du texte sous forme d'une suite d'unités typées, éventuellement réparties entre des subdivisions du corpus. Pour rendre compte et tirer parti de la multiplicité des typages possibles, des logiciels ont mis au point des représentations tabulaires du texte, claires et très efficaces pour la recherche de motifs complexes. Mais les délimitations des unités et des partitions, et la catégorisation des unités, sont encore peu souples, car fortement prédéfinies. De nouvelles modélisations seraient à élaborer, qui élargiraient le rôle accordé aux propriétés, distingueraient des contextes locaux (passages) et globaux (entités), et s'associeraient avec des calculs textométriques adaptés à la caractérisation de corpus structurés, aux unités non uniformes. Nous proposons alors une schématisation des étapes d'un calcul textométrique, qui explicite les multiples sélections en jeu (niveaux de corpus, fond, forme, dimensions de lecture, d'analyse et d'affichage). Puis nous étudions la récente modélisation du texte comme trame et soulignons comment elle innove en relativisant le découpage en formes graphiques ; nous concluons en ébauchant une modélisation du texte comme trace, davantage en accord avec la sémantique différentielle et interprétative de Rastier
Sémantique interprétative et analyses automatiques de textes : que deviennent les sèmes ?
Numéro thématique dirigé par Benoît HABERT et intitulé :"Dépasser les sens iniques dans l'accès automatisé aux textes"National audienceSemes are usually understood as semantic primitives, in order to describe meanings. As for F. Rastier, semes are contextually defined, and are the result of an interpretative path. This modelisation accounts for successes and limits of some statistical and distributional approaches. Some of the mathematical properties implied are not linguistically appropriate, so that the processing has to be defined on new bases. Text semantics also sheds new light on NLP tools and processes : dictionaries, taggers, corpus. A new clustering method is proposed as a means to modelize isotopies, and thus texts topics. These computed semantic classes are inherently different from the ones manually defined by experts.Le sème est souvent compris comme une primitive utilisable pour décrire les sens des mots. Or, tel que le présente F. Rastier, il est défini par et dans un contexte, et apparaît comme le résultat de l'interprétation d'un texte. Cette conception du sème permet de comprendre les succès et les limites d'analyses statistiques ou distributionnelles de textes. Certaines propriétés mathématiques des modélisations se révèlent linguistiquement inadéquates ; choisir le cadre de la sémantique interprétative conduit alors à redéfinir les traitements par-delà le seul ajustement des paramètres. Cette perspective oriente également certains choix concernant les outils et les étapes du TAL : dictionnaires, analyseurs morpho-syntaxiques, corpus et étiquetage. Un nouveau mode de classification automatique est présenté, comme moyen de repérage et de représentation des isotopies et donc de la thématique d'un texte. Ces classes sémantiques calculées sont d'une autre nature que celles définies par des experts
Introduction
Convenons, à la suite de Rastier (2001) notamment, que les textes sont l’objet de la linguistique. Un texte est entendu ici comme « une suite linguistique empirique attestée, produite dans une pratique sociale déterminée, et fixée sur un support quelconque » (Rastier, 2001 : 21), ce qui intègre pleinement diverses formes d’expression (orales comme écrites). Le corpus de textes est alors le terrain privilégié de l’observation de la langue. Lors de la collecte des données, lors de leur enregist..
Le discours direct au Moyen Âge : vers une définition et une méthodologie d'analyse
De nombreuses recherches menées en parallèle dans un cadre linguistique ont montré que la dichotomie entre oral et écrit était trop simple : d'une part, il est certainement plus approprié d'établir un continuum entre ces deux pôles, d'autre part il convient d'établir des catégories plus fines et plus précises, en distinguant plusieurs types d'oral et d'écrit et en dissociant le canal par lequel se fait la communication et le mode de conception du message lui-même. La recherche dont les premiers résultats sont présentés dans cet article repose sur l'exploration outillée d'un corpus de textes médiévaux. Fondée sur une approche contrastive des données, elle s'articule autour de trois grandes questions : 1) Quel accès pouvons-nous avoir à l'oral et à quelle(s) forme(s) d'oral au Moyen Age ? 2) Quelle relation peut-on établir entre le discours direct et l'oral représenté dans les documents médiévaux ? 3) Le discours direct présente-t-il une grammaire spécifique ? Le présent article propose une méthodologie empirique qui permette d'aborder ces différents points. Premièrement, il s'agit de décrire la façon dont le corpus enrichi permettant d'étudier le discours direct de manière contrastive a été élaboré et de présenter la méthodologie d'analyse et les outils utilisés. Les premiers résultats tirés de l'exploitation du corpus sont exposés dans une seconde section
TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement
International audienceThe research project Federation and Research Developments in Textometry around the creation of an Open- Source Platform distributes its XML-TEI encoded corpus textometric analysis platform online. The design of this platform is based on a synthesis of features of existing textometric software. It relies on identifying the open-source software technology available and effectively processing digital resources encoded in XML and Unicode, and on a state of the art of open-source full-text search engines on structured and annotated corpora. The architecture is based on a Java toolkit component articulating a search engine (IMS CWB), a statistical computing environment (R) and a module for importing XML-TEI encoded corpora. The platform is distributed as an open-source toolkit for developers and in the form of two applications for end users of textometry: a local application to install on a workstation (Windows or Linux) and an online web application. Still early in its development, the platform implements at present only a few essential features, but its distribution in open-source already allows an open community development. This should facilitate its development and integration of new models and methods.Le projet de recherche Fédération des recherches et développements en textométrie autour de la création d'une plateforme logicielle ouverte diffuse sa plateforme d'analyse textométrique de corpus XML-TEI en ligne. La conception de cette plateforme repose sur une synthèse des fonctionnalités des logiciels de textométrie existants. Elle s'appuie sur le recensement des technologies logicielles open-source disponibles et efficaces pour manipuler des ressources numériques XML et Unicode, et sur un état de l'art des moteurs de recherche en texte intégral sur corpus structurés et étiquetés. L'architecture consiste en une boîte à outils Java articulant un composant moteur de recherche (IMS CWB), un environnement de calcul statistique (R) et un module d'importation de corpus XML-TEI. La plateforme est diffusée sous la forme d'une boite à outils en open-source pour les développeurs informatique mais également sous la forme de deux applications pour les utilisateurs finaux de la textométrie : une application à installer sur un poste local (Windows ou Linux) et une application web accessible en ligne. Encore au début de son développement, la plateforme n'implémente à l'heure actuelle que quelques fonctionnalités essentielles, mais sa diffusion en open-source autorise un développement communautaire ouvert. Cela doit faciliter son évolution et l'intégration de nouveaux modèles et méthodes
L'oral représenté dans un corpus de français médiéval (9e-15e) : approche contrastive et outillée de la variation diasystémique
Notre étude se base sur un corpus de textes français composés entre le 9ème et le 15ème siècle et appartenant à différents domaines et traditions ou genres discursifs (domaine historique, didactique, religieux, littéraire ; genre du roman, de la chanson de geste, de la chronique, du lapidaire, etc.). Grâce à un repérage automatique et au balisage du discours direct dans ce corpus de textes, une première étude a été récemment menée sur la " grammaire " du discours direct - et ce en quoi elle diffère de la grammaire du réci
Des genres à l’intertexte
Le problème de la typologie des textes est crucial pour toute linguistique de corpus, l’analyse de leurs conditions de production et d’interprétation engage à privilégier la réflexion sur les genres, sans en faire l’objet exclusif de la recherche. En effet, dans l’hypothèse que les genres sont les normes déterminantes de la sémiosis textuelle, la production et l’interprétation des textes en dépend étroitement. Que l’on tienne compte ou non des genres dans la constitution des corpus, l’étude des structures intertextuelles comme des parcours intertextuels demeure subordonnée aux objectifs pratiques qui président à la constitution des corpus.Identifying text types is a key issue for any corpus linguistics. Genre analysis is not the only way to deal with this issue, but it appears to be essential as far as context and interpretation are concerned. Actually, texts genre may govern the relationships between the way a text is formulated and the meaning it conveys. Anyway, the task and setting for which the corpus is used is still a main factor in the determination of the organization of the texts and of the navigation in the corpus
Concordanciers : Thème et variations
International audienceThe computation of a concordance is usually determined by three parameters : the word (or linguistic pattern) to be found, the size of the context given for each token, and the way the extracts should be sorted in order to facilitate the analysis. The power of this technic lies in the visual effects it creates by aligning and grouping the contexts through the centered-column presentation and the sorting of the lines. These principles can be generalized and extended : the pattern to be found can be decomposed into several zones, and each of them can be aligned as a column, or/and can be sorted.We illustrate these proposals by the implementation of a concordancer (KWAC-LLI) specialized for corpus linguistics in a distributional semantics approach. The corpus can be analysed according to four strategies, based on the syntagmatic or paradigmatic relation between predicates and arguments. The specialized concordancer tests two new features. The first one is a table which gives a global view of the concordance, with hypertext access to the detailed contexts. The second new feature is a linguistic sort, directly derived from the "classe d'objets" theory.Le calcul d'un concordancier se définit classiquement par trois paramètres : l'expression d'un pivot, la délimitation du contexte donné pour chaque occurrence relevée du pivot, et l'organisation des extraits par un tri facilitant le dépouillement. L'efficacité propre à cette technique tient essentiellement aux effets d'alignement et de regroupement issus de la présentation du pivot sur une colonne et des tris sur le pivot et son environnement. Nous proposons donc une généralisation de la technique des concordances avec l'articulation interne du pivot en plusieurs zones, focalisant et démultipliant les possibilités d'alignement et de tri.Nous prenons appui sur cette réflexion pour développer un concordancier (KWAC-LLI) adapté aux besoins linguistiques d'une sémantique distributionnelle, en l'occurrence la théorie des classes d'objets. Une combinatoire de quatre stratégies d'exploration de corpus peut être ainsi outillée, selon que l'on part de prédicats ou d'arguments pour rechercher d'autres prédicats ou d'autres arguments. Le concordancier s'enrichit dans ce contexte de deux innovations significatives : la présentation globale et synthétique des résultats sous forme de tableau hypertexte, et le tri des lignes du tableau traduisant directement un critère de pertinence linguistique donné par la théorie des classes d'objets
Analyse transdisciplinaire d’un corpus d’actualités filmées
Mise en œuvre d’un dispositif de recherche transdisciplinaire sur une collection d’archives cinématographiques : opportunités et défisLe projet ANTRACT réunit des laboratoires de recherche dans une double perspective historique et technologique, ce qui explique le caractère résolument transdisciplinaire du projet. Il s’intéresse à une collection de 1 262 films d’actualités (essentiellement des séquences en noir et blanc) diffusés dans les salles de cinéma françaises entre 1945 et 1969. Ces p..
- …