879 research outputs found

    Discours, corpus, traitements automatiques

    Get PDF
    This chapter concerns the application of the methodological principles and methods of corpus linguistics to the study of text/discourse organisation. On the basis of the literature and the author's own research, it examines the specific corpus requirements and analytical difficulties for the discourse level. Discourse studies tend to be too analyst-dependent and small-scale, which makes them difficult to reproduce, their results difficult to generalise. The chapter goes on to look at connections between discourse studies, corpus analysis and language technology via applications such as automatic text summarization and aids to textual navigation. The quantitative techniques used in such systems deserve to be further explored in linguistic studies of text/discourse organisation. Another important direction for discourse research is the development of sharable resources, in particular corpora annotated with discourse structures and relations.Ce chapitre traite de l'application des principes et des méthodes des linguistiques de corpus à l'étude de l'organisation du texte/discours. A partir de la littérature du domaine et des travaux de l'auteur, il pose la question des exigences spécifiques en termes de corpus, et des difficultés d'analyse propres au niveau discursif. Les études sur le discours se caractérisent actuellement par une approche qualitative, sur des données de faible volume, avec des méthodes manuelles et donc subjectives, ce qui fait obstacle à leur reproductibilité – et partant à leur validation –, et à la généralisation de leurs résultats. Les interactions entre discours, traitement automatique des langues et analyses de corpus sont examinées à travers des applications comme le résumé automatique et l'aide à la navigation. Les questions posées par ces applications recoupent en de nombreux points celles qui motivent les études linguistiques du discours. Les techniques numériques auxquelles elles font appel mériteraient d'être explorées pour leur apport potentiel à l'étude linguistique de l'organisation du discours. Un dernier aspect particulièrement positif des linguistiques de corpus est l'accent mis sur la constitution de ressources collectives, en particulier de corpus enrichis d'annotations discursives (structures, relations de discours)

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Le projet du recueil de nouvelles pour le développement d'une posture critique efficiente et opératoire

    Get PDF
    Cette étude théorique a été menée dans le but de présenter un dispositif didactique en lecture littéraire pour favoriser le développement d'une posture critique chez des élèves du 2 e cycle du secondaire et du collégial. Après avoir soutenu une conception personnelle des finalités de l'enseignement de la lecture littéraire, on a conceptualisé et opérationnalisé la notion posture critique telle qu'entendue par Marlène Lebrun (2005). À partir de la définition qui a été formulée et des compétences sous-tendues par ce concept, on a construit un dispositif didactique qui met à profit les caractéristiques formelles d'un recueil de nouvelles contemporain. Cette didactisation a pour objectif de rendre efficient le concept opératoire posture critique chez des élèves. Enfin, ce dispositif, qu'on appelle le projet du recueil de nouvelles, vise la formation d'un lecteur engagé

    Structuration de données par apprentissage non-supervisé : applications aux données textuelles

    Get PDF
    En fouille de données, le succès d'une méthode tient au fait qu'elle permet de répondre par un algorithme intuitif à un besoin pratique bien théorisé. C'est avec cet éclairage que nous présentons un ensemble de contributions, élaborées durant ces dix dernières années, et répondant au besoin pratique de structurer automatiquement un ensemble de données. Dans un premier temps nous proposons de nouveaux modèles théoriques de structuration complexe en classes d’individus ; il s’agit alors d'extraire automatiquement d'un ensemble de données, des structures de classification plus proches de leur organisation réelle telle qu’observée (classification recouvrante, formes symétriques), de rendre ces structures à la fois robustes (tolérance au bruit) et manipulables par l’homme (visualisation, paramétrage) et enfin d’être en mesure de les expliquer (sémantique des classes). Dans un second temps nous nous intéressons aux données textuelles via la mise en oeuvre de modèles rendant compte de la structure thématique d’une collection de textes courts dans un contexte de recherche d’information ; enfin, nous présentons un méta-modèle permettant d’apprendre automatiquement un modèle de structuration sémantique d’un ensemble de termes

    Enseñanza y aprendizaje de la lengua y la cultura vitivinícolas: aunar la didáctica de las lenguas extranjeras y la formación de traductores para crear un perfil profesional orientado al sector vitivinícola

    Get PDF
    Grape growing and wine making have left a mark on language and culture both in France and in Spain. The sector is now facing the challenges of a multilingual and multicultural world in which export, import and wine tourism activities are common at national and international level. Therefore, it is not surprising the fact that new linguistic needs are emerging and they must be met. The aims of this study are to define the profile of a professional who can provide plurilingual and pluricultural skills to wine companies and to conceptualise training that will enable them to become a plurilingual communicator specialising in the wine sector. We have concluded that this profile is the combination of a command of wine-related language -which includes a command of foreign languages and direct and reverse translation skills-, some good knowledge of winemaking and its cultural heritage, as well as interdisciplinary skills related to the technological challenges of modern society. To this end, this dissertation begins with a historical review of the representations of the language and wine culture in the textbooks used in Spain for learning FLE from the last century to the present day. This revealed representations of the consumption of wine at the table, grape harvesting or even a warning against excessive alcohol consumption. In fact, we note that pedagogical translation was a key element in the traditional methodology and that it has recently reappeared in mediation activities. Given that the multilingual communicator will carry out translation tasks, our research has focused on the convergences between language teaching and translation training in terms of cultural references and communicative aspects. Putting communication and specialised languages into perspective, we have also researched text genres related to wine, as well as their relevance and use in the methodology for the training of multilingual communicators. The result is the conceptualisation of the tasks of these professionals driven by the needs of a sector that is exponentially growing. Finally, this work defines the modular structure of the training leading to the acquisition of the competences of a multilingual communicator specialising in the wine sector, as well as the methodology and learning objectives.La vitivinicultura ha marcado la lengua y la Cultura tanto francesa como española y afronta actualmente los retos de un mundo plurilingüe y pluricultural en el que son habituales actividades de exportación, importación y enoturismo a nivel nacional e internacional. Por ello, no es de extrañar que nazcan nuevas necesidades lingüísticos que requieran de respuestas. Este trabajo tiene por objetivo delimitar el perfil de un profesional que aporte sus competencias plurilingües y pluriculturales al servicio de las empresas vitivinícolas y conceptualizar una formación que permita convertirse en comunicador plurilingüe especializado en el sector vitivinícola. Hemos concluido que este perfil es la conjunción entre el manejo de la lengua de la vid y el vino, en el que se incluye el dominio de lenguas extranjeras y la traducción directa e inversa, el conocimiento de la vinicultura y su patrimonio cultural, así como competencias interdisciplinares relacionadas con los retos tecnológicos de la sociedad moderna. Con este fin, hemos empezado por una revisión histórica de las representaciones de la lengua y la Cultura vitivinícola en los manuales utilizados en España para el aprendizaje del FLE desde el siglo pasado hasta nuestros días. Así se revelaron representaciones del consumo de vino en la mesa, de la vendimia o incluso la advertencia contra el consumo excesivo de alcohol. De hecho, constatamos que la traducción pedagógica fue clave en la metodología tradicional y que, en la actualidad, reaparece en las actividades de mediación. Entendiendo que el comunicador plurilingüe realizará tareas de traducción, nuestra búsqueda se ha centrado en las convergencias entre didáctica de las lenguas y didáctica la traducción en cuanto a referencias culturales y a aspectos comunicativos. Poniendo en perspectiva la comunicación y la lengua de especialidad, hemos indagado sobre los géneros textuales vitivinícolas, así como su relevancia y aprovechamiento en la metodología para la formación del comunicador plurilingüe. El resultado es la conceptualización de las tareas de este profesional enfocado a las necesidades de un sector en crecimiento exponencial. Finalmente, este trabajo define la estructura modular de la formación conducente a la adquisición de las competencias del comunicador plurilingüe especializado en el sector vitivinícola, así como la metodología y los objetivos de aprendizaje.Escuela de DoctoradoDoctorado en Traductología, Traducción Profesional y Audiovisua

    Littérature de jeunesse et construction identitaire :: intentions didactiques et enjeux possibles dans les classes de 7-8 HarmoS

    Get PDF
    La littérature de jeunesse fait partie intégrante du parcours scolaire d’un élève. Dès son entrée à l’école, l’élève y est confronté, par des lectures que son enseignant va lui faire et par celles qu’il va mener ensuite. L’un des apprentissages les plus importants de l’école obligatoire, la lecture, se fera par ce biais. Plus l’élève développera la compétence de compréhension écrite, plus il pourra apprécier la lecture d’ouvrages. Ces ouvrages ne laissent pas les enfants indifférents, qu’ils les apprécient ou non. Certains les font rire, les questionnent, les émeuvent. Les enfants construisent leur personnalité future dès leur enfance et les livres qu’ils liront ont un rôle à jouer à ce niveau. Il est donc important de se questionner sur les ouvrages qui leur seront proposés et sur ce que ces derniers peuvent provoquer chez eux. Ce travail s’intéresse au travail fait par les enseignants de la fin du cycle 2 au niveau de la construction identitaire de leurs élèves par l’utilisation de la littérature de jeunesse. Plusieurs enseignants expliquent leur recours à la littérature de jeunesse en classe pour nous permettre de mieux comprendre leurs pratiques

    Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes

    Get PDF
    Building discourse parsers is currently a major challenge in Natural Language Processing. The identification of the relations (such as Explanation, Contrast ...) linking spans of text in the document is the main difficulty. Especially, identifying the so-called implicit relations, that is the relations that lack a discourse connective (such as but, because . . .), is known as an hard task since it requires to take into account various factors, and because it leads to specific difficulties in a classification system. In this thesis, we use raw data to improve automatic identification of implicit relations.First, we propose to use discourse markers in order to automatically annotate new data. We use domain adaptation methods to deal with the distributional differences between automatically and manually annotated data : we report improvements for systems built on the French corpus ANNODIS and on the English corpus Penn Discourse Treebank. Then, we propose to use word representations built from raw data, which may be automatically annotated with discourse markers, in order to feed a representation of the data based on the words found in the spans of text to be linked. We report improvements on the English corpus Penn Discourse Treebank, and especially we show that this method alleviates the need for rich resources, available but for a few languages.Le développement de systèmes d’analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulté principale correspond à l’étape d’identification des relations (comme Explication, Contraste . . .) liant les segments constituant le document. En particulier, l’identification des relations dites implicites, c’est-à-dire non marquées par un connecteur discursif (comme mais, parce que . . .), est réputée difficile car elle nécessite la prise en compte d’indices variés et correspond à des difficultés particulières dans le cadre d’un système de classification automatique. Dans cette thèse, nous utilisons des données brutes pour améliorer des systèmes d’identification automatique des relations implicites.Nous proposons d’abord d’utiliser les connecteurs pour annoter automatiquement de nouvelles don- nées. Nous mettons en place des stratégies issues de l’adaptation de domaine qui nous permettent de gérer les différences en termes distributionnels entre données annotées automatiquement et manuellement : nous rapportons des améliorations pour des systèmes construits sur le corpus français ANNODIS et sur le corpus anglais du Penn Discourse Treebank. Ensuite, nous proposons d’utiliser des représentations de mots acquises à partir de données brutes, éventuellement annotées automatiquement en connecteurs, pour enrichir la représentation des données fondées sur les mots présents dans les segments à lier. Nous rapportons des améliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette méthode permet de limiter le recours à des ressources riches, disponibles seulement pour peu de langues
    corecore