36 research outputs found

    La quête du Graal et la réalité numérique

    Get PDF
    Cet article présente un processus de fouille de données afin d’extraire des connaissances associées au motif de la parenté et de la famille dans un corpus en ancien français de la première moitié du XIIIe siècle. Après une numérisation puis un prétraitement des données fondé sur des techniques de TAL (Traitement Automatique du Langage), il a été procédé à une extraction de motifs séquentiels (enchaînements de voisinages de mots liés à la thématique traitée). Dans cet article, nous présentons les problèmes liés à la numérisation et aux traitements du texte. Puis, nous détaillons ce processus automatique et exhaustif et analysons les premiers résultats obtenus en procédant à l’étude précise d’un motif séquentiel dans différents textes du cycle Lancelot-Graal.La Quête du Graal and the question of digital reality This paper describes a method to mine texts written in Old French in the second half of the 13th century. The method is based on data mining tools, which are used here to automatically extract patterns dealing with family relationships. After scanning and digitizing the texts, a pre-treatment has been applied based on NLP (Natural Language Processing) to clean the texts. Sequential patterns are then extracted, which provide the expert with sequences of neighbourhoods of words that are relevant to the analysis being carried out by the expert.We report here the problems raised by numerizing such texts. Then we present the process we have applied and the results we have obtained. Finally, we detail how a specific sequential pattern, chosen among those appearing in the Lancelot-Graal series, can be further analyzed

    L'AIS : une donnée pour l'analyse des activités en mer

    Get PDF
    4 pages, session "Mer et littoral"International audienceCette contribution présente des éléments méthodologiques pour la description des activités humaines en mer dans une perspective d'aide à la gestion. Différentes procédures, combinant l'exploitation de bases de données spatio-temporelles issue de données AIS archivées à des analyses spatiales au sein d'un SIG, sont testées afin de caractériser le transport maritime en Mer d'Iroise (Bretagne, France) sur les plans spatiaux, temporels et quantitatifs au cours d'une année

    Du besoin d'informations à la formulation des requêtes : étude des usages de différents types d'utilisateurs visant l'amélioration d'un système de recherche d'informations

    Get PDF
    With the massive and heterogeneous web document collections, IR system must analyze the behaviors of users which are unpredictable and varied. The approach described in this thesis provides a comparison of the verbalizations for both natural language and web query for the same information need by the same user. For this, we used data collected (i.e. users' complaints in natural language and web queries) through a search engine dedicated to economic reports in French over 5 consecutive years totaling a corpus of 1398 natural language requests and 3427 web queries. Then, we compared the expression of the information need and highlighted the contributions in terms of information and clarification, the use of either language used.Devant des collections massives et hétérogènes de données, les systèmes de RI doivent désormais pouvoir appréhender des comportements d'utilisateurs aussi variés qu'imprévisibles. L'objectif de notre travail est d'évaluer la façon dont un même utilisateur verbalise un besoin informationnel à travers un énoncé de type « expression libre » (appelé langage naturel) et un énoncé de type mots-clés (appelé langage de requêtes). Pour cela, nous nous situons dans un contexte applicatif, à savoir des demandes de remboursement des utilisateurs d'un moteur de recherche dédié à des études économiques en français. Nous avons recueilli via ce moteur, les deux types d'énoncés sur 5 années consécutives totalisant un corpus de 1398 demandes en langage naturel et de 3427 requêtes. Nous avons alors comparé l'expression en tant que tel du besoin informationnel et mis en avant ce qu'apportait, en termes d'informations et de précisions, le recours à l'un ou l'autre du langage utilisé

    Sémantique des sites Web de restaurants : analyse de productions polysémiotiques

    Get PDF

    ELiTe-[FLE]² : Un environnement d'ALAO fondé sur la linguistique textuelle, pour la formation linguistique des futurs enseignants de FLE en Colombie

    Get PDF
    This thesis presents a computer device aimed at helping future FFL teacher training in Colombian universities. It is grounded in text linguistics and aims to contribute to improving the linguistic level of university students currently in training. To do so, this device is based on a textual corpus specifically annotated and labeled thanks to natural language processing (NLP) tools and to manual annotations in XML format. This should allow the development of activities with a formative aim, while also taking into account the needs expressed by the target public (teachers/trainers and their students, the trainees). As explained throughout this thesis, the elaboration of such a system is based on knowledge and skills stemming from several disciplines and/or fields: language didactics, educational engineering, general linguistics, textual linguistics, corpus linguistics, NLP and CALL. The ambition is to provide trainees and trainers in higher education in Colombia with a tool designed according to their needs and their learning aims and objectives. Finally, the originality of this system consists in the choice of target users, the didactic training model implemented and the specificity of the corpus annotated for the activities. It is one of the first CALL systems based on textual linguistics specifically targeted at training future FFL teachers in a non-native language context.Nous présentons, dans ce manuscrit, un dispositif informatique d'aide à la formation des futurs enseignants de FLE en Colombie. Il prend ses sources dans la linguistique textuelle et cherche à améliorer le niveau linguistique des étudiants universitaires actuellement en formation. Pour ce faire, le dispositif est fondé sur un corpus textuel spécifiquement annoté et étiqueté grâce aux outils de traitement automatique de langues (TAL) et à des annotations manuelles en format XML. Ceci permet de développer des activités à visée formative, en tenant compte des besoins exprimés par les publics cibles (enseignants-formateurs et leurs étudiants en formation). Comme nous l'exposons tout au long de cette thèse, l'élaboration d'un système comme le nôtre est le produit de la mise en œuvre de connaissances et de compétences issues de plusieurs disciplines et/ou domaines : didactique des langues, ingénierie pédagogique, linguistique générale, linguistique textuelle, linguistique de corpus, TAL et ALAO. Il se veut, principalement, un dispositif pédagogique pour la formation des étudiants en FLE dans le contexte de l'éducation supérieure en Colombie, un outil pensé en fonction des besoins et des objectifs de cet apprentissage. L'originalité de notre système repose sur le type de public choisi, le modèle didactique de formation mis en œuvre et la spécificité du corpus utilisé. À notre connaissance, il s'agit d'un des premiers systèmes d'ALAO fondé sur la linguistique textuelle s'adressant à la formation des futurs enseignants de FLE dans un contexte exolingue

    L'écriture "indécidable" de Régis Jauffret : entre saturation, accumulation, minimalisme et maximalisme

    Get PDF
    La présente thèse vise à dégager un modèle alternatif du récit et de la narrativité permettant de les percevoir dans leur nature narrative et générique indécidable à l'intérieur de six textes de Régis Jauffret : Microfictions, Asiles de fous, Univers, univers, Les jeux de plage, Promenade et Fragments de la vie des gens. Nous tenterons de redéfinir les concepts de récit et de narrativité tels qu'expérimentés à la lecture des textes de Jauffret selon une logique passionnelle, potentielle et non causale. En effet, vu le système narratif indécidable de ces œuvres, notre propos dans cette thèse est de montrer en quoi la logique passionnelle et potentielle constitue un moyen d'analyse crucial dans la démonstration d'un effet du récit, d'un effet d'intrigue et d'un effet romanesque. Du coup, l'écriture de Jauffret est marquée par l'idée de retour au point de départ, ou peu après, ou bien de recommencement perpétuel, détachée de la notion de dénouement ou de la mise en intrigue, ce qui nie même l'aventure de l'écriture d'une histoire ou de la narration d'un récit. Cela laisse l'effet, la trace d'un récit plutôt qu'un récit complet et achevé. Par conséquent, la lecture se trouve lasse de suivre les traces et d'interagir avec les effets de l'aventure de cette écriture. En outre, vu l'état fragmentaire des textes, ils risquent évidemment d'être classés comme recueils de nouvelles ou de perdre toute possibilité de classement générique. Même avec la mention "roman" ou "fictions", les textes ne se limitent pas au huis clos des définitions raccrochées au roman canonique ; leur statut est ambivalent. Dès lors, ranger les œuvres de Jauffret sous des qualifications comme le minimalisme ou le postmodernisme semble une manière de considérer qu'elles n'ont rien d'autre à offrir et peut nous empêcher d'y voir ce qui en déborde

    Co-élaboration du sens dans les cercles littéraires entre pairs en première secondaire : étude des relations entre les modalités de lecture et de collaboration

    Full text link
    Thèse diffusée initialement dans le cadre d'un projet pilote des Presses de l'Université de Montréal/Centre d'édition numérique UdeM (1997-2008) avec l'autorisation de l'auteur

    Acquisition de liens sémantiques à partir d'éléments de mise en forme des textes: exploitation des structures énumératives

    Get PDF
    The past decade witnessed significant advances in the field of relation extraction from text, facilitating the building of lexical or semantic resources. However, the methods proposed so far (supervised learning, kernel methods, distant supervision, etc.) don't fully exploit the texts: they are usually applied at the sentential level and they don't take into account the layout and the formatting of texts.In such a context, this thesis aims at expanding those methods and makes them layout-aware for extracting relations expressed beyond sentence boundaries. For this purpose, we rely on the semantics conveyed by typographical (bullets, emphasis, etc.) and dispositional (visual indentations, carriage returns, etc.) features. Those features often substitute purely discursive formulations. In particular, the study reported here is dealing with the relations carried by the vertical enumerative structures. Although they display discontinuities between their various components, the enumerative structures can be dealt as a whole at the semantic level. They form textual structures prone to hierarchical relations.This study was divided into two parts. (i) The first part describes a model representing the hierarchical structure of documents. This model is falling within the theoretical framework representing the textual architecture: an abstraction of the layout and the formatting, as well as a strong connection with the rhetorical structure are achieved. However, our model focuses primarily on the efficiency of the analysis process rather than on the expressiveness of the representation. A bottom-up method intended for building automatically this model is presented and evaluated on a corpus of PDF documents.(ii) The second part aims at integrating this model into the process of relation extraction. In particular, we focused on vertical enumerative structures. A multidimensional typology intended for characterizing those structures was established and used into an annotation task. Thanks to corpus-based observations, we proposed a two-step method, by supervised learning, for qualifying the nature of the relation and identifying its arguments. The evaluation of our method showed that exploiting the formatting and the layout of documents, in combination with standard lexico-syntactic features, improves those two tasks.Ces dernières années de nombreux progrès ont été faits dans le domaine de l'extraction de relations à partir de textes, facilitant ainsi la construction de ressources lexicales ou sémantiques. Cependant, les méthodes proposées (apprentissage supervisé, méthodes à noyaux, apprentissage distant, etc.) n’exploitent pas tout le potentiel des textes : elles ont généralement été appliquées à un niveau phrastique, sans tenir compte des éléments de mise en forme.Dans ce contexte, l'objectif de cette thèse est d'adapter ces méthodes à l'extraction de relations exprimées au-delà des frontières de la phrase. Pour cela, nous nous appuyons sur la sémantique véhiculée par les indices typographiques (puces, emphases, etc.) et dispositionnels (indentations visuelles, retours à la ligne, etc.), qui complètent des formulations strictement discursives. En particulier, nous étudions les structures énumératives verticales qui, bien qu'affichant des discontinuités entre leurs différents composants, présentent un tout sur le plan sémantique. Ces structures textuelles sont souvent révélatrices de relations hiérarchiques. Notre travail est divisé en deux parties. (i) La première partie décrit un modèle pour représenter la structure hiérarchique des documents. Ce modèle se positionne dans la suite des modèles théoriques proposés pour rendre compte de l'architecture textuelle : une abstraction de la mise en forme et une connexion forte avec la structure rhétorique sont faites. Toutefois, notre modèle se démarque par une perspective d'analyse automatique des textes. Nous en proposons une implémentation efficace sous la forme d'une méthode ascendante et nous l'évaluons sur un corpus de documents PDF. (ii) La seconde partie porte sur l'intégration de ce modèle dans le processus d'extraction de relations. Plus particulièrement, nous nous sommes focalisés sur les structures énumératives verticales. Un corpus a été annoté selon une typologie multi-dimensionnelle permettant de caractériser et de cibler les structures énumératives verticales porteuses de relations utiles à la création de ressources. Les observations faites en corpus ont conduit à procéder en deux étapes par apprentissage supervisé pour analyser ces structures : qualifier la relation puis en extraire les arguments. L'évaluation de cette méthode montre que l'exploitation de la mise en forme, combinée à un faisceau d'indices lexico-syntaxiques, améliore les résultats

    Pr\ue9cis du Plurilinguisme et du pluriculturalisme

    Get PDF
    This handbook is organized around linguistic and cultural plurality. The French concept of \uab plurality \ubb has different political connotations than the Angloamerican term \uab diversity \ubb. While \uab diversity \ubb is the ideal of a neo-liberal democracy, \uab plurality \ubb is the ideal of a republican society committed to the tenets of the French Revolution. Following Bourdieu (1977), it defines language as an \uab instrument of action (or of power) \ubb and aims to reconstruct the complexity of social and linguistic practices that constitute our relationship to the foreign. Plurality here is not defined as the mere coexistence of various languages, but rather as a specific social activity characterized by the circulation of values across borders, the negotiation of identities, and the inversions\u2013indeed, the inventions\u2013of meaning that are often masked by the shared illusion of successful communication. Plurality is approached in this book: - as a complex aggregate, rather than as the simplified object of a communicatively oriented language pedagogy primarily concerned with intelligibility - as a coherent system of relationships whose description cannot be reduced to a series of mechanical operations - as a socio-historical construct, observable from many simultaneous, spatiotemporal points of view, such as that of everyday interactions or that of institutions whose symbolic force cannot be accounted for from one point of view alone
    corecore