5 research outputs found

    ModÚles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement

    Get PDF
    We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where dataset’s individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing models’ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourĂ©s de donnĂ©es hĂ©tĂ©rogĂšnes et interdĂ©pendantes. L’hypothĂšse i.i.d. a montrĂ© ses limites dans les algorithmes considĂ©rant des jeux de donnĂ©es tabulaires, constituĂ©s d’individus dotĂ©s du mĂȘme domaine de dĂ©finition et sans influence mutuelle. L’apprentissage relationnel statistique a pour objectif la reprĂ©sentation de connaissances, le raisonnement et l’apprentissage dans des contextes de jeux de donnĂ©es multi relationnels avec incertitude et les modĂšles graphiques probabilistes de second ordre sont une solution pour l’apprentissage gĂ©nĂ©ratif dans ce contexte. Nous Ă©tudions dans cette thĂšse un type de modĂšles graphiques probabilistes de second ordre dirigĂ©s, appelĂ©s modĂšles relationnels probabilistes, dans un contexte d’incertitude de rĂ©fĂ©rences, c.-Ă -d. oĂč les individus d’un jeu de donnĂ©es peuvent prĂ©senter Ă  la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec d’autres individus, et ayant la particularitĂ© de s’appuyer sur des fonctions de partitionnement des individus pour dĂ©couvrir des connaissances gĂ©nĂ©rales. Nous prĂ©sentons les limites des modĂšles existant pour l’apprentissage dans ce contexte et proposons des extensions prĂ©sentant l’intĂ©rĂȘt de pouvoir utiliser des mĂ©thodes de partitionnement relationnel, plus adaptĂ©es au problĂšme, et proposant un biais de reprĂ©sentation simplifiĂ© autorisant la dĂ©couverte de connaissances supplĂ©mentaires, notamment entre les diffĂ©rents types d’association du domaine de dĂ©finition relationnel

    ModÚles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement

    Get PDF
    We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where dataset’s individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing models’ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourĂ©s de donnĂ©es hĂ©tĂ©rogĂšnes et interdĂ©pendantes. L’hypothĂšse i.i.d. a montrĂ© ses limites dans les algorithmes considĂ©rant des jeux de donnĂ©es tabulaires, constituĂ©s d’individus dotĂ©s du mĂȘme domaine de dĂ©finition et sans influence mutuelle. L’apprentissage relationnel statistique a pour objectif la reprĂ©sentation de connaissances, le raisonnement et l’apprentissage dans des contextes de jeux de donnĂ©es multi relationnels avec incertitude et les modĂšles graphiques probabilistes de second ordre sont une solution pour l’apprentissage gĂ©nĂ©ratif dans ce contexte. Nous Ă©tudions dans cette thĂšse un type de modĂšles graphiques probabilistes de second ordre dirigĂ©s, appelĂ©s modĂšles relationnels probabilistes, dans un contexte d’incertitude de rĂ©fĂ©rences, c.-Ă -d. oĂč les individus d’un jeu de donnĂ©es peuvent prĂ©senter Ă  la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec d’autres individus, et ayant la particularitĂ© de s’appuyer sur des fonctions de partitionnement des individus pour dĂ©couvrir des connaissances gĂ©nĂ©rales. Nous prĂ©sentons les limites des modĂšles existant pour l’apprentissage dans ce contexte et proposons des extensions prĂ©sentant l’intĂ©rĂȘt de pouvoir utiliser des mĂ©thodes de partitionnement relationnel, plus adaptĂ©es au problĂšme, et proposant un biais de reprĂ©sentation simplifiĂ© autorisant la dĂ©couverte de connaissances supplĂ©mentaires, notamment entre les diffĂ©rents types d’association du domaine de dĂ©finition relationnel

    Méthodes d'analyse supervisée pour l'interface syntaxe-sémantique: De la réécriture de graphes à l'analyse par transitions

    Get PDF
    Nowadays, the amount of textual data has become so gigantic, that it is not possible to deal with it manually. In fact, it is now necessary to use Natural Language Processing techniques to extract useful information from these data and understand their underlying meaning. In this thesis, we offer resources, models and methods to allow: (i) the automatic annotation of deep syntactic corpora to extract argument structure that links (verbal) predicates to their arguments (ii) the use of these resources with the help of efficient methods.First, we develop a graph rewriting system and a set of manually-designed rewriting rules to automatically annotate deep syntax in French. Thanks to this approach, two corpora were created: the DeepSequoia, a deep syntactic version of the SĂ©quoia corpus and the DeepFTB, a deep syntactic version of the dependency version of the French Treebank. Next, we extend two transition-based parsers and adapt them to be able to deal with graph structures. We also develop a set of rich linguistic features extracted from various syntactic trees. We think they are useful to bring different kind of topological information to accurately predict predicat-argument structures. Used in an arc-factored second-order parsing model, this set of features gives the first state-of-the-art results on French and outperforms the one established on the DM and PAS corpora for English.Finally, we briefly explore a method to automatically induce the transformation between a tree and a graph. This completes our set of coherent resources and models to automatically analyze the syntax-semantics interface on French and English.Aujourd'hui, le volume de donnĂ©es textuelles disponibles est colossal. Ces donnĂ©es reprĂ©sentent des informations inestimables impossibles Ă  traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thĂšse s'inscrit dans cette perspective et proposent des ressources, des modĂšles et des mĂ©thodes pour permettre : (i) l'annotation automatique de corpus Ă  l'interface entre la syntaxe et la sĂ©mantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des mĂ©thodes efficaces. Nous proposons d’abord un systĂšme de rĂ©Ă©criture de graphes et un ensemble de rĂšgles de rĂ©Ă©criture manuellement Ă©crites permettant l'annotation automatique de la syntaxe profonde du français. GrĂące Ă  cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus SĂ©quoia et le DeepFTB, version profonde du French Treebank en dĂ©pendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons Ă  l'analyse de graphes. Nous dĂ©veloppons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idĂ©e est d'apporter des informations topologiquement variĂ©es donnant Ă  nos analyseurs les indices nĂ©cessaires pour une prĂ©diction performante de la structure argumentale. CouplĂ© Ă  un analyseur par factorisation d'arcs, cet ensemble de traits permet d'Ă©tablir l'Ă©tat de l'art sur le français et de dĂ©passer celui Ă©tabli pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une mĂ©thode d'induction pour le passage d'un arbre vers un graphe

    Character Networks and Centrality

    Get PDF
    A character network represents relations between characters from a text; the relations are based on text proximity, shared scenes/events, quoted speech, etc. Our project sketches a theoretical framework for character network analysis, bringing together narratology, both close and distant reading approaches, and social network analysis. It is in line with recent attempts to automatise the extraction of literary social networks (Elson, 2012; Sack, 2013) and other studies stressing the importance of character- systems (Woloch, 2003; Moretti, 2011). The method we use to build the network is direct and simple. First, we extract co-occurrences from a book index, without the need for text analysis. We then describe the narrative roles of the characters, which we deduce from their respective positions in the network, i.e. the discourse. As a case study, we use the autobiographical novel Les Confessions by Jean-Jacques Rousseau. We start by identifying co-occurrences of characters in the book index of our edition (Slatkine, 2012). Subsequently, we compute four types of centrality: degree, closeness, betweenness, eigenvector. We then use these measures to propose a typology of narrative roles for the characters. We show that the two parts of Les Confessions, written years apart, are structured around mirroring central figures that bear similar centrality scores. The first part revolves around the mentor of Rousseau; a figure of openness. The second part centres on a group of schemers, depicting a period of deep paranoia. We also highlight characters with intermediary roles: they provide narrative links between the societies in the life of the author. The method we detail in this complete case study of character network analysis can be applied to any work documented by an index. Un réseau de personnages modélise les relations entre les personnages d'un récit : les relations sont basées sur une forme de proximité dans le texte, l'apparition commune dans des événements, des citations dans des dialogues, etc. Notre travail propose un cadre théorique pour l'analyse des réseaux de personnages, rassemblant narratologie, close et distant reading, et analyse des réseaux sociaux. Ce travail prolonge les tentatives récentes d'automatisation de l'extraction de réseaux sociaux tirés de la littérature (Elson, 2012; Sack, 2013), ainsi que les études portant sur l'importance des systèmes de personnages (Woloch, 2003; Moretti, 2011). La méthode que nous utilisons pour construire le réseau est directe et simple. Nous extrayons les co-occurrences d'un index sans avoir recours à l'analyse textuelle. Nous décrivons les rôles narratifs des personnages en les déduisant de leurs positions relatives dans le réseau, donc du discours. Comme étude de cas, nous avons choisi le roman autobiographique Les Confessions, de Jean- Jacques Rousseau. Nous déduisons les co-occurrences entre personnages de l'index présent dans l'édition Slatkine (Rousseau et al., 2012). Sur le réseau obtenu, nous calculons quatre types de centralité : le degré, la proximité, l'intermédiarité et la centralité par vecteur propre. Nous utilisons ces mesures pour proposer une typologie des rôles narratifs des personnages. Nous montrons que les deux parties des Confessions, écrites à deux époques différentes, sont structurées autour de deux figures centrales, qui obtiennent des mesures de centralité similaires. La première partie est construite autour du mentor de Rousseau, qui a symbolisé une grande ouverture. La seconde partie se focalise sur un groupe de comploteurs, et retrace une période marquée par la paranoïa chez l'auteur. Nous mettons également en évidence des personnages jouant des rôles intermédiaires, et de fait procurant un lien narratif entre les différentes sociétés couvrant la vie de l'auteur. La méthode d'analyse des réseaux de personnages que nous décrivons peut être appliquée à tout texte de fiction comportant un index
    corecore