5 research outputs found
ModÚles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement
We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where datasetâs individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing modelsâ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourĂ©s de donnĂ©es hĂ©tĂ©rogĂšnes et interdĂ©pendantes. LâhypothĂšse i.i.d. a montrĂ© ses limites dans les algorithmes considĂ©rant des jeux de donnĂ©es tabulaires, constituĂ©s dâindividus dotĂ©s du mĂȘme domaine de dĂ©finition et sans influence mutuelle. Lâapprentissage relationnel statistique a pour objectif la reprĂ©sentation de connaissances, le raisonnement et lâapprentissage dans des contextes de jeux de donnĂ©es multi relationnels avec incertitude et les modĂšles graphiques probabilistes de second ordre sont une solution pour lâapprentissage gĂ©nĂ©ratif dans ce contexte. Nous Ă©tudions dans cette thĂšse un type de modĂšles graphiques probabilistes de second ordre dirigĂ©s, appelĂ©s modĂšles relationnels probabilistes, dans un contexte dâincertitude de rĂ©fĂ©rences, c.-Ă -d. oĂč les individus dâun jeu de donnĂ©es peuvent prĂ©senter Ă la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec dâautres individus, et ayant la particularitĂ© de sâappuyer sur des fonctions de partitionnement des individus pour dĂ©couvrir des connaissances gĂ©nĂ©rales. Nous prĂ©sentons les limites des modĂšles existant pour lâapprentissage dans ce contexte et proposons des extensions prĂ©sentant lâintĂ©rĂȘt de pouvoir utiliser des mĂ©thodes de partitionnement relationnel, plus adaptĂ©es au problĂšme, et proposant un biais de reprĂ©sentation simplifiĂ© autorisant la dĂ©couverte de connaissances supplĂ©mentaires, notamment entre les diffĂ©rents types dâassociation du domaine de dĂ©finition relationnel
ModÚles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement
We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where datasetâs individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing modelsâ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourĂ©s de donnĂ©es hĂ©tĂ©rogĂšnes et interdĂ©pendantes. LâhypothĂšse i.i.d. a montrĂ© ses limites dans les algorithmes considĂ©rant des jeux de donnĂ©es tabulaires, constituĂ©s dâindividus dotĂ©s du mĂȘme domaine de dĂ©finition et sans influence mutuelle. Lâapprentissage relationnel statistique a pour objectif la reprĂ©sentation de connaissances, le raisonnement et lâapprentissage dans des contextes de jeux de donnĂ©es multi relationnels avec incertitude et les modĂšles graphiques probabilistes de second ordre sont une solution pour lâapprentissage gĂ©nĂ©ratif dans ce contexte. Nous Ă©tudions dans cette thĂšse un type de modĂšles graphiques probabilistes de second ordre dirigĂ©s, appelĂ©s modĂšles relationnels probabilistes, dans un contexte dâincertitude de rĂ©fĂ©rences, c.-Ă -d. oĂč les individus dâun jeu de donnĂ©es peuvent prĂ©senter Ă la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec dâautres individus, et ayant la particularitĂ© de sâappuyer sur des fonctions de partitionnement des individus pour dĂ©couvrir des connaissances gĂ©nĂ©rales. Nous prĂ©sentons les limites des modĂšles existant pour lâapprentissage dans ce contexte et proposons des extensions prĂ©sentant lâintĂ©rĂȘt de pouvoir utiliser des mĂ©thodes de partitionnement relationnel, plus adaptĂ©es au problĂšme, et proposant un biais de reprĂ©sentation simplifiĂ© autorisant la dĂ©couverte de connaissances supplĂ©mentaires, notamment entre les diffĂ©rents types dâassociation du domaine de dĂ©finition relationnel
Conférence Nationale d'Intelligence Artificielle Année 2020
National audienc
Méthodes d'analyse supervisée pour l'interface syntaxe-sémantique: De la réécriture de graphes à l'analyse par transitions
Nowadays, the amount of textual data has become so gigantic, that it is not possible to deal with it manually. In fact, it is now necessary to use Natural Language Processing techniques to extract useful information from these data and understand their underlying meaning. In this thesis, we offer resources, models and methods to allow: (i) the automatic annotation of deep syntactic corpora to extract argument structure that links (verbal) predicates to their arguments (ii) the use of these resources with the help of efficient methods.First, we develop a graph rewriting system and a set of manually-designed rewriting rules to automatically annotate deep syntax in French. Thanks to this approach, two corpora were created: the DeepSequoia, a deep syntactic version of the SĂ©quoia corpus and the DeepFTB, a deep syntactic version of the dependency version of the French Treebank. Next, we extend two transition-based parsers and adapt them to be able to deal with graph structures. We also develop a set of rich linguistic features extracted from various syntactic trees. We think they are useful to bring different kind of topological information to accurately predict predicat-argument structures. Used in an arc-factored second-order parsing model, this set of features gives the first state-of-the-art results on French and outperforms the one established on the DM and PAS corpora for English.Finally, we briefly explore a method to automatically induce the transformation between a tree and a graph. This completes our set of coherent resources and models to automatically analyze the syntax-semantics interface on French and English.Aujourd'hui, le volume de donnĂ©es textuelles disponibles est colossal. Ces donnĂ©es reprĂ©sentent des informations inestimables impossibles Ă traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thĂšse s'inscrit dans cette perspective et proposent des ressources, des modĂšles et des mĂ©thodes pour permettre : (i) l'annotation automatique de corpus Ă l'interface entre la syntaxe et la sĂ©mantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des mĂ©thodes efficaces. Nous proposons dâabord un systĂšme de rĂ©Ă©criture de graphes et un ensemble de rĂšgles de rĂ©Ă©criture manuellement Ă©crites permettant l'annotation automatique de la syntaxe profonde du français. GrĂące Ă cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus SĂ©quoia et le DeepFTB, version profonde du French Treebank en dĂ©pendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons Ă l'analyse de graphes. Nous dĂ©veloppons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idĂ©e est d'apporter des informations topologiquement variĂ©es donnant Ă nos analyseurs les indices nĂ©cessaires pour une prĂ©diction performante de la structure argumentale. CouplĂ© Ă un analyseur par factorisation d'arcs, cet ensemble de traits permet d'Ă©tablir l'Ă©tat de l'art sur le français et de dĂ©passer celui Ă©tabli pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une mĂ©thode d'induction pour le passage d'un arbre vers un graphe
Character Networks and Centrality
A character network represents relations between characters from a text; the relations are based on text proximity, shared scenes/events, quoted speech, etc. Our project sketches a theoretical framework for character network analysis, bringing together narratology, both close and distant reading approaches, and social network analysis. It is in line with recent attempts to automatise the extraction of literary social networks (Elson, 2012; Sack, 2013) and other studies stressing the importance of character- systems (Woloch, 2003; Moretti, 2011).
The method we use to build the network is direct and simple. First, we extract co-occurrences from a book index, without the need for text analysis. We then describe the narrative roles of the characters, which we deduce from their respective positions in the network, i.e. the discourse.
As a case study, we use the autobiographical novel Les Confessions by Jean-Jacques Rousseau. We start by identifying co-occurrences of characters in the book index of our edition (Slatkine, 2012). Subsequently, we compute four types of centrality: degree, closeness, betweenness, eigenvector. We then use these measures to propose a typology of narrative roles for the characters.
We show that the two parts of Les Confessions, written years apart, are structured around mirroring central figures that bear similar centrality scores. The first part revolves around the mentor of Rousseau; a figure of openness. The second part centres on a group of schemers, depicting a period of deep paranoia. We also highlight characters with intermediary roles: they provide narrative links between the societies in the life of the author.
The method we detail in this complete case study of character network analysis can be applied to any work documented by an index.
Un reÌseau de personnages modeÌlise les relations entre les personnages d'un reÌcit : les relations sont baseÌes sur une forme de proximiteÌ dans le texte, l'apparition commune dans des eÌveÌnements, des citations dans des dialogues, etc. Notre travail propose un cadre theÌorique pour l'analyse des reÌseaux de personnages, rassemblant narratologie, close et distant reading, et analyse des reÌseaux sociaux. Ce travail prolonge les tentatives reÌcentes d'automatisation de l'extraction de reÌseaux sociaux tireÌs de la litteÌrature (Elson, 2012; Sack, 2013), ainsi que les eÌtudes portant sur l'importance des systeÌmes de personnages (Woloch, 2003; Moretti, 2011).
La meÌthode que nous utilisons pour construire le reÌseau est directe et simple. Nous extrayons les co-occurrences d'un index sans avoir recours aÌ l'analyse textuelle. Nous deÌcrivons les roÌles narratifs des personnages en les deÌduisant de leurs positions relatives dans le reÌseau, donc du discours.
Comme eÌtude de cas, nous avons choisi le roman autobiographique Les Confessions, de Jean- Jacques Rousseau. Nous deÌduisons les co-occurrences entre personnages de l'index preÌsent dans l'eÌdition Slatkine (Rousseau et al., 2012). Sur le reÌseau obtenu, nous calculons quatre types de centraliteÌ : le degreÌ, la proximiteÌ, l'intermeÌdiariteÌ et la centraliteÌ par vecteur propre. Nous utilisons ces mesures pour proposer une typologie des roÌles narratifs des personnages.
Nous montrons que les deux parties des Confessions, eÌcrites aÌ deux eÌpoques diffeÌrentes, sont structureÌes autour de deux figures centrales, qui obtiennent des mesures de centraliteÌ similaires. La premieÌre partie est construite autour du mentor de Rousseau, qui a symboliseÌ une grande ouverture. La seconde partie se focalise sur un groupe de comploteurs, et retrace une peÌriode marqueÌe par la paranoiÌa chez l'auteur. Nous mettons eÌgalement en eÌvidence des personnages jouant des roÌles intermeÌdiaires, et de fait procurant un lien narratif entre les diffeÌrentes socieÌteÌs couvrant la vie de l'auteur.
La meÌthode d'analyse des reÌseaux de personnages que nous deÌcrivons peut eÌtre appliqueÌe aÌ tout texte de fiction comportant un index