455 research outputs found

    ModÚles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement

    Get PDF
    We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where dataset’s individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing models’ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourĂ©s de donnĂ©es hĂ©tĂ©rogĂšnes et interdĂ©pendantes. L’hypothĂšse i.i.d. a montrĂ© ses limites dans les algorithmes considĂ©rant des jeux de donnĂ©es tabulaires, constituĂ©s d’individus dotĂ©s du mĂȘme domaine de dĂ©finition et sans influence mutuelle. L’apprentissage relationnel statistique a pour objectif la reprĂ©sentation de connaissances, le raisonnement et l’apprentissage dans des contextes de jeux de donnĂ©es multi relationnels avec incertitude et les modĂšles graphiques probabilistes de second ordre sont une solution pour l’apprentissage gĂ©nĂ©ratif dans ce contexte. Nous Ă©tudions dans cette thĂšse un type de modĂšles graphiques probabilistes de second ordre dirigĂ©s, appelĂ©s modĂšles relationnels probabilistes, dans un contexte d’incertitude de rĂ©fĂ©rences, c.-Ă -d. oĂč les individus d’un jeu de donnĂ©es peuvent prĂ©senter Ă  la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec d’autres individus, et ayant la particularitĂ© de s’appuyer sur des fonctions de partitionnement des individus pour dĂ©couvrir des connaissances gĂ©nĂ©rales. Nous prĂ©sentons les limites des modĂšles existant pour l’apprentissage dans ce contexte et proposons des extensions prĂ©sentant l’intĂ©rĂȘt de pouvoir utiliser des mĂ©thodes de partitionnement relationnel, plus adaptĂ©es au problĂšme, et proposant un biais de reprĂ©sentation simplifiĂ© autorisant la dĂ©couverte de connaissances supplĂ©mentaires, notamment entre les diffĂ©rents types d’association du domaine de dĂ©finition relationnel

    ModÚles Relationnels Probabilistes et Incertitude de Références: Apprentissage de structure avec algorithmes de partitionnement

    Get PDF
    We are surrounded by heterogeneous and interdependent data. The i.i.d. assumption has shown its limits in the algorithms considering tabular datasets, containing individuals with same data domain and without mutual influence on each other. Statistical relational learning aims at representing knowledge, reasoning, and learning in multi-relational datasets with uncertainty and lifted probabilistic graphical models offer a solution for generative learning in this context. We study in this thesis a type of directed lifted graphical model, called probabilistic relational models, in the context of reference uncertainty, i.e. where dataset’s individuals can have uncertainty over both their internal attributes description and their external memberships in associations with others, having the particularity of relying on individuals partitioning functions in order to find out general knowledge. We show existing models’ limits for learning in this context and propose extensions allowing to use relational clustering methods, more adequate for the problem, and offering a less constrained representation bias permitting extra knowledge discovery, especially between associations types in the relational data domain.Nous sommes entourĂ©s de donnĂ©es hĂ©tĂ©rogĂšnes et interdĂ©pendantes. L’hypothĂšse i.i.d. a montrĂ© ses limites dans les algorithmes considĂ©rant des jeux de donnĂ©es tabulaires, constituĂ©s d’individus dotĂ©s du mĂȘme domaine de dĂ©finition et sans influence mutuelle. L’apprentissage relationnel statistique a pour objectif la reprĂ©sentation de connaissances, le raisonnement et l’apprentissage dans des contextes de jeux de donnĂ©es multi relationnels avec incertitude et les modĂšles graphiques probabilistes de second ordre sont une solution pour l’apprentissage gĂ©nĂ©ratif dans ce contexte. Nous Ă©tudions dans cette thĂšse un type de modĂšles graphiques probabilistes de second ordre dirigĂ©s, appelĂ©s modĂšles relationnels probabilistes, dans un contexte d’incertitude de rĂ©fĂ©rences, c.-Ă -d. oĂč les individus d’un jeu de donnĂ©es peuvent prĂ©senter Ă  la fois une incertitude sur la valeurs de leurs attributs descriptifs, et sur leurs implications dans des associations avec d’autres individus, et ayant la particularitĂ© de s’appuyer sur des fonctions de partitionnement des individus pour dĂ©couvrir des connaissances gĂ©nĂ©rales. Nous prĂ©sentons les limites des modĂšles existant pour l’apprentissage dans ce contexte et proposons des extensions prĂ©sentant l’intĂ©rĂȘt de pouvoir utiliser des mĂ©thodes de partitionnement relationnel, plus adaptĂ©es au problĂšme, et proposant un biais de reprĂ©sentation simplifiĂ© autorisant la dĂ©couverte de connaissances supplĂ©mentaires, notamment entre les diffĂ©rents types d’association du domaine de dĂ©finition relationnel

    Une rencontre entre les noyaux de graphes et la détection d’anomalies dans les réseaux

    Get PDF
    International audienceLa dĂ©tection d’anomalies demeure une tĂąche cruciale pour assurer une gestion efficace et flexible d’un rĂ©seau. RĂ©cemment, les noyaux de graphes ont connu un grand succĂšs dans de nombreux domaines, notamment en bio-informatique et vision artificielle. Notre travail vise Ă  Ă©tudier leur pouvoir de discrimination dans le domaine des rĂ©seaux afin de dĂ©tecter les vulnĂ©rabilitĂ©s et catĂ©goriser le trafic. Dans cet article, nous prĂ©sentons Nadege, un systĂšme d’apprentissage Ă  l’intĂ©rieur duquel nous concevons un nouveau noyau de graphe adaptĂ© au profilage de rĂ©seaux. De surcroĂźt, nousproposons des algorithmes avec des garanties d’approximation thĂ©oriques ainsi qu’une politique de dĂ©tection hybride. Finalement, nous Ă©valuons les performances de Nadege en menant des expĂ©riences approfondies sur une variĂ©tĂ© d’environnements rĂ©seaux. Pour diffĂ©rents scĂ©narios, nous montrons son efficacitĂ© Ă  empĂȘcher les anomalies de perturber le rĂ©seau tout en fournissant une assistance pour la surveillance du trafic

    ModÚles et métadonnées pour les scénarios pédagogiques

    Get PDF
    TirĂ© de l'Ă©cran-titre (visionnĂ© le 27 juin 2017).Ce rapport prĂ©sente plusieurs formes de reprĂ©sentation des scĂ©narios proposĂ©s par des normes. Ces modĂšles de scĂ©narios sont comparĂ©s entre eux et discutĂ©s en fonction de la pratique actuelle aux trois ordres d’enseignement quant aux scĂ©narios ou aux activitĂ©s pĂ©dagogiques dĂ©crites dans les rĂ©fĂ©rentiels de ressources Ă©ducatives. De plus, le rapport prĂ©sente une analyse des pratiques actuelles de rĂ©fĂ©rencement des scĂ©narios Ă  l’aide de la norme LOM et de la spĂ©cification Normetic 1.2 largement utilisĂ©es

    Méthodes d'analyse supervisée pour l'interface syntaxe-sémantique: De la réécriture de graphes à l'analyse par transitions

    Get PDF
    Nowadays, the amount of textual data has become so gigantic, that it is not possible to deal with it manually. In fact, it is now necessary to use Natural Language Processing techniques to extract useful information from these data and understand their underlying meaning. In this thesis, we offer resources, models and methods to allow: (i) the automatic annotation of deep syntactic corpora to extract argument structure that links (verbal) predicates to their arguments (ii) the use of these resources with the help of efficient methods.First, we develop a graph rewriting system and a set of manually-designed rewriting rules to automatically annotate deep syntax in French. Thanks to this approach, two corpora were created: the DeepSequoia, a deep syntactic version of the SĂ©quoia corpus and the DeepFTB, a deep syntactic version of the dependency version of the French Treebank. Next, we extend two transition-based parsers and adapt them to be able to deal with graph structures. We also develop a set of rich linguistic features extracted from various syntactic trees. We think they are useful to bring different kind of topological information to accurately predict predicat-argument structures. Used in an arc-factored second-order parsing model, this set of features gives the first state-of-the-art results on French and outperforms the one established on the DM and PAS corpora for English.Finally, we briefly explore a method to automatically induce the transformation between a tree and a graph. This completes our set of coherent resources and models to automatically analyze the syntax-semantics interface on French and English.Aujourd'hui, le volume de donnĂ©es textuelles disponibles est colossal. Ces donnĂ©es reprĂ©sentent des informations inestimables impossibles Ă  traiter manuellement. De fait, il est essentiel d'utiliser des techniques de Traitement Automatique des Langues pour extraire les informations saillantes et comprendre le sens sous-jacent. Cette thĂšse s'inscrit dans cette perspective et proposent des ressources, des modĂšles et des mĂ©thodes pour permettre : (i) l'annotation automatique de corpus Ă  l'interface entre la syntaxe et la sĂ©mantique afin d'en extraire la structure argumentale (ii) l'exploitation des ressources par des mĂ©thodes efficaces. Nous proposons d’abord un systĂšme de rĂ©Ă©criture de graphes et un ensemble de rĂšgles de rĂ©Ă©criture manuellement Ă©crites permettant l'annotation automatique de la syntaxe profonde du français. GrĂące Ă  cette approche, deux corpus ont vu le jour : le DeepSequoia, version profonde du corpus SĂ©quoia et le DeepFTB, version profonde du French Treebank en dĂ©pendances. Ensuite, nous proposons deux extensions d'analyseurs par transitions et les adaptons Ă  l'analyse de graphes. Nous dĂ©veloppons aussi un ensemble de traits riches issus d'analyses syntaxiques. L'idĂ©e est d'apporter des informations topologiquement variĂ©es donnant Ă  nos analyseurs les indices nĂ©cessaires pour une prĂ©diction performante de la structure argumentale. CouplĂ© Ă  un analyseur par factorisation d'arcs, cet ensemble de traits permet d'Ă©tablir l'Ă©tat de l'art sur le français et de dĂ©passer celui Ă©tabli pour les corpus DM et PAS sur l'anglais. Enfin, nous explorons succinctement une mĂ©thode d'induction pour le passage d'un arbre vers un graphe

    Les propriétés grammaticales du genre de l'offre d'emploi aux fondements d'une méthode de classement automatique.

    Get PDF
    Nous présentons un projet de fouille de textes qui vise à développer une méthode de classement automatique d'offres d'emploi et d'identification des impératifs de compétences ; la méthode s'appuie sur l'étude des termes au sein de constructions grammaticales prototypiques (Bourrigault et Jacquemin, 2000 ; Tutin, 2007) permettant de saisir la sémantique lexicale et ce d'autant mieux au sein de l'horizon interprétatif défini par un genre spécifique (Condamines, 2006). Notre corpus se compose de 13375 offres d'emploi couvrant l'ensemble des métiers et secteurs, et annotées automatiquement en dépendances suivant une technique décrite dans (De La Clergerie et al., 2009 ; Erk & Padó, 2008 ; Padó & Lapata, 2007). Les patrons relevés, qui associent un jargon des ressources humaines et un lexique spécifique au métier concerné, permettent de distinguer les " compétences " d'autres classes de locutions emblématiques (par ex. l'intitulé du poste etc.) (Loth, 2010), ainsi que de classer les compétences (savoir-faire, personnalité, formation etc.). L'étude questionne ainsi la caractérisation multi-dimensionnelle des genres (Biber, 1988, 1993 ; Malrieu & Rastier, 2001 ; Rastier, 2001) et les liens entre syntaxe et sémantique (paradigmes constructionnels typiques et sémantique résultante)

    Intégration holistique et entreposage automatique des données ouvertes

    Get PDF
    Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations.Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un systÚme décisionnel. Leur intégration et leur entreposage au sein du systÚme décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problÚmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problÚme d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modÚle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations

    Étude et modĂ©lisation des connaissances et raisonnement de l'apprenant dans un STI

    Full text link
    ThÚse numérisée par la Direction des bibliothÚques de l'Université de Montréal
    • 

    corecore