2,305 research outputs found

    Une approche de gestion de contextes métiers pour l'accès à l'information

    Get PDF
    International audienceLa prise en compte du contexte améliore la pertinence des informations fournies par les systèmes pour les utilisateurs. Nous introduisons dans ce papier un gestionnaire de situations contextuelles métier basé sur une nouvelle définition générique du contexte. Ce gestionnaire prend en compte diverses dimensions contextuelles et agit comme un intermédiaire entre les systèmes d’accès à l’information (SAI) et les informations contextuelles. Notre approche repose sur un processus original qui gère les différentes dimensions contextuelles afin de créer une situation unique à un instant t. Pour cela, le processus de Mise En Situation (MES) utilise la base de règles qui représente la connaissance contextuelle du gestionnaire. Les situations seront utilisées par les SAI à des fins d’adaptation de processus informationnel. Par ailleurs, un processus d’extraction est proposé pour améliorer la fiabilité du gestionnaire de contexte au fil du temps en faisant évoluer sa base de connaissances. Le gestionnaire a été mis en œuvre à travers un prototype qui a été utilisé pour l’expérimentation afin de mesurer l’impact de nos propositions dans le domaine de la maintenance aéronautique

    Fouille de textes par combinaison de règles d'association et d'indices statistiques

    Get PDF
    Colloque avec actes et comité de lecture. internationale.International audienceNous proposons la description d'une méthodologie d'accès et de lecture des règles d'association extraites à partir de textes. Le corpus ayant servi à notre expérimentation est constitué de résumés d'articles scientifiques dans le domaine de la biologie moléculaire. Ce processus génère un trop grand nombre de règles et nous amène à chercher à les trier de la plus informative à la moins informative.Le classement est établi suivant des indices statistiques. Une discussion sur nos résultats identifie quelques points ayant un impact sur l'interprétabilité des règles d'association. || This paper aims at defining a methodology of access and reading of association rules extracted from texts. The corpus used is a set of scientific abstracts in the field of molecular biology. The mining process often generates a huge number of rules. Thi

    Modèle multidimensionnel en diamant dédié à l'OLAP sémantique de documents

    Get PDF
    National audienceLe document électronique représente aujourd’hui un support d’information que les entreprises ne peuvent plus négliger si elles veulent être certaines d’identifier et de gérer toutes les données qui leur sont utiles au quotidien. Plusieurs travaux ont proposé l’application des techniques OLAP (« On-line Analytical Processing ») aux informations documentaires. Dans cet article, nous présentons un nouveau modèle multidimensionnel dédié à l’OLAP de documents. Ce modèle, dit en diamant, est organisé autour d’une dimension centrale qui traduit la sémantique du contenu textuel du document

    18ème Atelier "Raisonnement à Partir de Cas" RàPC 2010

    Get PDF
    National audienceLe raisonnement à partir de cas (RàPC) est un paradigme de résolution de problèmes s'appuyant sur la réutilisation d'expériences passées pour résoudre de nouveaux problèmes. Les applications du RàPC sont nombreuses et la recherche est particuli'erement active en France et dans le monde. Les rencontres annuelles de la communauté fran¸caise ont été organisées depuis 1992 par le groupe français de recherche en RàPC, sous la forme d'ateliers d'un à deux jours, permettant de présenter et de discuter les travaux, théoriques ou appliqués, à différents stades d'avancement. Cette année 2010, le 18ème atelier RàPC est organisé à Strasbourg, en amont des assises du GDR I3 (" Information, Interaction, Intelligence "). À cette occasion, l'atelier RàPC partage une demi-journée avec les rencontres du thème IAF " Intelligence Artificielle Fondamentale " du GDR I3. Le programme complet est ainsi constitué de neuf présentations, huit soumises à l'atelier RàPC et une soumise aux journées IAF. Ces présentations sont réparties en quatre sessions : une première session porte sur des applications du RàPC à l'espace et aux déplacements ; une deuxième session (en deux temps) regroupe différents travaux sur l'adaptation ; les deux autres sessions sont consacrées pour l'une à la réutilisation d'expériences et à la remémoration, et pour l'autre à la comparaison du RàPC à d'autres méthodes appuyées sur l'expérience

    Simuler et épurer pour extraire les motifs sûrs et non redondants

    Get PDF
    International audienceOur goal is twofold: 1) we want to mine the only statistically valid 2-itemsets out of a boolean datatable, 2) on this basis, we want to build the only higher-order non-redundant itemsets compared to their sub-itemsets. For the first task we have designed a randomization test (Tournebool) respectful of the structure of the data variables and independant from the specific distributions of the data. In our test set (193 texts and 888 terms), this leads to a reduction from 400,000 2-itemsets to 4000 significant ones, at the 95% confidence interval. For the second task, we have devised a hierarchical stepwise procedure (MIDOVA) for evaluating the residual amount of variation devoted to higher-order itemsets, yielding new possible positive or negative high-order relations. On our example, this leads to 2300 3-itemsets, 41 4-itemsets, and no higher-order ones, in a computationally efficient way

    Découverte de définitions dans le web des données

    Get PDF
    In this thesis, we are interested in the web of data and knowledge units that can be possibly discovered inside. The web of data can be considered as a very large graph consisting of connected RDF triple databases. An RDF triple, denoted as (subject, predicate, object), represents a relation (i.e. the predicate) existing between two resources (i.e. the subject and the object). Resources can belong to one or more classes, where a class aggregates resources sharing common characteristics. Thus, these RDF triple databases can be seen as interconnected knowledge bases. Most of the time, these knowledge bases are collaboratively built thanks to human users. This is particularly the case of DBpedia, a central knowledge base within the web of data, which encodes Wikipedia content in RDF format. DBpedia is built from two types of Wikipedia data: on the one hand, (semi-)structured data such as infoboxes, and, on the other hand, categories, which are thematic clusters of manually generated pages. However, the semantics of categories in DBpedia, that is, the reason a human agent has bundled resources, is rarely made explicit. In fact, considering a class, a software agent has access to the resources that are regrouped together, i.e. the class extension, but it generally does not have access to the ``reasons'' underlying such a cluster, i.e. it does not have the class intension. Considering a category as a class of resources, we aim at discovering an intensional description of the category. More precisely, given a class extension, we are searching for the related intension. The pair (extension, intension) which is produced provides the final definition and the implementation of classification-based reasoning for software agents. This can be expressed in terms of necessary and sufficient conditions: if x belongs to the class C, then x has the property P (necessary condition), and if x has the property P, then it belongs to the class C (sufficient condition). Two complementary data mining methods allow us to materialize the discovery of definitions, the search for association rules and the search for redescriptions. In this thesis, we first present a state of the art about association rules and redescriptions. Next, we propose an adaptation of each data mining method for the task of definition discovery. Then we detail a set of experiments applied to DBpedia, and we qualitatively and quantitatively compare the two approaches. Finally, we discuss how discovered definitions can be added to DBpedia to improve its quality in terms of consistency and completeness.Dans cette thèse, nous nous intéressons au web des données et aux ``connaissances'' que potentiellement il renferme. Le web des données se présente comme un très grand graphe constitué de bases de triplets RDF connectées entre elles. Un triplet RDF, dénoté (sujet, prédicat, objet), représente une relation (le prédicat) qui existe entre deux ressources (le sujet et l'objet). Les ressources peuvent appartenir à une ou plusieurs classes, où une classe regroupe des ressources partageant des caractéristiques communes. Ainsi, ces bases de triplets RDF peuvent être vues comme des bases de connaissances interconnectées. La plupart du temps ces bases de connaissances sont construites de manière collaborative par des utilisateurs. C'est notamment le cas de DBpedia, une base de connaissances centrale dans le web des données, qui encode le contenu de Wikipédia au format RDF. DBpedia est construite à partir de deux types de données de Wikipédia : d'une part, des données (semi-)structurées telles que les infoboxes et d'autre part les catégories, qui sont des regroupements thématiques de pages générés manuellement. Cependant, la sémantique des catégories dans DBpedia, c'est-à-dire la raison pour laquelle un agent humain a regroupé des ressources, n'est pas explicite. De fait, en considérant une classe, un agent logiciel a accès aux ressources qui y sont regroupées --- il dispose de la définition dite en extension --- mais il n'a généralement pas accès aux ``motifs'' de ce regroupement --- il ne dispose pas de la définition dite en intension. Dans cette thèse, nous cherchons à associer une définition à une catégorie en l'assimilant à une classe de ressources. Plus précisément, nous cherchons à associer une intension à une classe donnée en extension. La paire (extension, intension) produite va fournir la définition recherchée et va autoriser la mise en œuvre d'un raisonnement par classification pour un agent logiciel. Cela peut s'exprimer en termes de conditions nécessaires et suffisantes : si x appartient à la classe C, alors x a la propriété P (condition nécessaire), et si x a la propriété P, alors il appartient à la classe C (condition suffisante). Deux méthodes de fouille de données complémentaires nous permettent de matérialiser la découverte de définitions, la fouille de règles d'association et la fouille de redescriptions. Dans le mémoire, nous présentons d'abord un état de l'art sur les règles d'association et les redescriptions. Ensuite, nous proposons une adaptation de chacune des méthodes pour finaliser la tâche de découverte de définitions. Puis nous détaillons un ensemble d'expérimentations menées sur DBpedia, où nous comparons qualitativement et quantitativement les deux approches. Enfin les définitions découvertes peuvent potentiellement être ajoutées à DBpedia pour améliorer sa qualité en termes de cohérence et de complétud

    Fouille de données multidimensionnelles : différentes stratégies pour prendre en compte la mesure

    Get PDF
    National audienceLes entrepôts de données contiennent de gros volumes de données historisées stockées à des fins d'analyse. Des techniques d'extraction de motifs séquentiels multidimensionnels ont été développées afin de mettre en exergue des corrélations entre des positions sur des dimensions au cours du temps. Même si ces méthodes offrent une meilleure appréhension des données sources en prenant en compte certaines spécificités des cubes de données (e.g. multidimensionnalité, hiérarchies, relation d'ordre), aucune méthode ne permet de prendre directement en compte la valeurs des agrégats (mesure) dans l'extraction des motifs. Dans cet article, nous définissons deux méthodes de comptage du support d'une séquence multidimensionnelle en s'appuyant sur les valeurs des agrégats des cellules qui supportent cette séquence. Des expérimentations sont décrites et montrent l'intérêt de notre proposition
    • …
    corecore