50 research outputs found

    Fouille de données complexes : des relevés terrain aux données satellitaires pour la cartographie de paysages agricoles

    Get PDF
    National audienceDans cet article, nous présentons une approche préliminaire de caractérisation des paysages ruraux et de leurs systèmes de culture à partir de techniques de fouille de données (recherche d'itemsets fréquents). Cette méthode permet de coupler des données de relevé terrain aux indicateurs de texture extraits des images satellites. Sa mise en œuvre sur des données associées au Mali pose les premières bases d'une méthode originale d'extraction de motifs séquentiels à partir de données complexes

    Fouille de données complexes et biclustering avec l'analyse formelle de concepts

    Get PDF
    Knowledge discovery in database (KDD) is a process which is applied to possibly large volumes of data for discovering patterns which can be significant and useful. In this thesis, we are interested in data transformation and data mining in knowledge discovery applied to complex data, and we present several experiments related to different approaches and different data types.The first part of this thesis focuses on the task of biclustering using formal concept analysis (FCA) and pattern structures. FCA is naturally related to biclustering, where the objective is to simultaneously group rows and columns which verify some regularities. Related to FCA, pattern structures are its generalizations which work on more complex data. Partition pattern structures were proposed to discover constant-column biclustering, while interval pattern structures were studied in similar-column biclustering. Here we extend these approaches to enumerate other types of biclusters: additive, multiplicative, order-preserving, and coherent-sign-changes.The second part of this thesis focuses on two experiments in mining complex data. First, we present a contribution related to the CrossCult project, where we analyze a dataset of visitor trajectories in a museum. We apply sequence clustering and FCA-based sequential pattern mining to discover patterns in the dataset and to classify these trajectories. This analysis can be used within CrossCult project to build recommendation systems for future visitors. Second, we present our work related to the task of antibacterial drug discovery. The dataset for this task is generally a numerical matrix with molecules as rows and features/attributes as columns. The huge number of features makes it more complex for any classifier to perform molecule classification. Here we study a feature selection approach based on log-linear analysis which discovers associations among features.As a synthesis, this thesis presents a series of different experiments in the mining of complex real-world data.L'extraction de connaissances dans les bases de données (ECBD) est un processus qui s'applique à de (potentiellement larges) volumes de données pour découvrir des motifs qui peuvent être signifiants et utiles. Dans cette thèse, on s'intéresse à deux étapes du processus d'ECBD, la transformation et la fouille, que nous appliquons à des données complexes. Nous présentons de nombreuses expérimentations s'appuyant sur des approches et des types de données variés.La première partie de cette thèse s'intéresse à la tâche de biclustering en s'appuyant sur l'analyse formelle de concepts (FCA) et aux pattern structures. FCA est naturellement liées au biclustering, dont l'objectif consiste à grouper simultanément un ensemble de lignes et de colonnes qui vérifient certaines régularités. Les pattern structures sont une généralisation de la FCA qui permet de travailler avec des données plus complexes. Les "partition pattern structures'' ont été proposées pour du biclustering à colonnes constantes tandis que les "interval pattern structures'' ont été étudiées pour du biclustering à colonnes similaires. Nous proposons ici d'étendre ces approches afin d'énumérer d'autres types de biclusters : additif, multiplicatif, préservant l'ordre, et changement de signes cohérents.Dans la seconde partie, nous nous intéressons à deux expériences de fouille de données complexes. Premièrement, nous présentons une contribution dans la quelle nous analysons les trajectoires des visiteurs d'un musée dans le cadre du projet CrossCult. Nous utilisons du clustering de séquences et de la fouille de motifs séquentiels basée sur l'analyse formelle de concepts pour découvrir des motifs dans les données et classifier les trajectoires. Cette analyse peut ensuite être exploitée par un système de recommandation pour les futurs visiteurs. Deuxièmement, nous présentons un travail sur la découverte de médicaments antibactériens. Les jeux de données pour cette tâche, généralement des matrices numériques, décrivent des molécules par un certain nombre de variables/attributs. Le grand nombre de variables complexifie la classification des molécules par les classifieurs. Ici, nous étudions une approche de sélection de variables basée sur l'analyse log-linéaire qui découvre des associations entre variables.En somme, cette thèse présente différentes expériences de fouille de données réelles et complexes

    Context-Aware Adaptive System For M- Learning Personalization

    No full text
    International audienceContext-aware mobile learning is becoming important because of the dynamic and continually changing learning settings in learner's mobile environment, giving rise to many different learning contexts that are difficult to apprehend. To provide personalization of learning content, we aim to develop a recommender system based on semantic modeling of learning contents and learning context. This modeling is complemented by a behavioral part made up of rules and metaheuristics used to optimize the combination of pieces of learning contents according to learner's context. All these elements form a new approach to mobile learning

    Exploitation des données de la cohorte STANISLAS par des techniques de fouille de données numériques et symboliques utilisées seules ou en combinaison

    Get PDF
    La cohorte STANISLAS est une population de familles d'origine française supposées saines, recrutées au Centre de Médecine Préventive de Vandoeuvre-lès-Nancy et suivies tous les cinq ans sur une période de dix ans. Les données de la cohorte, de types numérique et textuel, représentent une richesse et un volume considérables, exploitées jusque là par des méthodes statistiques classiques. Nous proposons d'étudier ces données par des techniques de fouille de données numériques et symboliques, en nous intéressant plus exactement à l'étude du syndrome métabolique dans la cohorte STANISLAS, une affection correspondant à la présence simultanée chez un individu de plusieurs facteurs de risques cardiovasculaires. Nous présentons ici nos recherches en cours sur ce domaine, qui font intervenir l'utilisation de la boîte à outils Weka et de J-Close, une implémentation en Java d'un algorithme d'extraction de motifs fréquents et de règles d'association. Ultérieurement nous projetons le couplage d'un module de classification de Weka avec J-Close

    Arquitectura conceptual para combinar los procesos de data warehousing y data mining basada en objetos simbólicos

    Get PDF
    Este trabajo presenta una arquitectura conceptual para la combinación de los procesos de Data Warehousing con el Data Mining por medio de objetos simbólicos. En los últimos años, las empresas han recopilado una cantidad muy importante de datos, es deseable organizarlos para coordinar las tareas de análisis con la intención de mejorar los Procesos de Toma de decisiones. La organización de datos es realizada con la implementación de un Data Warehouse. En el cual, la información es seleccionada, limpiada y enriquecida; debido a ello es posible integrar varias fuentes e incluir el conocimiento propio del negocio, también llamado conocimiento contextual. De este punto de vista, extraer el conocimiento potencialmente valioso de los volúmenes masivos de datos coleccionados por sistemas operacionales es un desafío siendo modelado por objetos simbólicos. Los cuales, representan los principales conceptos que definen el negocio u organización. De esta manera, mejoramos la Gestión del Conocimiento, ya que el conocimiento implícito en las mentes de los miembros de la organización es transformado en explicito bajo el formalismo de objetos simbólicos.II Workshop de Ingeniería de Software y Bases de Datos (WISBD)Red de Universidades con Carreras en Informática (RedUNCI

    Arquitectura conceptual para combinar los procesos de data warehousing y data mining basada en objetos simbólicos

    Get PDF
    Este trabajo presenta una arquitectura conceptual para la combinación de los procesos de Data Warehousing con el Data Mining por medio de objetos simbólicos. En los últimos años, las empresas han recopilado una cantidad muy importante de datos, es deseable organizarlos para coordinar las tareas de análisis con la intención de mejorar los Procesos de Toma de decisiones. La organización de datos es realizada con la implementación de un Data Warehouse. En el cual, la información es seleccionada, limpiada y enriquecida; debido a ello es posible integrar varias fuentes e incluir el conocimiento propio del negocio, también llamado conocimiento contextual. De este punto de vista, extraer el conocimiento potencialmente valioso de los volúmenes masivos de datos coleccionados por sistemas operacionales es un desafío siendo modelado por objetos simbólicos. Los cuales, representan los principales conceptos que definen el negocio u organización. De esta manera, mejoramos la Gestión del Conocimiento, ya que el conocimiento implícito en las mentes de los miembros de la organización es transformado en explicito bajo el formalismo de objetos simbólicos.II Workshop de Ingeniería de Software y Bases de Datos (WISBD)Red de Universidades con Carreras en Informática (RedUNCI

    Extraction de données pharmacogénomiques à partir d'études cliniques : problématique

    Get PDF
    L'importance des variations individuelles dans les réactions aux médicaments devient un problème conséquent à la fois au niveau de la recherche pharmaceutique et au niveau médical. Notre projet de recherche vise à intégrer des données cliniques et génétiques issues d'études cliniques avec comme objectif d'en extraire une connaissance sur les relations existantes entre un génotype particulier et son action sur l'effet d'un médicament. Pour répondre à ce problème, nous cherchons des méthodes de fouille adaptées aux données biomédicales que nous souhaitons manipuler et capables d'intégrer les connaissances du domaine sous forme d'ontologie. Ce projet est l'objet d'une thèse qui a commencé en novembre 2004

    La confiance est dans l'air ! Application à l'identification des parcours hospitaliers

    Get PDF
    National audienceL'extraction de motifs séquentiels permet d'identifier les séquences fréquentes d'événements ordonnés. Afin de résoudre le problème du grand nombre de motifs obtenus, nous proposons l'extension pour les motifs séquentiels de la confiance, mesure d'intérêt utilisée classiquement pour sélectionner les règles d'association. Dans cet article, après avoir présenté les données, nous définirons formellement la notion de confiance appliquée aux motifs séquentiels. Nous appliquerons cette mesure pour identifier des trajectoires hospitalières, représentées par les motifs séquentiels, dans des données issues du PMSI (Programme de Médicalisation des Systèmes d'Information). Nous nous sommes focalisés sur un cas d'étude hospitalière : l'infarctus du myocarde (IM), et notamment la prédiction de la trajectoire des patients ayant eu un IM entre 2009 et 2013. Les résultats obtenus ont été soumis à un spécialiste pour discussion et validation
    corecore