5 research outputs found

    Information retrieval and mining in high dimensional databases

    Get PDF
    This dissertation is composed of two parts. In the first part, we present a framework for finding information (more precisely, active patterns) in three dimensional (3D) graphs. Each node in a graph is an undecoraposable or atomic unit and has a label. Edges are links between the atomic units. Patterns are rigid substructures that may occur in a graph after allowing for an arbitrary number of whole-structure rotations and translations as well as a small number (specified by the user) of edit operations in the patterns or in the graph. (When a pattern appears in a graph only after the graph has been modified, we call that appearance approximate occurrence. ) The edit operations include relabeling a node, deleting a node and inserting a node. The proposed method is based on the geometric hashing technique, which hashes node-triplets of the graphs into a 3D table and compresses the label-triplets in the table. To demonstrate the utility of our algorithms, we discuss two applications of them in scientific data mining. First, we apply the method to locating frequently occurring motifs in two families of proteins pertaining to RNA-directed DNA Polymerase and Thymidylate Synthase, and use the motifs to classify the proteins. Then we apply the method to clustering chemical compounds pertaining to aromatic, bicyclicalkanes and photosynthesis. Experimental results indicate the good performance of our algorithms and high recall and precision rates for both classification and clustering. We also extend our algorithms for processing a class of similarity queries in databases of 3D graphs. In the second part of the dissertation, we present an index structure, called MetricMap, that takes a set of objects and a distance metric and then maps those objects to a k-dimensional pseudo-Euclidean space in such a way that the distances among objects are approximately preserved. Our approach employs sampling and the calculation of eigenvalues and eigenvectors. The index structure is a useful tool for clustering and visualization in data intensive applications, because it replaces expensive distance calculations by sum-of-square calculations. This can make clustering in large databases with expensive distance metrics practical. We compare the index structure with another data mining index structure, FastMap, proposed by Faloutsos and Lin, according to two criteria: relative error and clustering accuracy. For relative error, we show that (i) FastMap gives a lower relative error than MetrieMap for Euclidean distances, (ii) MetricMap gives a lower relative error than Fast Map for non-Euclidean distances (i.e., general distance metrics), and (iii) combining the two reduces the error yet further. A similar result is obtained when comparing the accuracy of clustering. These results hold for different data sizes. The main qualitative conclusion is that these two index structures capture complenleiltary information about distance metrics and therefore can be used together to great benefit. The net effect is that multi-day computations can be done in minutes. We have implemented the proposed algorithms and the MetricMap index structure into a toolkit. This toolkit will be useful for data mining, visualization, and approximate retrieval in scientific, multimedia and high dimensional databases

    Analyse multidimensionnelle interactive de résultats de simulation (aide à la décision dans le domaine de l'agroécologie)

    Get PDF
    Dans cette thèse, nous nous sommes intéressés à l'analyse des données de simulation issues du modèle agro-hydrologique TNT. Les objectifs consistaient à élaborer des méthodes d'analyse des résultats de simulation qui replacent l'utilisateur au coeur du processus décisionnel, et qui permettent d'analyser et d'interpréter de gros volumes de données de manière efficace. La démarche développée consiste à utiliser des méthodes d'analyse multidimensionnelle interactive. Tout d'abord, nous avons proposé une méthode d'archivage des résultats de simulation dans une base de données décisionnelle (i.e. entrepôt de données), adaptée au caractère spatio-temporel des données de simulation produites. Ensuite, nous avons suggéré d'analyser ces données de simulations avec des méthodes d'analyse en ligne (OLAP) afin de fournir aux acteurs des informations stratégiques pour améliorer le processus d'aide à la prise de décision. Enfin, nous avons proposé deux méthodes d'extraction de skyline dans le contexte des entrepôts de données afin de permettre aux acteurs de formuler de nouvelles questions en combinant des critères environnementaux contradictoires, et de trouver les solutions compromis associées à leurs attentes, puis d'exploiter les préférences des acteurs pour détecter et faire ressortir les données susceptibles de les intéresser. La première méthode EC2Sky, permet un calcul incrémental et efficace des skyline en présence de préférences utilisateurs dynamiques, et ce malgré de gros volumes de données. La deuxième méthode HSky, étend la recherche des points skyline aux dimensions hiérarchiques. Elle permet aux utilisateurs de naviguer le long des axes des dimensions hiérarchiques (i.e. spécialisation / généralisation) tout en assurant un calcul en ligne des points skyline correspondants. Ces contributions ont été motivées et expérimentées par l'application de gestion des pratiques agricoles pour l'amélioration de la qualité des eaux des bassins versants agricoles, et nous avons proposé un couplage entre le modèle d'entrepôt de données agro-hydrologiques construit et les méthodes d'extraction de skyline proposées.This thesis concerns the analysis of simulation data generated by the agrohydrological model TNT. Our objective is to develop analytical methods for massive simulation results. We want to place the user at the heart of the decision-making process, while letting him handle and analyze large amounts of data in a very efficient way. Our first contribution is an original approach N-Catch, relying on interactive multidimensional analysis methods for archiving simulation results in a decisional database (i.e. data warehouse) adapted to the spatio-temporal nature of the simulation data. In addition, we suggest to analyze the simulation data with online analytical methods (OLAP) to provide strategic information for stakeholders to improve the decision making process. Our second contribution concern two methods for computing skyline queries in the context of data warehouses. These methods enable stakeholders to formulate new questions by combining conflicting environmental criteria, to find compromise solutions associated with their expectations, and to exploit the stakeholder preferences to identify and highlight the data of potential interest. The first method EC2Sky, focuses on how to answer efficiently and progressively skyline queries in the presence of several dynamic user preferences despite of large volume of data. The second method HSky, extends the skyline computation to hierarchical dimensions. It allows the user to navigate along the dimensions hierarchies (i.e. specialize / generalize) while ensuring the online computation of associated skylines. Finally, we present the application of our proposals for managing agricultural practices to improve water quality in agricultural watersheds. We propose a coupling between the agro-hydrological data warehouse model N-Catch and the proposed skyline computation methods.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Analyse multidimensionnelle interactive de résultats de simulation (aide à la décision dans le domaine de l'agroécologie)

    Get PDF
    Dans cette thèse, nous nous sommes intéressés à l'analyse des données de simulation issues du modèle agro-hydrologique TNT. Les objectifs consistaient à élaborer des méthodes d'analyse des résultats de simulation qui replacent l'utilisateur au coeur du processus décisionnel, et qui permettent d'analyser et d'interpréter de gros volumes de données de manière efficace. La démarche développée consiste à utiliser des méthodes d'analyse multidimensionnelle interactive. Tout d'abord, nous avons proposé une méthode d'archivage des résultats de simulation dans une base de données décisionnelle (i.e. entrepôt de données), adaptée au caractère spatio-temporel des données de simulation produites. Ensuite, nous avons suggéré d'analyser ces données de simulations avec des méthodes d'analyse en ligne (OLAP) afin de fournir aux acteurs des informations stratégiques pour améliorer le processus d'aide à la prise de décision. Enfin, nous avons proposé deux méthodes d'extraction de skyline dans le contexte des entrepôts de données afin de permettre aux acteurs de formuler de nouvelles questions en combinant des critères environnementaux contradictoires, et de trouver les solutions compromis associées à leurs attentes, puis d'exploiter les préférences des acteurs pour détecter et faire ressortir les données susceptibles de les intéresser. La première méthode EC2Sky, permet un calcul incrémental et efficace des skyline en présence de préférences utilisateurs dynamiques, et ce malgré de gros volumes de données. La deuxième méthode HSky, étend la recherche des points skyline aux dimensions hiérarchiques. Elle permet aux utilisateurs de naviguer le long des axes des dimensions hiérarchiques (i.e. spécialisation / généralisation) tout en assurant un calcul en ligne des points skyline correspondants. Ces contributions ont été motivées et expérimentées par l'application de gestion des pratiques agricoles pour l'amélioration de la qualité des eaux des bassins versants agricoles, et nous avons proposé un couplage entre le modèle d'entrepôt de données agro-hydrologiques construit et les méthodes d'extraction de skyline proposées.This thesis concerns the analysis of simulation data generated by the agrohydrological model TNT. Our objective is to develop analytical methods for massive simulation results. We want to place the user at the heart of the decision-making process, while letting him handle and analyze large amounts of data in a very efficient way. Our first contribution is an original approach N-Catch, relying on interactive multidimensional analysis methods for archiving simulation results in a decisional database (i.e. data warehouse) adapted to the spatio-temporal nature of the simulation data. In addition, we suggest to analyze the simulation data with online analytical methods (OLAP) to provide strategic information for stakeholders to improve the decision making process. Our second contribution concern two methods for computing skyline queries in the context of data warehouses. These methods enable stakeholders to formulate new questions by combining conflicting environmental criteria, to find compromise solutions associated with their expectations, and to exploit the stakeholder preferences to identify and highlight the data of potential interest. The first method EC2Sky, focuses on how to answer efficiently and progressively skyline queries in the presence of several dynamic user preferences despite of large volume of data. The second method HSky, extends the skyline computation to hierarchical dimensions. It allows the user to navigate along the dimensions hierarchies (i.e. specialize / generalize) while ensuring the online computation of associated skylines. Finally, we present the application of our proposals for managing agricultural practices to improve water quality in agricultural watersheds. We propose a coupling between the agro-hydrological data warehouse model N-Catch and the proposed skyline computation methods.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Open GIS and on-line environmental libraries

    No full text
    corecore