22 research outputs found

    Maximisation de l'association par regroupement de lignes ou de colonnes d'un tableau croisé

    Get PDF
    The strength of association between the row and column variables in a crosstable varies with the level of aggregation of each variable. In many settings such as the simultaneous discretization of two variables, it is useful to determine the aggregation level that maximizes the association. The main association measures with respect to aggregation of rows and columns are studied and permits a heuristic algorithm to (quasi-)maximize the association through aggregation. Simulations carried out to investigate the reliability of the algorithm are presented.L'intensité de l'association entre la variable ligne et la variable colonne d'un tableau croisé varie avec le regroupement de catégories. Dans plusieurs contextes, comme la discrétisation simultanée de deux variables, il importe de déterminer le niveau de regroupement qui maximise l'association. Les principales mesures d'association suite à une agrégation de lignes ou de colonnes sont étudiées et une heuristique permet de déterminer le regroupement qui (quasi-)maximise le degré d'association. Des simulations comparant les quasi-optima aux vrais optima servent à évaluer la fiabilité de l'algorithme proposé

    ONTOLOGY DRIVEN ACCESS TO MUSEUM INFORMATION

    Get PDF
    Cultural Heritage documents deal with objects/artifacts and the people that created, owned, used, or (re)discovered them. Their fates are intertwined in unique and complex stories forming a cumulative body of knowledge, often fragmented across large online document collections. While our collective memory has explicitly documented these stories, the heterogeneity and distribution of the available sources creates islands of information that can only be implicitly connected by a limited, expert audience. This paper presents a semantically consistent framework for the online presence of Cultural Heritage document collections, set upon a participatory centre stage and supported by a shared knowledge model, the CIDOC CRM ontology. In this framework, Cultural Heritage document contributors are peer-to-peer network nodes that beneĂž t from: a schema-based network topology; a transparent, self-organised, self-optimised network infrastructure; knowledge-rich document processing modules which analyse and classify each contribution, capture the notion of time and the unfolding of events spanning a single or multiple documents, and establish meaning connectivity over the entire collection. Overall, this framework assists a scholarly audience with the exploration of online distributed Cultural Heritage document collections, and offers an informed tap into the collective memory scattered therein. Cultural Heritage documents deal with objects/ artifacts and the people that created, owned, used, or (re)discovered them. Their fates are intertwined in unique and complex stories forming a cumulative body of knowledge, often fragmented across online document collections. While our collective memory has explicitly documented these stories, the heterogeneity of the available sources creates islands of information that can only be implicitly connected by a limited, expert audience. This paper presents a semantically consistent framework for the online presence of Cultural Heritage document collections, set upon a participatory centre stage and supported by a shared knowledge model. In this framework, Cultural Heritage document contributors beneĂž t from knowledgerich document processing modules which analyse and classify each contribution, capture the notion of time and the unfolding of events spanning a single or multiple documents, and establish meaning connectivity over the entire collection. Overall, this framework assists a scholarly audience with the exploration of online Cultural Heritage document collections, and offers an informed tap into the collective memory scattered therein

    Structures pretopologiques et classification automatique : le logiciel DEMON

    No full text
    SIGLECNRS T Bordereau / INIST-CNRS - Institut de l'Information Scientifique et TechniqueFRFranc

    Apprentissage non supervisé et extraction de connaissances à partir de données

    No full text
    Les travaux constituant cette dissertation concernent la classification non supervisée. Cette problématique, commune à de multiples domaines (et ainsi connue sous diverses acceptions : apprentissage/classification non supervisé(e) en reconnaissance de formes, taxonomie en sciences de la vie, typologie en sciences humaines...), est ici envisagée selon la perspective Ingénierie des Connaissances et plus spécifiquement dans le cadre de son intégration au sein du processus dExtraction de Connaissances à partir de Données (ECD).D'une part, nos travaux participent à l'amélioration du processus de classification non supervisée, et ce, selon divers axes propres ou non à l'ECD (coût calculatoire et utilisabilité des méthodes, formes et distribution des données traitées, forme des connaissances extraites, sélection de variables pour l'apprentissage non supervisé...) mais aussi à l'évaluation de la qualité d'un processus de classification non supervisée (estimation de la validité des résultats issus du processus). D'autre part ces travaux visent à illustrer le lien très étroit unissant apprentissage non supervisé et apprentissage supervisé et à monter l'intérêt d'une intéraction antre ces deux types de processus. Concrètement, ces divers problèmes sont abordé et présentés au travers d'une nouvelle méthode de classification non supervisée, de deux nouveaux indices et d'une méthodologie dédiés à l'évaluation/comparaison de la validité de classification non superviséé, de méthodes de sélection de variables pour l'apprentissage non supervisé et l'apprentissage supervisé, de plusieurs méthodes pour l'agrégation de classification non supervisée.LYON2/BRON-BU (690292101) / SudocLENS-CRIL (624982203) / SudocSudocFranceF

    Contribution à la classification non supervisée (proposition d'une méthode de bi-partitionnement)

    No full text
    Les méthodes de classification non supervisée sont des outils de fouille de données qui visent à identifier des groupes d'objets similaires par rapport aux valeurs qu'ils prennent sur les différentes variables. Les méthodes dites "conceptuelles" adjoignent à la partition une "interprétation" des classes en fonction des valeurs des variables présentes dans chacune des classes. Nous proposons unalgorithme fondé sur ce principe. Il produit un couple de partitions liées, appelé bi-partition, constitué d'une partition des objets et d'une partition des modalités de variables. Le tableau de données est ainsi structuré du point de vue des objets et des variables. L'ajustement d'une partition à l'autre permet de déterminer automatiquement le nombre de classes des partitions. Nous proposons d'évaluer le lien entre ces deux partitions à l'aide d'une mesure d'association adaptée à la structure recherchée. Nous optimisons cette fonction objective avec un algorithme de recherche locale. Des applications sur des benchmarks montrent que les résultats sont cohérents avec ceux obtenus par d'autres méthodes et que la partition de l'ensemble des modalités constitue un outil précieux pour l'interprétation. Afin de justifier les choix ayant conduit à lélaboration de cette méthode, nous proposons une méthodologie de comparaison d'algorithmes de classifacation basée sur l'évaluation d'une distance entre deux partitions.LYON1-BU.Sciences (692662101) / SudocSudocFranceF

    Approche méthodologique de sélection et construction de variables pour l'amélioration du processus d'extraction des connaissances à partir de grandes bases de données

    No full text
    De nos jours, du fait de la présence de grandes bases de données, l'amélioration de la qualité de représentation des données est au centre des préoccupations. Deux types de transformation de variables permettent d'extraire la connaissance pertinente à partir des données. La sélection de variables est un processus qui choisit un sous-ensemble optimal de variables en fonction d'un critère particulier et qui réduit l'espace des variables en supprimant les variables non pertinentes. Cette transformation permet la réduction de l'espace de représentation, l'élimination du bruit et l'élimination de la redondance. Nous proposons une méthode de sélection de variables hybride entre approche enveloppe et approche filtre qui utilise une méthode d'agrégation de préférences. La méthode d'agrégation nous permet d'obtenir une liste triée par ordre d'importance de sous-ensemble de variables grâce à l'agrégation d'un ensemble de critère myope. La construction de variables est un processus qui découvre les informations manquantes dans une relation entre variables et qui augmente l'espace des variables en créant des variables supplémentaires. Lors du processus de construction de variables, un ensemble d'opérateurs est appliqué à un ensemble de variables existantes, débouchant sur la construction d'une ou plusieurs nouvelles variables. Nous proposons de construire de nouvelles variables grâce à la découverte de la structure sous-jacente des données, c'est à dire en travaillant sur les modalités des variables. En effet, Il nous paraît plus pertinent de se concentrer sur les relations existants entre modalités de variables plutôt que sur les relations entre variables elles même.LYON2/BRON-BU (690292101) / SudocSudocFranceF

    Optimization and datamining for catalysts library design

    No full text
    For designing and screening virtual libraries of catalysts, computer techniques are used. The most current difficulties encountered can be overtopped with the help of meta modeling algorithms. In this thesis, we precisely describe these methods that hybridize optimization with data mining. Computer experiments demonstrate the superiority of meta modeling compared to classic methods. Moreover, on the basis of several case studies, we explain how to tune efficiently optimization and learning parameters. Conclusions prove this technique is very efficient for virtual library design : important guidelines are found and costs are minimized. For obtaining these results, we developed the OptiCat software. Thanks to an intuitive graphical user interface, the user can easily tune and run the most complex optimization algorithms within seconds. OptiCat and its source code are downloadable free of charge at http://chirouble.univ-lyon2.fr/~fclerc/Afin de créer et de prédire le comportement de bibliothèques de catalyseurs, on utilise des techniques informatiques. Les difficultés couramment rencontrées peuvent être résolues grâce à des algorithmes de méta modélisation. Nous décrivons précisément ces algorithmes qui consistent en l'hybridation de méthodes d'optimisation et d'extraction des connaissances. Plusieurs cas d'étude nous permettent d'expliquer comment les paramétrer efficacement selon le cas. Les conclusions démontrent que la méta modélisation est une technique efficace pour créer des bibliothèques virtuelles prometteuses. Pour obtenir l'ensemble de ces résultats, nous avons développé le logiciel OptiCat. Grâce à une interface utilisateur intuitive, OptiCat permet de construire et d'utiliser les algorithmes d'optimisation les plus complexes en quelques secondes. OptiCat et son code source sont distribués gratuitement à l'adresse hpp://chirouble.univ-lyon2.fr/~fclerc/LYON1-BU.Sciences (692662101) / SudocSudocFranceF

    Optimization and datamining for catalysts library design

    No full text
    For designing and screening virtual libraries of catalysts, computer techniques are used. The most current difficulties encountered can be overtopped with the help of meta modeling algorithms. In this thesis, we precisely describe these methods that hybridize optimization with data mining. Computer experiments demonstrate the superiority of meta modeling compared to classic methods. Moreover, on the basis of several case studies, we explain how to tune efficiently optimization and learning parameters. Conclusions prove this technique is very efficient for virtual library design : important guidelines are found and costs are minimized. For obtaining these results, we developed the OptiCat software. Thanks to an intuitive graphical user interface, the user can easily tune and run the most complex optimization algorithms within seconds. OptiCat and its source code are downloadable free of charge at http://chirouble.univ-lyon2.fr/~fclerc/Afin de créer et de prédire le comportement de bibliothèques de catalyseurs, on utilise des techniques informatiques. Les difficultés couramment rencontrées peuvent être résolues grâce à des algorithmes de méta modélisation. Nous décrivons précisément ces algorithmes qui consistent en l'hybridation de méthodes d'optimisation et d'extraction des connaissances. Plusieurs cas d'étude nous permettent d'expliquer comment les paramétrer efficacement selon le cas. Les conclusions démontrent que la méta modélisation est une technique efficace pour créer des bibliothèques virtuelles prometteuses. Pour obtenir l'ensemble de ces résultats, nous avons développé le logiciel OptiCat. Grâce à une interface utilisateur intuitive, OptiCat permet de construire et d'utiliser les algorithmes d'optimisation les plus complexes en quelques secondes. OptiCat et son code source sont distribués gratuitement à l'adresse hpp://chirouble.univ-lyon2.fr/~fclerc/LYON1-BU.Sciences (692662101) / SudocSudocFranceF
    corecore