6 research outputs found

    Understanding the Evaluation Abilities of External Cluster Validity Indices to Internal Ones

    Get PDF
    Evaluating internal Cluster Validity Index (CVI) is a critical task in clustering research. Existing studies mainly employ the number of clusters (NC-based method) or external CVIs (external CVIs-based method) to evaluate internal CVIs, which are not always reasonable in all scenarios. Additionally, there is no guideline of choosing appropriate methods to evaluate internal CVIs in different cases. In this paper, we focus on the evaluation abilities of external CVIs to internal CVIs, and propose a novel approach, named external CVI\u27s evaluation Ability MEasurement approach through Ranking consistency (CAMER), to measure the evaluation abilities of external CVIs quantitatively, for assisting in selecting appropriate external CVIs to evaluate internal CVIs. Specifically, we formulate the evaluation ability measurement problem as a ranking consistency task, by measuring the consistency between the evaluation results of external CVIs to internal CVIs and the ground truth performance of internal CVIs. Then, the superiority of CAMER is validated through a real-world case. Moreover, the evaluation abilities of seven popular external CVIs to internal CVIs in six different scenarios are explored by CAMER. Finally, these explored evaluation abilities are validated on four real-world datasets, demonstrating the effectiveness of CAMER

    CUBOS: An Internal Cluster Validity Index for Categorical Data

    Get PDF
    Internal cluster validity index is a powerful tool for evaluating clustering performance. The study on internal cluster validity indices for categorical data has been a challenging task due to the difficulty in measuring distance between categorical attribute values. While some efforts have been made, they ignore the relationship between different categorical attribute values and the detailed distribution information between data objects. To solve these problems, we propose a novel index called Categorical data cluster Utility Based On Silhouette (CUBOS). Specifically, we first make clear the superiority of the paradigm of Silhouette index in exploring the details of clustering results. Then, we raise the Improved Distance metric for Categorical data (IDC) inspired by Category Distance to measure distance between categorical data exactly. Finally, the paradigm of Silhouette index and IDC are combined to construct the CUBOS, which can overcome the aforementioned shortcomings and produce more accurate evaluation results than other baselines, as shown by the experimental results on several UCI datasets

    Geo-Information Technology and Its Applications

    Get PDF
    Geo-information technology has been playing an ever more important role in environmental monitoring, land resource quantification and mapping, geo-disaster damage and risk assessment, urban planning and smart city development. This book focuses on the fundamental and applied research in these domains, aiming to promote exchanges and communications, share the research outcomes of scientists worldwide and to put these achievements better social use. This Special Issue collects fourteen high-quality research papers and is expected to provide a useful reference and technical support for graduate students, scientists, civil engineers and experts of governments to valorize scientific research

    Estimation parcimonieuse et apprentissage de dictionnaires pour la détection d'anomalies multivariées dans des données mixtes de télémesure satellites

    Get PDF
    La surveillance automatique de systèmes et la prévention des pannes sont des enjeux majeurs dans de nombreux secteurs et l'industrie spatiale ne fait pas exception. Par exemple, le succès des missions des satellites suppose un suivi constant de leur état de santé réalisé à travers la surveillance de la télémesure. Les signaux de télémesure sont des données issues de capteurs embarqués qui sont reçues sous forme de séries temporelles décrivant l'évolution dans le temps de différents paramètres. Chaque paramètre est associé \`a une grandeur physique telle qu'une température, une tension ou une pression, ou à un équipement dont il reporte le fonctionnement à chaque instant. Alors que les approches classiques de surveillance atteignent leurs limites, les méthodes d'apprentissage automatique (machine learning en anglais) s'imposent afin d'améliorer la surveillance de la télémesure via un apprentissage semi-supervisé: les signaux de télémesure associés à un fonctionnement normal du système sont appris pour construire un modèle de référence auquel sont comparés les signaux de télémesure récemment acquis. Les méthodes récentes proposées dans la littérature ont permis d'améliorer de manière significative le suivi de l'état de santé des satellites mais elles s'intéressent presque exclusivement à la détection d'anomalies univariées pour des paramètres physiques traités indépendamment. L'objectif de cette thèse est de proposer des algorithmes pour la détection d'anomalies multivariées capables de traiter conjointement plusieurs paramètres de télémesure associés à des données de différentes natures (continues/discrètes), et de prendre en compte les corrélations et les relations qui peuvent exister entre eux. L'idée motrice de cette thèse est de supposer que la télémesure fraîchement reçue peut être estimée à partir de peu de données décrivant un fonctionnement normal du satellite. Cette hypothèse justifie l'utilisation de méthodes d'estimation parcimonieuse et d'apprentissage de dictionnaires qui seront étudiées tout au long de cette thèse. Une deuxième forme de parcimonie propre aux anomalies satellites a également motivé ce choix, à savoir la rareté des anomalies satellites qui affectent peu de paramètres en même temps. Dans un premier temps, un algorithme de détection d'anomalies multivariées basé sur un modèle d'estimation parcimonieuse est proposé. Une extension pondérée du modèle permettant d'intégrer de l'information externe est également présentée ainsi qu'une méthode d'estimation d'hyperparamètres qui a été developpée pour faciliter la mise en œuvre de l'algorithme. Dans un deuxième temps, un modèle d'estimation parcimonieuse avec un dictionnaire convolutif est proposé. L'objectif de cette deuxième méthode est de contourner le problème de non-invariance par translation dont souffre le premier algorithme. Les différentes méthodes proposées sont évaluées sur plusieurs cas d'usage industriels associés à de réelles données satellites et sont comparées aux approches de l'état de l'art
    corecore