1,504 research outputs found

    Determining the number of clusters and distinguishing overlapping clusters in data analysis

    Get PDF
    Le processus de Clustering permet de construire une collection d’objets (clusters) similaires au sein d’un même groupe, et dissimilaires quand ils appartiennent à des groupes différents. Dans cette thèse, on s’intéresse a deux problèmes majeurs d’analyse de données: 1) la détermination automatique du nombre de clusters dans un ensemble de données dont on a aucune information sur les structures qui le composent; 2) le phénomène de recouvrement entre les clusters. La plupart des algorithmes de clustering souffrent du problème de la détermination du nombre de clusters qui est souvent laisse à l’utilisateur. L’approche classique pour déterminer le nombre de clusters est basée sur un processus itératif qui minimise une fonction objectif appelé indice de validité. Notre but est de: 1) développer un nouvel indice de validité pour mesurer la qualité d’une partition, qui est le résultat d’un algorithme de clustering; 2) proposer un nouvel algorithme de clustering flou pour déterminer automatiquement le nombre de clusters. Une application de notre nouvel algorithme est présentée. Elle consiste à la sélection des caractéristiques dans une base de données. Le phénomène de recouvrement entre les clusters est un des problèmes difficile dans la reconnaissance de formes statistiques. La plupart des algorithmes de clustering ont des difficultés à distinguer les clusters qui se chevauchent. Dans cette thèse, on a développé une théorie qui caractérise le phénomène de recouvrement entre les clusters dans un modèle de mélange Gaussien d’une manière formelle. À partir de cette théorie, on a développé un nouvel algorithme qui calcule le degré de recouvrement entre les clusters dans le cas multidimensionnel. Dans ce cadre précis, on a étudié les facteurs qui affectent la valeur théorique du degré de recouvrement. On a démontré comment cette théorie peut être utilisée pour la génération des données de test valides et concrètes pour une évaluation objective des indices de validité pax rapport à leurs capacités à distinguer les clusters qui se chevauchent. Finalement, notre théorie est utilisable dans une application de segmentation des images couleur en utilisant un algorithme de clustering hiérarchique

    Finding and Visualizing Relevant Subspaces for Clustering High-Dimensional Astronomical Data Using Connected Morphological Operators

    Get PDF
    Data sets in many scientific areas are growing to enormous sizes. For example, modern astronomical surveys provide not only image data but also catalogues of millions of objects (stars, galaxies), each object with hundreds of associated parameters. Gene expression ex-periments produce data about the complete genome of an organism under different conditions and at a sequence of time points. Ex-ploration of such very high-dimensional data spaces poses a huge challenge. Subspace clustering is one among several approaches which have been proposed for this purpose in recent years. How-ever, many clustering algorithms require the user to set a large num-ber of parameters without any guidelines. Some methods also do not provide a concise summary of the datasets, or, if they do, they lack additional important information such as the number of clus-ters present or the significance of the clusters

    Exploring the intellectual capital and financial capital interface: an artefact-based criteria approach to the recognition of ‘organisational’ assets

    Get PDF
    This article was submitted to and presented at the 32nd European Accounting Association Annual Conference.Design: Normative, conceptually based. Purpose: The paper presents asset recognition criteria based on the idea that an asset should be functional, separable and measurable and that financial recognition should be triggered by the recognition of an artefact. We apply these criteria to four organisational assets, that is, those intangible assets that are unlikely to be reported in the accounting domain. Findings: We do so in order to show how one may expand the basis on which assets can be reported financially to elements of intellectual capital as well as financial capital. Originality: The criteria have never been applied to organisational asset
    corecore