10 research outputs found

    Ballstering : a clustering algorithm for large datasets

    No full text
    Ballstering appartient à la famille des méthodes de machine learning qui ont pour but de regrouper en classes les éléments formant la base de données étudiée et ce sans connaissance au préalable des classes qu'elle contient. Ce type de méthodes, dont le représentant le plus connu est k-means, se rassemblent sous le terme de "partitionnement de données" ou "clustering". Récemment un algorithme de partitionnement "Fast Density Peak Clustering" (FDPC) paru dans le journal Science a suscité un intérêt certain au sein de la communauté scientifique pour son aspect innovant et son efficacité sur des données distribuées en groupes non-concentriques. Seulement cet algorithme présente une complexité telle qu'il ne peut être aisément appliqué à des données volumineuses. De plus nous avons pu identifier plusieurs faiblesses pouvant nuire très fortement à la qualité de ses résultats, dont en particulier la présence d'un paramètre général dc difficile à choisir et ayant malheureusement un impact non-négligeable. Compte tenu de ces limites, nous avons repris l'idée principale de FDPC sous un nouvel angle puis apporté successivement des modifications en vue d'améliorer ses points faibles. Modifications sur modifications ont finalement donné naissance à un algorithme bien distinct que nous avons nommé Ballstering. Le fruit de ces 3 années de thèse se résume principalement en la conception de ce dernier, un algorithme de partitionnement dérivé de FDPC spécialement conçu pour être efficient sur de grands volumes de données. Tout comme son précurseur, Ballstering fonctionne en deux phases: une phase d'estimation de densité suivie d'une phase de partitionnement. Son élaboration est principalement fondée sur la construction d'une sous-procédure permettant d'effectuer la première phase de FDPC avec une complexité nettement amoindrie tout évitant le choix de dc qui devient dynamique, déterminé suivant la densité locale. Nous appelons ICMDW cette sous-procédure qui représente une partie conséquente de nos contributions. Nous avons également remanié certaines des définitions au cœur de FDPC et revu entièrement la phase 2 en s'appuyant sur la structure arborescente des résultats fournis par ICDMW pour finalement produire un algorithme outrepassant toutes les limitations que nous avons identifié chez FDPC.Ballstering belongs to the machine learning methods that aim to group in classes a set of objects that form the studied dataset, without any knowledge of true classes within it. This type of methods, of which k-means is one of the most famous representative, are named clustering methods. Recently, a new clustering algorithm "Fast Density Peak Clustering" (FDPC) has aroused great interest from the scientific community for its innovating aspect and its efficiency on non-concentric distributions. However this algorithm showed a such complexity that it can't be applied with ease on large datasets. Moreover, we have identified several weaknesses that impact the quality results and the presence of a general parameter dc difficult to choose while having a significant impact on the results. In view of those limitations, we reworked the principal idea of FDPC in a new light and modified it successively to finally create a distinct algorithm that we called Ballstering. The work carried out during those three years can be summarised by the conception of this clustering algorithm especially designed to be effective on large datasets. As its Precursor, Ballstering works in two phases: An estimation density phase followed by a clustering step. Its conception is mainly based on a procedure that handle the first step with a lower complexity while avoiding at the same time the difficult choice of dc, which becomes automatically defined according to local density. We name ICMDW this procedure which represent a consistent part of our contributions. We also overhauled cores definitions of FDPC and entirely reworked the second phase (relying on the graph structure of ICMDW's intermediate results), to finally produce an algorithm that overcome all the limitations that we have identified

    Ballstering: un algorithme de clustering dédié à de grands échantillon

    Get PDF
    Ballstering belongs to the machine learning methods that aim to group in classes a set of objects that form the studied dataset, without any knowledge of true classes within it. This type of methods, of which k-means is one of the most famous representative, are named clustering methods.Recently, a new clustering algorithm "Fast Density Peak Clustering" (FDPC) has aroused great interest from the scientific community for its innovating aspect and its efficiency on non-concentric distributions. However this algorithm showed a such complexity that it can't be applied with ease on large datasets. Moreover, we have identified several weaknesses that impact the quality results and the presence of a general parameter dc difficult to choose while having a significant impact on the results. In view of those limitations, we reworked the principal idea of FDPC in a new light and modified it successively to finally create a distinct algorithm that we called Ballstering.The work carried out during those three years can be summarised by the conception of this clustering algorithm especially designed to be effective on large datasets. As its Precursor, Ballstering works in two phases: An estimation density phase followed by a clustering step. Its conception is mainly based on a procedure that handle the first step with a lower complexity while avoiding at the same time the difficult choice of dc, which becomes automatically defined according to local density. We name ICMDW this procedure which represent a consistent part of our contributions.We also overhauled cores definitions of FDPC and entirely reworked the second phase (relying on the graph structure of ICMDW's intermediate results), to finally produce an algorithm that overcome all the limitations that we have identified.Ballstering appartient à la famille des méthodes de machine learning qui ont pour but de regrouper en classes les éléments formant la base de données étudiée et ce sans connaissance au préalable des classes qu'elle contient. Ce type de méthodes, dont le représentant le plus connu est k-means, se rassemblent sous le terme de "partitionnement de données" ou "clustering".Récemment un algorithme de partitionnement "Fast Density Peak Clustering" (FDPC) paru dans le journal Science a suscité un intérêt certain au sein de la communauté scientifique pour son aspect innovant et son efficacité sur des données distribuées en groupes non-concentriques. Seulement cet algorithme présente une complexité telle qu'il ne peut être aisément appliqué à des données volumineuses. De plus nous avons pu identifier plusieurs faiblesses pouvant nuire très fortement à la qualité de ses résultats, dont en particulier la présence d'un paramètre général dc difficile à choisir et ayant malheureusement un impact non-négligeable.Compte tenu de ces limites, nous avons repris l'idée principale de FDPC sous un nouvel angle puis apporté successivement des modifications en vue d'améliorer ses points faibles. Modifications sur modifications ont finalement donné naissance à un algorithme bien distinct que nous avons nommé Ballstering.Le fruit de ces 3 années de thèse se résume principalement en la conception de ce dernier, un algorithme de partitionnement dérivé de FDPC spécialement conçu pour être efficient sur de grands volumes de données. Tout comme son précurseur, Ballstering fonctionne en deux phases: une phase d'estimation de densité suivie d'une phase de partitionnement.Son élaboration est principalement fondée sur la construction d'une sous-procédure permettant d'effectuer la première phase de FDPC avec une complexité nettement amoindrie tout évitant le choix de dc qui devient dynamique, déterminé suivant la densité locale. Nous appelons ICMDW cette sous-procédure qui représente une partie conséquente de nos contributions.Nous avons également remanié certaines des définitions au cœur de FDPC et revu entièrement la phase 2 en s'appuyant sur la structure arborescente des résultats fournis par ICDMW pour finalement produire un algorithme outrepassant toutes les limitations que nous avons identifié chez FDPC

    Mobility of Pb, Zn and Cd in a soil developed on a carbonated bedrock in a semi-arid climate and contaminated by Pb-Zn tailing, Jebel Ressas (NE Tunisia)

    No full text
    Pb-, Zn- and Cd-bearing particles from the flotation tailing heaps of Jebel Ressas mine are carried by wind and water toward the surrounding agricultural areas. These crop-producing areas are made of fersialitic soils and developed on carbonated bedrock. The risk of ecotoxicity depends on the bioavailability fraction of metals which is closely related to their physicochemical and biological environment. The objective of this study was to assess the contamination of the soils surrounding the waste dumps and to estimate the bioavailable fraction of metals present in these soils. The flotation tailings display big amounts of Zn, Pb and Cd, averaging 7.11 %, 2.30 % and 290 mg kg(-1), respectively. The concentrations found in soils reach 6.3 % Zn, 2.3 % Pb and 290 mg kg(-1) Cd. Analyses of the samples taken between surface and bedrock show that Pb and Zn may reach concentrations as high as 900 mg kg(-1) 2 m below surface. Simple extraction tests show that with deionized water only Zn is mobile, with 0.02-0.03 mmol l(-1) released from soil. The mobilization of contaminants by organic acids, secreted by plants in the rhizosphere, is potentially higher than that achieved in the presence of percolating waters

    Peyrebrune (Zn, F) lode-deposit (SW Massif Central, France): geochemical characterization of fluids during the Mesozoic at the eastern border of the Aquitain basin

    No full text
    Fluid inclusion and stable isotope data on the Palaeozoic basement-hosted Peyrebrune (Zn, F) Iodedeposit (Albigeois region), indicate that mineralization originated from circulation of basinal-derived brines during distinct successive Mesozoïc extensional events. These new data, set in a regional context, suggest the occurrence of two distinct evaporite-bearing sedimentary basins, now concealed by the Tertiary cover: to the south, an organic matter-rich basin leading to economic Zn-sulfide deposition, and to the north an organic matter-free basin, leading to a small Cu-sulfide deposition. During the fluorite episode, the two basins differentiate by the development of the E-W fracturation: minor in the southern basin, major in the northern one

    Continental basinal origin of ore fluids from southwestern Massif central fluorite veins (Albigeois, France): evidence from fluid inclusion and stable isotope analyses

    No full text
    The most important fluorspar mining district in France is located in the Palaeozoic basement of the Albigeois in southwestern French Massif Central. The massive fluorite is hosted within large E–W striking fractures, crosscutting Cambro–Ordovician clastics, associated with large zones of hypersilicified tectonic breccia which form the wall of the mined deposits. Fluid inclusion data for pre-fluorite and fluorite stage fluids have salinities between 20–26 wt% NaCl equiv., with homogenisation temperatures between 85–170°C. Furthermore, low first ice melting temperatures (around −50°C) indicates the presence of significant CaCl2 and possibly MgCl2 together with NaCl. Calculated fluid δ18O for pre-fluorite quartz ranges from −9.1‰ to −5.2‰, with δD between −55‰ to −64‰, placing the data directly on the present day meteoric water line. Fluorite stage fluids have δ18O between +0.1‰ to +3.2‰, and δD ranging from −53‰ to −75‰, indicating an interacted meteoric fluid origin. Combining the fluid inclusion and stable isotope data illustrates that the main fluorite depositing fluid has characteristics typical of a basinal brine. The authors have no evidence that a magmatic system was involved in the deposit genesis. The proposed model highlights that mineralisation was related to major Mesozoic extensional events coinciding with the gradual opening of the Atlantic and Tethys oceans. In order to account for the chemistry of the fluids, and the siting of the deposits, the authors postulate a genetic relationship with local, continental, evaporite-bearing basins coincident with, and controlled by the E–W fractures

    Linear regression with stochastic regressors Interpretations and methods

    No full text
    SIGLETIB Hannover: RN 6363(1990,3) / FIZ - Fachinformationszzentrum Karlsruhe / TIB - Technische InformationsbibliothekDEGerman

    Mineralising brines in the South West Massif Central, France

    No full text
    No abstract available
    corecore