3 research outputs found

    A Genetic Programming Framework for Two Data Mining Tasks: Classification and Generalized Rule Induction

    Get PDF
    This paper proposes a genetic programming (GP) framework for two major data mining tasks, namely classification and generalized rule induction. The framework emphasizes the integration between a GP algorithm and relational database systems. In particular, the fitness of individuals is computed by submitting SQL queries to a (parallel) database server. Some advantages of this integration from a data mining viewpoint are scalability, data-privacy control and automatic parallelization

    Advancement of Computing on Large Datasets via Parallel Computing and Cyberinfrastructure

    Get PDF
    Large datasets require efficient processing, storage and management to efficiently extract useful information for innovation and decision-making. This dissertation demonstrates novel approaches and algorithms using virtual memory approach, parallel computing and cyberinfrastructure. First, we introduce a tailored user-level virtual memory system for parallel algorithms that can process large raster data files in a desktop computer environment with limited memory. The application area for this portion of the study is to develop parallel terrain analysis algorithms that use multi-threading to take advantage of common multi-core processors for greater efficiency. Second, we present two novel parallel WaveCluster algorithms that perform cluster analysis by taking advantage of discrete wavelet transform to reduce large data to coarser representations so data is smaller and more easily managed than the original data in size and complexity. Finally, this dissertation demonstrates an HPC gateway service that abstracts away many details and complexities involved in the use of HPC systems including authentication, authorization, and data and job management

    Aplicação de técnicas de descoberta do conhecimento em investigações de lavagem de dinheiro.

    Get PDF
    Lavagem de dinheiro é um método utilizado por criminosos para dar aparência lícita a recursos obtidos de maneira ilícita. Estimativas de entidades mundialmente reconhecidas apontam que tal atividade é responsável por algo entre 2 e 5% do PIB mundial e está se tornando cada vez mais sofisticada. Pela dificuldade de identificação utilizando métodos tradicionais de investigação, a tecnologia tem desempenhado um papel importante nesse processo. Busca-se com este trabalho identificar as técnicas de descoberta do conhecimento aplicadas nas investigações da lavagem de dinheiro, o que foi conseguido através de uma revisão sistemática de literatura. As técnicas encontradas serão utilizadas em uma pesquisa experimental que visa compará-las quanto à eficácia na identificação de relacionamentos em uma rede de transações bancárias provenientes de uma investigação real de lavagem de dinheiro