6 research outputs found

    Clustering-based feature selection

    No full text
    O avanço tecnológico teve como consequência a geração e o armazenamento de quantidades abundantes de dados. Para conseguir extrair o máximo de informação possível dos dados tornou-se necessária a formulação de novas ferramentas de análise de dados. Foi então introduzido o Processo de Descoberta de Conhecimento em Bancos de Dados, que tem como objetivo a identificação de padrôes válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados. Nesse processo, a etapa responsável por encontrar padrões nos dados é denominada de Mineração de Dados. A acurácia e eficiência de algoritmos de mineração de dados dependem diretamente da quantidade e da qualidade dos dados que serão analisados. Nesse sentido, atributos redundantes e/ou não-informativos podem tornar o processo de mineração de dados ineficiente. Métodos de Seleção de Atributos podem remover tais atributos. Nesse trabalho é proposto um algoritmo para seleção de atributos e algumas de suas variantes. Tais algoritmos procuram identificar redundância por meio do agrupamento de atributos. A identificação de atributos redundantes pode auxiliar não apenas no processo de identificação de padrões, mas também pode favorecer a compreensibilidade do modelo obtido. O algoritmo proposto e suas variantes são comparados com dois algoritmos do mesmo gênero descritos na literatura. Tais algoritmos foram avaliados em problemas típicos de mineração de dados: classificação e agrupamento de dados. Os resultados das avaliações mostram que o algoritmo proposto, e suas variantes, fornecem bons resultados tanto do ponto de vista de acurácia como de eficiência computacional, sem a necessidade de definição de parâmetros críticos pelo usuárioThe technological progress has lead to the generation and storage of abundant amounts of data. The extraction of information from such data has required the formulation of new data analysis tools. In this context, the Knowledge Discovery from Databases process was introduced. It is focused on the identification of valid, new, potentially useful, and comprehensible patterns in large databases. In this process, the task of finding patterns in data is usually called Data Mining. The efficacy and efficiency of data mining algorithms are directly influenced by the amount and quality of the data being analyzed. Redundant and/or uninformative features may make the data mining process inefficient. In this context, feature selection methods that can remove such features are frequently used. This work proposes a feature selection algorithm and some of its variants that are capable of identifying redundant features through clustering. The identification of redundant features can favor not only the pattern recognition process but also the comprehensibility of the obtained model. The proposed method and its variants are compared with two feature selection algorithms based on feature clustering. These algorithms were evaluated in two well known data mining problems: classification and clustering. The results obtained show that the proposed algorithm obtained good accuracy and computational efficiency results, additionally not requiring the definition of critical parameters by the use

    Evolutionary algorithms for gausian mixture models with and without constraints

    No full text
    Nesta tese, são estudados algoritmos para agrupamento de dados, com particular ênfase em Agrupamento de Dados com Restrições, no qual, além dos objetos a serem agrupados, são fornecidos pelo usuário algumas informações sobre o agrupamento desejado. Como fundamentação para o agrupamento, são considerados os modelos de mistura finitos, em especial, com componentes gaussianos, usualmente chamados de modelos de mistura de gaussianas. Dentre os principais problemas que os algoritmos desenvolvidos nesta tese de doutorado buscam tratar destacam-se: (i) estimar parâmetros de modelo de mistura de gaussianas; (ii) como incorporar, de forma eficiente, restrições no processo de aprendizado de forma que tanto os dados quanto as restrições possam ser adicionadas de forma online; (iii) estimar, via restrições derivadas de conceitos pré-determinados sobre os objetos (usualmente chamados de classes), o número de grupos destes conceitos. Como ferramenta para auxiliar no desenvolvimento de soluções para tais problemas, foram utilizados algoritmos evolutivos que operam com mais de uma solução simultaneamente, além de utilizarem informações de soluções anteriores para guiar o processo de busca. Especificamente, foi desenvolvido um algoritmo evolutivo baseado na divisão e união de componentes para a estimação dos parâmetros de um modelo de mistura de gaussianas. Este algoritmo foi comparado com o algoritmo do mesmo gênero considerado estado-da-arte na literatura, apresentando resultados competitivos e necessitando de menos parâmetros e um menor custo computacional. Nesta tese, foram desenvolvidos dois algoritmos que incorporam as restrições no processo de agrupamento de forma online. Ambos os algoritmos são baseados em algoritmos bem-conhecidos na literatura e apresentaram, em comparações empíricas, resultados melhores que seus antecessores. Finalmente, foram propostos dois algoritmos para se estimar o número de grupos por classe. Ambos os algoritmos foram comparados com algoritmos reconhecidos na literatura de agrupamento de dados com restrições, e apresentaram resultados competitivos ou melhores que estes. A estimação bem sucedida do número de grupos por classe pode auxiliar em diversas tarefas de mineração de dados, desde a sumarização dos dados até a decomposição de problemas de classificação em sub-problemas potencialmente mais simples.In the last decade, researchers have been giving considerable attention to the field of Constrained Clustering. Algorithms in this field assume that along with the objects to be clustered, the user also provides some constraints about which kind of clustering (s)he prefers. In this thesis, two scenarios are studied: clustering with and without constraints. The developments are based on finite mixture models, namely, models with Gaussian components, which are usually called Gaussian Mixture Models (GMMs). In this context the main problems addressed are: (i) parameter estimation of GMMs; (ii) efficiently integrating constraints in the learning process allowing both constraints and the data to be added in the modeling in an online fashion; (iii) estimating, by using constraints derived from pre-determined concepts (usually named classes), the number of clusters per concept. Evolutionary algorithms were adopted to develop solutions for such problems. These algorithms analyze more than one solution simultaneously and use information provided by previous solutions to guide the search process. Specifically, an evolutionary algorithm based on procedures that perform splitting and merging of components to estimate the parameters of a GMM was developed. This algorithm was compared to an algorithm considered as the state-of-the-art in the literature, obtaining competitive results while requiring less parameters and being more computationally efficient. Besides the aforementioned contributions, two algorithms for online constrained clustering were developed. Both algorithms are based on well known algorithms from the literature and get better results than their predecessors. Finally, two algorithms to estimate the number of clusters per class were also developed. Both algorithms were compared to well established algorithms from the literature of constrained clustering, and obtained equal or better results than the ones obtained by the contenders. The successful estimation of the number of clusters per class is helpful to a variety of data mining tasks, such as data summarization and problem decomposition of challenging classification problems

    O acesso aberto à produção científica das universidades católicas: o caso da CVA-RICESU

    No full text
    Apresenta a iniciativa compartilhada para a criação de uma biblioteca digital da produção científica das instituições de ensino superior católicas, no Brasil, destacando os aspectos da cooperação, organização, infra-estrutura técnica e tecnológica e funcionamento operacional

    O acesso aberto à produção científica das universidades católicas: o caso da CVA-RICESU<p>Open acess to scientific knowledge of catholic universities: the case of the CVA-RICESU

    No full text
    Apresenta a iniciativa compartilhada para a criação de uma biblioteca digital da produção científica das instituições de ensino superior católicas, no Brasil, destacando os aspectos da cooperação, organização, infra-estrutura técnica e tecnológica e funcionamento operacional.It presents the shared initiative for creation of the digital library of catholic higher education institutions, in Brazil, detaching aspects of cooperation, organization, technological and technical infrastructure and operational functioning

    Monitoring of phytoplankton in a subtropical estuarine system through traditional taxonomic, functional diversity and microscopy-imaged-based classification tools.

    No full text
    12th International Phycological Congress, 2021 Também disponível em: (2021) 12th International Phycological Congress, Phycologia, 60:sup1, 74-74, ISSN: 0031-8884 DOI: 10.1080/00318884.2021.1922050Estuarine systems are under human activities pressure that may lead to changes in the structure of planktonic community. Given its importance as the basis of food webs and their rapid responses to environmental changes, phytoplankton is fundamental to understanding the effects of these changes on the general plankton community. The Santos Estuarine System (SES), Brazil, receives a high load of pollutants from petrochemical and fertilizer industries, as well as hosts one of the largest ports in Latin America. The present study aims to establish the bases for the implementation of long-term monitoring programs in this ecosystem combining classical monitoring methods (variation of chlorophyll biomass and taxonomic composition), with methodologies based on functional diversity (Convex hull) and on Microscopy-Imaged-based Classification Tools of plankton. Considering previous dataset from SES, computer vision techniques were employed to perform steps of object identification, filtering and feature extraction in order to obtain the final dataset. The developed software is open-source and available under the MIT license. From March 2020 (except in April and May due to COVID-19 pandemic), monthly surveys are being performed in four stations through the navigation channel of SES. Preliminary results showed dominance of filamentous cyanobacteria during raining/freshwater-influence periods and of diatoms under brackish and seawater-influence conditions. Salinity gradient was also a stressor condition resulting in changes in functional diversity index (FDis, FEve and FRic). Microscopy-Imaged-based Classification first results obtained a mean accuracy of 83.88% considering 4 classes, and 76.67% considering 13 classes.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)FAPESP: 2018/25816-
    corecore