1 research outputs found

    Técnicas de Agrupamento de Dados MultiGrupo e Multi-Padrão

    Get PDF
    Em qualquer processo de aprendizagem automática, é importante saber quais os algoritmos que produzem melhores resultados na análise de um determinado conjunto de dados. Os algoritmos de agrupamento de dados são avaliados, principalmente, pela qualidade da exatidão (precisão) do agrupamento produzido quando comparado com a divisão real do conjunto de dados, pelo seu tempo de execução e pelos recursos utilizados (p.e., tempo de CPU). Com o conhecimento prévio de quais os algoritmos têm um melhor desempenho, o utilizador tem a oportunidade de usar esses algoritmos e obter uma melhor partição do conjunto de dados. O objetivo desta dissertação consiste no estudo de técnicas de agrupamento de dados associadas aos conceitos multi-grupo (cada objeto pode pertencer a mais do que um grupo) e multi-padrão (cada objeto pode ser caracterizados por mais do que um atributo, atributo esse que pode ser responsável pela classificação do objeto). Nesta dissertação são apresentados vários algoritmos de agrupamento multi-grupo e multipadrão e várias métricas de avaliação da qualidade da performance desses mesmos algoritmos. Esta dissertação apresenta dois estudos comparativos. Um entre algoritmos de agrupamento multi-grupo (LIFT, CLMLC, CBLML e HOMER) e outro entre algoritmos de agrupamento multipadrão (MCIL e BARTMIP). Os estudos comparam e avaliam a performance dos vários algoritmos para diferentes conjuntos de dados, dando indicações aos utilizadores de quais os algoritmos que obtiveram melhores resultados na performance do agrupamento de dados obtido.In any machine learning process, it is important to know which algorithms produce the best results when analysing a given dataset. Clustering algorithms are mainly evaluated by the accuracy and precision of the produced clusters when compared with the real divisions in the dataset, its execution time and the computing resources used (e.g., CPU time). With prior knowledge of which algorithms perform best, the user has the opportunity to use these algorithms and obtain a better partition of the dataset. This thesis objective is to study data clustering techniques associated with the multi-label concept (each object can belong to more than one group) and the multi-instance concept (each object can be characterized by more than one attribute, this attribute may be solely responsible by the object’s classification). In this thesis, several multi-label clustering and multi-instance clustering algorithms are presents, as well as several performance quality evaluation metrics of these same algorithms. This thesis presents two comparative studies. One a study between multi-label clustering algorithms (LIFT, CLMLC, CBLML and HOMER) and another between multi-instance algorithms (MCIL and BARTMIP). The studies compare and evaluate the performance of the various algorithms for different datasets, giving users an indication of which algorithms achieved the best results in these performance evalutions
    corecore