Search CORE

1 research outputs found

Proposta de modelo para análise de dados em bases de biodiversidade

Author: Tedeschi Victor Hugo Pancera
Publication venue
Publication date: 01/01/2021
Field of study

Orientadora: Profa. Dra. Denise Fukumi TsunodaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Gestão da Informação. Defesa : Curitiba, 26/07/2021Inclui referências: p. 94-97Resumo: A diversidade existente no planeta é muito alta, sendo que em algumas projeções esse número poderia alcançar 10 a 30 milhões de espécies. O Brasil abriga, aproximadamente, 13% da biota mundial, conferindo ao país o título de país megadiverso. Para cada espécie que compõe esta biodiversidade, conforme são estudadas, inúmeras informações são geradas, como arquivos de texto, georreferenciamamento, recursos multimídia, sequenciamento de DNA dentre outras. Todos estes dados são depositados em repositórios ou bancos de dados e disponibilizados em acesso aberto à comunidade científica e demais interessados. Com o tempo estas bases têm armazenado dados de grande relevância, ponto que se encontra o objetivo geral deste trabalho, "propor um modelo de análise de dados de bases de biodiversidade". Para alcançar este objetivo foram realizadas algumas etapas, dentre as quais destacam-se o levantamento bibliográfico sobre as bases de dados de biodivercidade e os principais padrões de metadados presentes, e o levantamento das análises de dados em biodiversidade. Para ambos os levantamentos foram aplicadas técnicas de análise bibliométrica com o pacote Bibliometrix do software R. A segunta etapa consistiu na construção de um modelo de análises que pudesse ser aplicado às bases. O modelo contempla a aplicação de estatísticas descritivas e técnicas de mineração de dados, com detalhamento das etapas de pré-processamento para preparação dos dados para as análises propostas. Para a validação do modelo proposto foi utilizado um conjunto de dados do portal GBIF, de onde foram filtrados os dados relacionados à fauna brasileira. Os dados analisados correspondem a todos os registros fornecidos pelo Museu Nacional do Rio de Janeiro e foram submetidos às etapas de pré-processamento, e posteriormente à mineração de dados, no software WEKA com tarefas de classificação (PART, J48, SVM e Apriori), de associação (Apriori) e de agrupamento (K-Means). Foram recuperados 225.404 registros com 249 colunas cada, referentes ao Museu Nacional do Rio de Janeiro. Na etapa de pré-processamento foi realizada a remoção de dados não relevantes para as análises. No algoritmo Part foram encontradas 58, 33 e 140 regras e o método J48 atingiu taxas de acerto na ordem de 54,27%, 99,67% e 46,69%. O algoritmo Apriori foi utilizado para descoberta de regras de associação e também como classificador. Nas análises com o método K-Means a classe "ano codificado" mostrou-se mais relevante para o agrupamento. Considera-se que a maior contribuição desta pesquisa foi apresentar um modelo que pode ser utilizado em outras pesquisas relacionadas à biodiversidade, auxiliando os pesquisadores na descoberta de informações relevantes a respeito dos organismos presentes no planeta.Abstract: The diversity existing on the planet is very high, and in some projections this number could reach 10 to 30 million species. Brazil is home to approximately 13% of the world's biota, giving the country the title of megadiverse country. For each species that make up this biodiversity, as they are studied, countless pieces of information are generated, such as text files, georeferencing, multimedia resources, DNA sequencing, among others. All these data are deposited in repositories or databases and made available in open access to the scientific community and other interested parties. Over time these databases have stored data of great relevance, which is where the general objective of this work lies, "to propose a model of biodiversity database data analysis". To achieve this goal, some steps were taken, among which we highlight the bibliographic survey on biodiversity databases and the main metadata standards present, and the survey of biodiversity data analysis. For both surveys, bibliometric analysis techniques were applied using the Bibliometrix package from the R software. The second step consisted in building an analysis model that could be applied to the databases. The model contemplates the application of descriptive statistics and data mining techniques, with details of the pre-processing steps for preparing the data for the proposed analyses. For the validation of the proposed model a dataset from the GBIF portal was used, from which data related to the Brazilian fauna were filtered. The data analyzed correspond to all the records provided by the National Museum of Rio de Janeiro and were submitted to the pre-processing steps, and later to data mining, in the WEKA software with classification (PART, J48, SVM and Apriori), association (Apriori) and clustering (K-Means) tasks. A total of 225,404 records with 249 columns each, referring to the Museu Nacional do Rio de Janeiro, were retrieved. In the preprocessing step, the removal of data not relevant for the analysis was performed. The Part algorithm found 58, 33 and 140 rules, and the J48 method achieved hit rates of 54.27%, 99.67% and 46.69%. The Apriori algorithm was used for association rule discovery and also as a classifier. In the analyses with the K-Means method the class "coded year" proved to be more relevant for clustering. It is considered that the greatest contribution of this research was to present a model that can be used in other research related to biodiversity, helping researchers to discover relevant information about the organisms present on the planet

Repositório Digital Institucional da UFPR

Universidade Federal do Paraná