Plant species identification through leaf venation extraction and CNNs

Abstract

Tese de mestrado em Bioinformática e Biologia Computacional, Universidade de Lisboa, Faculdade de Ciências, 2020O declínio no número de especialistas em taxonomia de plantas é um problema conhecido. Delegar parte do trabalho de identificação dos taxonomistas a modelos de aprendizagem automática ajudaria a reduzir o trabalho do número, cada vez menor, de profissionais disponível. Este projeto tem como objetivo testar a possibilidade de identificar quatro espécies de plantas diferentes exclusivamente pela nervação das suas folhas. Especificamente, criamos uma rede neuronal convolucional de aprendizagem profunda que tenta aprender como distinguir diferentes espécies com base no conjunto de dados aumentado de folhas diafanizadas disponíveis. Folhas diafanizadas são folhas que foram submetidas a processos específicos (como métodos químicos e/ou raio-X) para permitir visualizar não só as nervuras principais, mas também nervuras menores. Devido à escassez de imagens originais de folhas diafanizadas de cada classe, usamos um conjunto de dados aumentado. Os testes foram executados com diferentes parâmetros para testar a capacidade do modelo de prever a classe correta com precisão, e com outras métricas. O modelo foi testado em imagens não utilizadas anteriormente para se assegurar que as imagens de treino não estavam a ser memorizadas. Os resultados obtidos foram positivos para os parâmetros selecionados nos testes de tentativa e erro: uma precisão média de teste de cerca de 79,3% para o conjunto final de parâmetros. Estes resultados sugerem, como aliás outros estudos já o vêm apontando, que pode ser possível utilizar o padrão de nervação como uma característica para a identificação de plantas, embora mais estudos em larga escala, com mais classes e significativamente mais dados, sejam necessários para obter uma resposta mais confiante para a hipótese.The decline in the number of plant taxonomy experts is a known issue. Delegating part of the identification work of taxonomists to machine learning models would help reduce the workload on the dwindling number of available personnel. This project aims to test the concept of classifying four different species of plants solely by the venation network of its leaves. Specifically, we create a convolutional deep learning neural network that attempts to learn how to distinguish the distinct species based on the available augmented dataset of cleared leaves. Cleared leaves are leaves in which the venation network is rendered visible, by specific chemical processes and/or by other methods such as X-ray. We use an augmented dataset because of the scarcity of images of cleared leaves from each class. Tests were run with different parameters to test the model’s ability to predict the correct class with accuracy, and with other metrics. The model was tested on previously unseen images to ensure that it was not memorizing the training images. The results obtained were positive for the parameters selected through trial and error testing: an average testing accuracy of around 79.3% for the final set of parameters. These results further suggest, as other studies before it, that it might be possible to rely on the venation network as an identifying characteristic for plants, although more large scale studies with more classes and significantly more data are necessary to obtain better support for the hypothesis

    Similar works