Search CORE

16 research outputs found

Análise, deseño e implementación de modelos de aprendizaxe máquina: predición usando datos sensóricos de buques arrastreiros

Author: Fernández Luces Alejandro
Publication venue
Publication date: 01/09/2020
Field of study

[Resumo] En Galicia, a pesca representa un sector de alta importancia a nivel socioeconómico. En concreto, o eido da pesca de arrastre é unha das artes pesqueiras con máis peso. Con todo, os patróns dos buques arrastreiros enfróntanse a certos riscos debido ao descoñecemento do fondo mariño. A isto súmase un certo atraso tecnolóxico do propio sector. Partindo da infraestrutura xa existente neste tipo de barcos, nesta proposta preténdese deseñar unha posible solución a un dos problemas que máis perdas económicas xera: o enfangamento do aparello. O obxectivo principal do proxecto é obter unha predición precoz do estado do aparello para evitar este problema. Isto conseguirase mediante a aplicación de técnicas de aprendizaxe máquina a datos sensóricos de buques arrastreiros. Aplícanse algoritmos tales como a regresión lineal, os bosques aleatorios, e as máquinas de soporte vectorial para obter modelos de predición. Búscase ademais despregar os modelos obtidos nunha aplicación web que poida ser instalada nas computadoras das embarcacións. Os resultados obtidos nos modelos foron adecuados para este problema, pero ao ser este un estudo novidoso neste tema, non se puideron comparar os resultados con outros traballos semellantes.[Abstract] In Galicia, fishing represents a socioeconomic high impact sector. Particularly, trawl fishing is one of the most important fishing techniques. Nonetheless, captains from trawling ships face some risks as a result of the lack of knowledge of the marine bottom. Also, the sector suffers some technological backwardness. Starting from the current infrastructure in this kind of ships, in this proposal a possible solution is designed for one of the problems that generates more economical losses: the mud catch in the trawling rig. Tha main objective in this project is to obtain an early prediction of the state of the trawling rig to avoid this problem. This will be achieved through the application of machine learning techniques to sensory data from trawling vessels. Algorithms like linear regression, random forests and support vector machines are used to obtain the prediction models. We also seek to deploy these models in a web application that can be installed in the vessels computers. The obtained results were good for our data, but because this research is unique in this field, it couldn’t be compared with similar works.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

Repositorio da Universidade da Coruña

Detección de linguaxe misóxino e xenófobo en redes sociais mediante aprendizaxe máquina

Author: Rodríguez Fernández Laura
Publication venue
Publication date: 01/09/2020
Field of study

[Resumo] Co incremento do uso das redes sociais, xurde a necesidade de ter todo máis controlado para evitar casos de abuso verbal, discriminación, acoso… Twitter é unha rede social que funciona mediante o envío posts de usuarios, e na que xorden moitos debates e discusións, polo que é bastante habitual ver este tipo de problemáticas. O obxectivo principal deste traballo é a clasificación de posts de Twitter, para comprobar se conteñen linguaxe despectivo ou expresións de odio cara as mulleres e inmigrantes. Para isto empréganse técnicas de machine learning seguindo a metodoloxía CRISP-DM, a cal consta de 6 fases. Seguindo as fases desta metodoloxía, analízase e compréndese o dataset que contén os datos, para posteriormente poder obter as características que emprega o algoritmo de Random Forest para a creación do modelo. Para validar este modelo empréganse varios métodos de validación, co fin de obter o modelo que presente mellores resultados. Despois de todo este proceso e axustar o modelo o mellor posible, chegamos a unha das últimas fases, a avaliación, na cal se aplican distintas métricas para obter os resultados. Cabe destacar que o mellor resultado que se acada é un 78.16% para a métrica de precisión, mellorando ata un 13.16% as precisións obtidas no estado do arte.[Abstract] With the increase in the use of social networks, the need airises to have everything more controlled to avoid cases of verbal abuse, discrimination, harassment… Twitter is a social network that works by sending user posts, and in which many debates an discussions, so it is quite common to see such problems. The main objective of this work is the classification of Twitter posts, to check if they contain derogatory language or expressions of hatred towards women and immigrants. For this, machine learning techniques are used following the CRISP-DM methodology, which consists of 6 phases. Following the phases of this methodology, the dataset containing the data is analyzed and understood, in order to subsequently be able to obtain the characteristics used by the Random Forest algorithm for the creation of the model. To validate this model several validation methods are used in order to obtain the model that presents better results. After all this process and adjusting the model as best as possible, we come to one of the last phases, the evaluation, in which different metrics are applied to get the results. It is worth noting that the best result is 78.16% for the precision metric, improving the accuracy obtained in the state of the art to 13.16%.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

Repositorio da Universidade da Coruña

Menos é máis: explorando o impacto da selección de características

Author: Pichel Bolón Esteban
Publication venue
Publication date: 01/01/2020
Field of study

[Resumo] Neste proxecto estúdanse diferentes técnicas de selección de características coa intención de determinar cales dos múltiples métodos existentes na literatura son máis axeitados para un tipo de problema en concreto, e determinar se algún deles é descartable por obter peores resultados que realizar unha selección aleatoria á hora de reducir a dimensionalidade dos problemas. Para a súa realización farase uso dun extenso número de conxuntos de datos que nos permitan traballar sobre unha gran variedade dos problemas existentes no mundo real cos que nos atopamos neste ámbito, reducindo a súa dimensionalidade e levando a cabo a clasificación correspondente para obter os resultados que, xunto cos test estadísticos, nos permitirán sacar conclusións sobre as cuestións plantexadas.[Abstract] In this project we study different feature selection techniques with the aim of determining which of the multiple methods in the literature are the best suited for a particular type of problem, and determining whether any of them are disposable because of obtaining worse results than a random selection to reduce the dimensionality of the problems. To accomplish this objective we will use an extensive number of data sets that allow us to work on a wide variety of problems from the real world that need to be dealt with in this field. We will reduce the dimensionality of the data sets and carry out the corresponding classification process to obtain the results that, along with statistical tests, will allow us to draw conclusions about the issues raised.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

Repositorio da Universidade da Coruña

Parallel-FST: aceleración de algoritmos de selección de características mediante computación paralela

Author: Beceiro Fernández Bieito
Publication venue
Publication date: 01/01/2020
Field of study

[Resumo] Na actualidade estase a producir un auxe da produción e consumo de grandes cantidades de información (big data), que deben procesarse e prepararse para o seu posterior uso. Entre as ferramentas que se utilizan para analizar estes datos atópanse as de aprendizaxe máquina (machine learning), o que constitúe outro campo de investigación que gañou importancia nos últimos anos. A pesar dos seus bos resultados, as técnicas de aprendizaxe automática contan cun custo computacional alto, que se incrementa notablemente ao aumentar a cantidade de datos a procesar. Para reducir a dimensionalidade destes datos, existen algoritmos de selección de características que, a través de modelos matemáticos, son capaces de eliminar información redundante e innecesaria. Porén, a selección de características tamén é un proceso custoso, pero que pode acelerarse adaptando os algoritmos e técnicas xa existentes para o seu uso en sistemas de computación paralela (coñecidos como HPC polas súas siglas en inglés). Ao longo dos últimos anos xurdiron moitos traballos de investigación centrados no desenvolvemento de diferentes métodos de selección de características, cada un aplicando uns criterios de cara á devandita selección. Polo xeral, estes criterios deben tentar maximizar a relevancia das características seleccionadas e minimizar a redundancia entre as mesmas, de forma que o subconxunto escollido represente da mellor forma posible ao dataset orixinal. Tamén existen estudos que traballan con varios destes métodos para atopar o grao de conformidade entre os mesmos, para buscar similitudes a nivel de estrutura ou con intención de determinar cal presenta un mellor comportamento en termos de precisión, estabilidade e flexibilidade ante datasets de certas propiedades. Para este tipo de estudos moitas veces é necesario o desenvolvemento de librarías que conteñan os métodos de selección de características a estudar, de forma que se poidan comparar os resultados. Este é o caso de FEAST, unha libraría que conta con oito métodos de selección de características baseada en información mutua. Neste Traballo Fin de Grao desenvolveuse unha optimización de FEAST con técnicas paralelas, adaptando os seus métodos para que poidan ser executados e aproveiten as vantaxes dos sistemas HPC. As paralelizacións implementadas desenvolvéronse aplicando unha distribución da carga de traballo entre elementos de procesado. Dado que os sistemas HPC adoitan ser sistemas multinodo con nodos multinúcleo, esta nova versión aproveita as posibilidades que achegan ambos cunha aproximación híbrida baseada en MPI e tecnoloxías multifío. A estratexia aplicada en ambos niveis foi a descomposición de dominio, i.e. a distribución dos datos cos que traballa o programa para que cada elemento de procesado realice os cálculos sobre un anaco diferente. Deste xeito conseguiuse, por unha parte, reducir o tempo de cómputo; e por outra, posibilitar a análise de datasets de gran tamaño que exceden as limitacións de memoria dos sistemas habituais. As probas de rendemento realizáronse nun clúster de 16 nodos, con 64GB de memoria e 16 núcleos por nodo (256 núcleos en total). Os resultados obtidos foron moi satisfactorios, xa que se acadaron unhas aceleracións de ata 229x para catro datasets representativos. A maiores, conseguiuse executar cada algoritmo cun dataset de 512GB de tamaño, o que non sería posible nun único nodo.[Abstract] Currently, there is a boom in the production and consumption of large amounts of information (big data), which must be processed and prepared for later use. Machine learning techniques are among the tools used to analyze this data. Therefore, it is another field of research that has gained importance in recent years. Despite their good results, machine learning techniques have a high computational cost, which is significantly increased as the amount of data to be processed grows. To reduce the dimensionality of this data, there are feature selection algorithms able to remove redundant and unnecessary information with the use of mathematical models. However, feature selection is also an expensive process, but it can be accelerated by adapting existing algorithms and techniques to be run in high performance computing systems (HPC). In recent years, many research projects have been focused on the development of different methods for feature selection, which apply some specific criteria to this selection. Usually, these criteria should try to maximize the relevance of the selected features and minimize the redundancy between them, so that the chosen subset represents the original data set in the best possible way. There are also studies that take into account several of these methods to find the degree of conformity between them, to look for similarities at the structure level or to determine which one performs best in terms of precision, stability and flexibility when applied to data sets of certain properties. For this kind of research, the development of libraries with several feature selection methods to be studied is often necessary in order to compare their results. This is the case of FEAST, a library that presents eight feature selection methods based on mutual information. In this work a parallelization of the FEAST library has been developed, adapting its methods so that they can be executed and take advantage of HPC systems. The implemented parallelizations were developed by applying a workload distribution among processing elements. Since HPC systems are often multinode systems with multicore nodes, this new version takes advantage of the possibilities that both offer with a hybrid approach based on MPI and multithreading technologies. The strategy applied at both levels was the domain decomposition, that is, the distribution of the data used in the program, so that each processing element performs the calculations on a different part. This way, it was possible, on the one hand, to reduce execution times; and, on the other hand, to allow the analysis of large data sets that exceed memory limitations of common systems. Performance tests were carried out on a 16-node cluster with 64GB of memory and 16 cores per node (256 total cores). The obtained results are very satisfactory, since accelerations of up to 229x were achieved for four representative data sets. In addition, every algorithm was able to analyze a 512GB dataset, which would not have been possible on a single node.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

Repositorio da Universidade da Coruña

New scalable machine learning methods: beyond classification and regression

Author: Eiras-Franco Carlos
Publication venue
Publication date: 01/01/2019
Field of study

Programa Oficial de Doutoramento en Computación . 5009V01[Abstract] The recent surge in data available has spawned a new and promising age of machine learning. Success cases of machine learning are arriving at an increasing rate as some algorithms are able to leverage immense amounts of data to produce great complicated predictions. Still, many algorithms in the toolbox of the machine learning practitioner have been render useless in this new scenario due to the complications associated with large-scale learning. Handling large datasets entails logistical problems, limits the computational and spatial complexity of the used algorithms, favours methods with few or no hyperparameters to be con gured and exhibits speci c characteristics that complicate learning. This thesis is centered on the scalability of machine learning algorithms, that is, their capacity to maintain their e ectivity as the scale of the data grows, and how it can be improved. We focus on problems for which the existing solutions struggle when the scale grows. Therefore, we skip classi cation and regression problems and focus on feature selection, anomaly detection, graph construction and explainable machine learning. We analyze four di erent strategies to obtain scalable algorithms. First, we explore distributed computation, which is used in all of the presented algorithms. Besides this technique, we also examine the use of approximate models to speed up computations, the design of new models that take advantage of a characteristic of the input data to simplify training and the enhancement of simple models to enable them to manage large-scale learning. We have implemented four new algorithms and six versions of existing ones that tackle the mentioned problems and for each one we report experimental results that show both their validity in comparison with competing methods and their capacity to scale to large datasets. All the presented algorithms have been made available for download and are being published in journals to enable practitioners and researchers to use them.[Resumen] El reciente aumento de la cantidad de datos disponibles ha dado lugar a una nueva y prometedora era del aprendizaje máquina. Los éxitos en este campo se están sucediendo a un ritmo cada vez mayor gracias a la capacidad de algunos algoritmos de aprovechar inmensas cantidades de datos para producir predicciones difíciles y muy certeras. Sin embargo, muchos de los algoritmos hasta ahora disponibles para los científicos de datos han perdido su efectividad en este nuevo escenario debido a las complicaciones asociadas al aprendizaje a gran escala. Trabajar con grandes conjuntos de datos conlleva problemas logísticos, limita la complejidad computacional y espacial de los algoritmos utilizados, favorece los métodos con pocos o ningún hiperparámetro a configurar y muestra complicaciones específicas que dificultan el aprendizaje. Esta tesis se centra en la escalabilidad de los algoritmos de aprendizaje máquina, es decir, en su capacidad de mantener su efectividad a medida que la escala del conjunto de datos aumenta. Ponemos el foco en problemas cuyas soluciones actuales tienen problemas al aumentar la escala. Por tanto, obviando la clasificación y la regresión, nos centramos en la selección de características, detección de anomalías, construcción de grafos y en el aprendizaje máquina explicable. Analizamos cuatro estrategias diferentes para obtener algoritmos escalables. En primer lugar, exploramos la computación distribuida, que es utilizada en todos los algoritmos presentados. Además de esta técnica, también examinamos el uso de modelos aproximados para acelerar los cálculos, el dise~no de modelos que aprovechan una particularidad de los datos de entrada para simplificar el entrenamiento y la potenciación de modelos simples para adecuarlos al aprendizaje a gran escala. Hemos implementado cuatro nuevos algoritmos y seis versiones de algoritmos existentes que tratan los problemas mencionados y para cada uno de ellos detallamos resultados experimentales que muestran tanto su validez en comparación con los métodos previamente disponibles como su capacidad para escalar a grandes conjuntos de datos. Todos los algoritmos presentados han sido puestos a disposición del lector para su descarga y se han difundido mediante publicaciones en revistas científicas para facilitar que tanto investigadores como científicos de datos puedan conocerlos y utilizarlos.[Resumo] O recente aumento na cantidade de datos dispo~nibles deu lugar a unha nova e prometedora era no aprendizaxe máquina. Os éxitos neste eido estanse a suceder a un ritmo cada vez maior gracias a capacidade dalgúns algoritmos de aproveitar inmensas cantidades de datos para producir prediccións difíciles e moi acertadas. Non obstante, moitos dos algoritmos ata agora dispo~nibles para os científicos de datos perderon a súa efectividade neste novo escenario por mor das complicacións asociadas ao aprendizaxe a grande escala. Traballar con grandes conxuntos de datos leva consigo problemas loxísticos, limita a complexidade computacional e espacial dos algoritmos empregados, favorece os métodos con poucos ou ningún hiperparámetro a configurar e ten complicacións específicas que dificultan o aprendizaxe. Esta tese céntrase na escalabilidade dos algoritmos de aprendizaxe máquina, é dicir, na súa capacidade de manter a súa efectividade a medida que a escala do conxunto de datos aumenta. Tratamos problemas para os que as solucións dispoñibles teñen problemas cando crece a escala. Polo tanto, deixando no canto a clasificación e a regresión, centrámonos na selección de características, detección de anomalías, construcción de grafos e no aprendizaxe máquina explicable. Analizamos catro estratexias diferentes para obter algoritmos escalables. En primeiro lugar, exploramos a computación distribuída, que empregamos en tódolos algoritmos presentados. Ademáis desta técnica, tamén examinamos o uso de modelos aproximados para acelerar os cálculos, o deseño de modelos que aproveitan unha particularidade dos datos de entrada para simplificar o adestramento e a potenciación de modelos sinxelos para axeitalos ao aprendizaxe a gran escala. Implementamos catro novos algoritmos e seis versións de algoritmos existentes que tratan os problemas mencionados e para cada un deles expoñemos resultados experimentais que mostran tanto a súa validez en comparación cos métodos previamente dispoñibles como a súa capacidade para escalar a grandes conxuntos de datos. Tódolos algoritmos presentados foron postos a disposición do lector para a súa descarga e difundíronse mediante publicacións en revistas científicas para facilitar que tanto investigadores como científicos de datos poidan coñecelos e empregalos

Repositorio da Universidade da Coruña

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Xeración dun Dataset baseado en Tráfico CoAP nun Entorno IoT

Author: Pardal Noya Alberto
Publication venue
Publication date: 01/01/2020
Field of study

[Resumo] A IoT (Internet of Things) está cada vez máis presente no mundo. Ben sexa na nosa casa ou en procesos industriais, esta tecnoloxía aglutina unha gran cantidade de dispositivos que intercambian un volume de datos considerable; e que debemos protexer contra ameazas externas. Neste caso, unha monitorización manual do tráfico non é viable, será necesario expor outros mecanismos máis automáticos para poder levar a cabo esta tarefa de forma máis efectiva e eficiente. Para automatizar o proceso de análise e detección de ameazas en fluxos de datos de grande magnitude é posible usar a IA (Intelixencia Artificial), proporcionándolle os conxuntos de datos necesarios para que leve a cabo a aprendizaxe máquina; e desa forma sexa capaz de detectar, e incluso paliar, ditas anomalías. Neste proxecto, crearemos un conxunto de datos (DATASET) anotado de tráfico do protocolo CoAP (Constrained Application Protocol), utilizando software para a creación de paquetería de rede. Este protocolo, grazas á súa simplicidade e baixa sobrecarga, pode ser utilizado en dispositivos cun hardware mínimo; coma por exemplo os sensores dunha rede IoT. O que faremos neste traballo será, primeiramente, un estudo sobre as características do protocolo CoAP, para entender o seu funcionamento. Logo, unha vez escollidas as ferramentas a usar, deseñaremos unha implantación do entorno a virtualizar, e unha programación das mensaxes CoAP que se enviarán e recibirán entre as máquinas. Poremos a proba dito deseño e, unha vez estea funcionando correctamente, alteraremos a paquetería resultante empregando distintos tipos de ataques a redes IoT. Para rematar, realizaremos unha captura de tráfico final incluíndo todos os comportamentos, tanto normais como anómalos; e da que obteremos as conclusións oportunas.[Abstract] The IoT (Internet of Things) is more and more present in the world. Whether in our home or in industrial processes, this technology brings together a large number of devices that exchanges a considerable volume of data, and we must protect them against external threats. In this case, manual traffic monitoring is not possible, it will be necessary to find automatic mechanisms to carry out this task more effectively and efficiently. To automate the process of analysis and detection of threats in large data flows, it is possible to use AI (Artificial Intelligence), providing it with the necessary data to execute the machine learning, and in this way be able to detect and even mitigate said anomalies. In this project, we will create an annotated Dataset of CoAP (Constrained Application Protocol) protocol traffic, using software for creating network packets. This protocol, thanks to its simplicity and low overhead, can be used on devices with minimal hardware; such as the sensors of an IoT network. In this work, firstly, we will make a study of the characteristics of the CoAP protocol, to understand its operation. Then, once we have chosen the tools to use, we will design an implementation of the environment to be virtualized and a programming of the CoAP messages that will be sent and received between the machines. We will test this design and, once it is working correctly, we will alter the resulting packets using different types of attacks on IoT networks. To finish, we will make a final traffic capture including all behaviors, both normal and altered, and from which we will obtain the appropriate conclusions.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2019/202

Repositorio da Universidade da Coruña

Simple but Not Simplistic: Reducing the Complexity of Machine Learning Methods

Author: Morán-Fernández Laura
Publication venue
Publication date: 01/01/2020
Field of study

Programa Oficial de Doutoramento en Computación . 5009V01[Resumo] A chegada do Big Data e a explosión do Internet das cousas supuxeron un gran reto para os investigadores en Aprendizaxe Automática, facendo que o proceso de aprendizaxe sexa mesmo roáis complexo. No mundo real, os problemas da aprendizaxe automática xeralmente teñen complexidades inherentes, como poden ser as características intrínsecas dos datos, o gran número de mostras, a alta dimensión dos datos de entrada, os cambios na distribución entre o conxunto de adestramento e test, etc. Todos estes aspectos son importantes, e requiren novoS modelos que poi dan facer fronte a estas situacións. Nesta tese, abordáronse todos estes problemas, tratando de simplificar o proceso de aprendizaxe automática no escenario actual. En primeiro lugar, realízase unha análise de complexidade para observar como inflúe esta na tarefa de clasificación, e se é posible que a aplicación dun proceso previo de selección de características reduza esta complexidade. Logo, abórdase o proceso de simplificación da fase de aprendizaxe automática mediante a filosofía divide e vencerás, usando un enfoque distribuído. Seguidamente, aplicamos esa mesma filosofía sobre o proceso de selección de características. Finalmente, optamos por un enfoque diferente seguindo a filosofía do Edge Computing, a cal permite que os datos producidos polos dispositivos do Internet das cousas se procesen máis preto de onde se crearon. Os enfoques propostos demostraron a súa capacidade para reducir a complexidade dos métodos de aprendizaxe automática tradicionais e, polo tanto, espérase que a contribución desta tese abra as portas ao desenvolvemento de novos métodos de aprendizaxe máquina máis simples, máis robustos, e máis eficientes computacionalmente.[Resumen] La llegada del Big Data y la explosión del Internet de las cosas han supuesto un gran reto para los investigadores en Aprendizaje Automático, haciendo que el proceso de aprendizaje sea incluso más complejo. En el mundo real, los problemas de aprendizaje automático generalmente tienen complejidades inherentes) como pueden ser las características intrínsecas de los datos, el gran número de muestras, la alta dimensión de los datos de entrada, los cambios en la distribución entre el conjunto de entrenamiento y test, etc. Todos estos aspectos son importantes, y requieren nuevos modelos que puedan hacer frente a estas situaciones. En esta tesis, se han abordado todos estos problemas, tratando de simplificar el proceso de aprendizaje automático en el escenario actual. En primer lugar, se realiza un análisis de complejidad para observar cómo influye ésta en la tarea de clasificación1 y si es posible que la aplicación de un proceso previo de selección de características reduzca esta complejidad. Luego, se aborda el proceso de simplificación de la fase de aprendizaje automático mediante la filosofía divide y vencerás, usando un enfoque distribuido. A continuación, aplicamos esa misma filosofía sobre el proceso de selección de características. Finalmente, optamos por un enfoque diferente siguiendo la filosofía del Edge Computing, la cual permite que los datos producidos por los dispositivos del Internet de las cosas se procesen más cerca de donde se crearon. Los enfoques propuestos han demostrado su capacidad para reducir la complejidad de los métodos de aprendizaje automático tnidicionales y, por lo tanto, se espera que la contribución de esta tesis abra las puertas al desarrollo de nuevos métodos de aprendizaje máquina más simples, más robustos, y más eficientes computacionalmente.[Abstract] The advent of Big Data and the explosion of the Internet of Things, has brought unprecedented challenges to Machine Learning researchers, making the learning task more complexo Real-world machine learning problems usually have inherent complexities, such as the intrinsic characteristics of the data, large number of instauces, high input dimensionality, dataset shift, etc. AH these aspects matter, and can fOI new models that can confront these situations. Thus, in this thesis, we have addressed aH these issues) simplifying the machine learning process in the current scenario. First, we carry out a complexity analysis to see how it inftuences the classification models, and if it is possible that feature selection might result in a deerease of that eomplexity. Then, we address the proeess of simplifying learning with the divide-and-conquer philosophy of the distributed approaeh. Later, we aim to reduce the complexity of the feature seleetion preprocessing through the same philosophy. FinallYl we opt for a different approaeh following the eurrent philosophy Edge eomputing, whieh allows the data produeed by Internet of Things deviees to be proeessed closer to where they were ereated. The proposed approaehes have demonstrated their eapability to reduce the complexity of traditional maehine learning algorithms, and thus it is expeeted that the eontribution of this thesis will open the doors to the development of new maehine learning methods that are simpler, more robust, and more eomputationally efficient

Repositorio da Universidade da Coruña

Automatic system for the detection and recognition of phytoplankton in digital microscope imaging

Author: Rivas-Villar David
Publication venue
Publication date: 01/08/2019
Field of study

[Abstract] The quality of water can be compromised by the proliferation of toxic species of phytoplankton. When these blooms occur in rivers and reservoirs used for the water supply, this event can have a negative impact on human health. Currently, to determine the existence of risk, experts rudimentarily monitor phytoplankton populations by sampling and analysing the water. This analysis consits on the identification of dangerous species and its biologic volume. All in all, this process is long and tedious when the amount of samples that need to be analysed in order to obtain a quality and representative measure is taken into account, which also needs to be carried out periodically for each water source. The taxonomic process requires broad experience and training for the personnel involved. The automation of these tasks is highly desirable as it would free the experts from part of the work at the same time as that eliminates subjective factors that may impact in the overall quality of the process. In this work the intention is to help experts starting from images obtained directly from a conventional microscope, differentiating it from other similar works in the state of the art that use specific hardware. Computer vision techniques will be used to detect candidate individuals and artificial intelligence methods to recognise relevant phytoplankton species, that is, the toxic ones, distinguishing them from the rest of objects in the images like, for example, inorganic materials. Finally, the phytoplankton organisms will be classified to obtain a metric that counts the dangerous ones and so be able to analyse the quality of the water.[Resumo] A calidade da auga pode verse ameazada pola proliferación de especies tóxicas de fitoplancto. Cando estas proliferacións ocorren en ríos e encoros utilizados na subministración de auga potable este feito pode ter impactos negativos na saúde humana. Actualmente, para determinar a existencia de risco, os expertos monitorizan, de forma rudimentaria, as poboacións de fitoplancto mediante a recolección de mostras e a súa correspondente análise. Esta análise consiste na identificación das especies perigosas e o rexistro do seu volume biolóxico. Con todo, este proceso resulta longo e tedioso se se ten en conta a cantidade de mostras a analizar para poder ofrecer unhas métricas fiables e representativas, as cales se deben realizar periodicamente para cada unha das fontes de auga destinadas ao consumo. Así mesmo, o proceso taxonómico require unha ampla experiencia e formación específica do persoal involucrado. A automatización destas tarefas é moi desexable xa que libera aos expertos de parte do traballo, á vez que evita factores subxectivos que poidan influír na calidade global do proceso. Neste traballo preténdese axudar aos expertos partindo de imaxes obtidas directamente do microscopioconvencional, diferenciándoo de traballos similares do estado do arte que requiren hardware específico. Empregaranse técnicas de procesado de imaxe e visión artificial para detectar individuos candidatos e técnicas de intelixencia artificial para recoñecer as especies de fitoplancto relevantes, é dicir, as tóxicas, distinguíndoas do resto de obxectos nas imaxes, como, por exemplo, materiais inertes ou inorgánicos. Por último, os microogranismos de fitoplancto son clasificados para obter unha métrica que contabilice os perigosos e poder, así, analizar a calidade da auga.Traballo fin de grao (UDC.FIC). Enxeñaría informática. Curso 2018/201

Repositorio da Universidade da Coruña

Conformance Checking-based Concept Drift Detection in Process Mining

Author: Gallego Fontenla Víctor José
Publication venue
Publication date: 01/01/2023
Field of study

One of the main challenges of process mining is to obtain models that represent a process as simply and accurately as possible. Both characteristics can be greatly influenced by changes in the control flow of the process throughout its life cycle. In this thesis we propose the use of conformance metrics to monitor such changes in a way that allows the division of the log into sub-logs representing different versions of the process over time. The validity of the hypothesis has been formally demonstrated, showing that all kinds of changes in the process flow can be captured using these approaches, including sudden, gradual drifts on both clean and noisy environments, where differentiating between anomalous executions and real changes can be tricky

Repositorio Institucional da Universidade de Santiago de Compostela

Automatic grading of ocular hyperaemia using image processing techniques

Author: Sánchez Brea María Luisa
Publication venue
Publication date: 01/01/2017
Field of study

Programa Oficial de Doutoramento en Computación . 5009V01[Abstract] The human eye is affected by a number of high-prevalence pathologies, such as Dry Eye Syndrome or allergic conjunctivitis. One of the symptoms that these health problems have in common is the occurrence of hyperaemia in the bulbar conjunctiva, as a consequence of blood vessels getting clogged. The blood is trapped in the affected area and some visible signs, such an increase in the redness of the area, appear. This work proposes an automatic methodology for bulbar hyperaemia grading based on image processing and machine learning techniques. The methodology receives a video as input, chooses the best frame of the sequence, isolates the conjunctiva, computes several image features and, finally, transforms these features to the ranges that optometrists use to evaluate the parameter. Moreover, several tests have been conducted in order to analyse how the methodology reacts to unfavourable situations. The goal was to cover some common issues that assisted diagnosis methodologies have to face in real-world environments. The proposed methodology achieves a significant reduction of the time that the specialists have to invest in the evaluation. Thus, it has a direct repercussion on reaching a fast diagnosis. Moreover, it removes the inherent subjectivity of the manual process and ensures its repeatability. As a consequence, the experts can gain insight in the parameters that influence hyperaemia evaluation.[Resumen] El ojo humano se ve afectado por un gran número de patologías de alta prevalencia, tales corno el Síndrome del Ojo Seco o la conjuntivitis alérgica. Uno de los síntomas que estos problemas de salud comparten es la aparición de hiperemia en la conjuntiva bulbar, consecuencia del taponamiento de vasos sanguíneos. La sangre queda atrapada en el área afectada y aparecen signos visibles, como el aumento de rojez en la zona. Este trabajo propone una metodología automática para la evaluación de hiperemia bulbar basada en técnicas de procesado de imagen y aprendizaje máquina. La metodología recibe un vídeo, escoge la mejor imagen de la secuencia, aísla la conjuntiva, calcula varias características en la imagen y, por último, transforma estas características al rango de valores que los optometristas usan para evaluar la hiperemia. Además, se han realizado varias pruebas para analizar como reacciona la metodología a situaciones desfavorables. El objetivo era incluir problemas comunes que aparecen a la hora de aplicar una metodología de asistencia al diagnóstico en un entorno real. La metodología propuesta consigue una reducción significativa del tiempo que los especialistas invierten en la evaluación. Por lo tanto, tiene repercusiones directas en alcanzar un diagnóstico rápido. Además, elimina la subjetividad inherente al proceso manual y garantiza su repetitibilidad. Como consecuencia, los expertos pueden obtener información acerca de los parámetros involucrados en la evaluación de la hiperemia.[Resumo] O ollo humano vese afectado por un elevado número de patoloxías de alta prevalencia, tales como o Síndrome do Olio Seco ou a conxuntivite alérxica. Un dos síntomas que ditos problemas de saúde teñen en común é a aparición de hiperemia na conxuntiva bulbar, consecuencia da conxestíón dos vasos sanguíneos. O sangue queda atrapado na área afectada, e aparecen signos visibles, como o incremento do arrubiamento na zona. Este traballo propón unha metodoloxia automática para a avaliación da hiperemia bulbar baseada en técnicas de procesado de imaxe e aprendizaxe máquina. A metodoloxía recibe un video como entrada, escolle a mellor imaxe da secuencia, illa a conxuntiva, calcula varias características da imaxe e, por último, transforma estas características ós rangos que os optometristas usan para avaHar o parámetro. Ademáis, leváronse a cabo varias probas para analizar como reacciona a metodoloxía ante situacións pouco favorables. O obxectivo era abarcar algúns dos problemas máis comúns que atopan as metodoloxías de asistencia á diagnose en entornos reais. A metodoloxía proposta consegue milla redución significativa do tempo que os especialistas invirten na avaliación. Polo tanto, ten unha repercusión directa na obtención dunha diagnose rápida. Ademáis, elimina a subxectividade inerente ó proceso manual, e asegura a súa repetitibilidade. Como consecuencia, os expertos poden entender mellor os parámetros que influencian a avaliación da hiperemia

Repositorio da Universidade da Coruña

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas