7 research outputs found

    Towards reinforcement learning based N­Clustering

    Get PDF
    Tese de Mestrado, Ciência de Dados, 2022, Universidade de Lisboa, Faculdade de CiênciasBiclustering and triclustering are becoming increasingly popular for unsupervised analysis of two­ and three­dimensional datasets. Among other patterns of interest, using n­clusters in unsupervised data analy sis can identify potential biological modules, illness progression profiles, and communities of individuals with consistent behaviour. Despite this, most algorithms still rely on exhaustive approaches to produce high­quality results. The main limitation of using deep learning to solve this task is that n­clusters are computed assuming that all elements are represented under equal distance. This assumption invalidates the use of locality simplification techniques like neural convolutions. Graphs are flexible structures that could represent a dataset where all elements are at an equal distance through fully connected graphs, thus encouraging the use of graph convolutional networks to learn their structure and generate accurate embeddings of the datasets. Because n­clustering is primarily viewed as an iterative task in which elements are added or re moved from a given cluster, a reinforcement learning framework is a good fit. Deep reinforcement learn ing agents have already been successfully coupled with graph convolutional networks to solve complex combinatorial optimization problems, motivating the adaptation of reinforcement learning architectures to this problem. This dissertation lays the foundations for a novel reinforcement learning approach for n­clustering that could outperform state of the art algorithms while implementing a more efficient algorithm. To this end, three libraries were implemented: a synthetic data generator, a framework that models n­clustering tasks as Markov decision process, and a training library. A proximal policy­based agent was implemented and tunned using population­based training, to evaluate the behaviour of the reinforcement learning en vironments designed. Results show that agents can learn to modify their behaviour while interacting with the environment to maximize their reward signal. However, they are still far from being a solution to n­clustering. This dissertation is the first step towards this solution. Finally, future steps to improve these results are pro posed. This dissertation has presented foundational work that enables modelling n­clustering as an MDP, paving the way for further studies focused on improving task performance.Os seres humanos evoluíram para encontrar padrões. Esta capacidade está presente na nossa vida quotidiana, e não sobreviveríamos sem ela. Na realidade, esta é uma característica que parecemos partilhar com todos os seres inteligentes, a necessidade de compreender padrões e de criar rotinas. Os padrões são lugares seguros onde podemos agir conscientemente, onde as relações causais que ligam as nossas acções às suas consequências são conhecidas por nós. A compreensão de um padrão pode ser a diferença entre vida e morte, o suave som de folhas pode implicar um ataque mortal, a presença de humidade no solo pode indicar um riacho próximo, enquanto um cheiro pode ajudar a distinguir entre amigo ou inimigo. Encontrar padrões e distinguir entre padrões e acontecimentos aleatórios permitiu à nossa sociedade chegar tão longe. Hoje, enfrentamos problemas mais complexos em quase todos os campos de estudo científicos e sociais, por vezes escondidos por detrás de quantidades massivas de eventos aleatórios. É literalmente como encontrar uma agulha num palheiro. Como tal, recorremos mais uma vez a máquinas para nos ajudar neste empreendimento desafiante. Técnicas de aprendizagem sem supervisão começaram a ser propostas por estatísticos e matemáticos muito antes do aparecimento de campos como a prospecção de dados. No entanto, estes campos, juntamente com um significativo interesse restaurado na área pela indústria, na esperança de rentabilizar grandes quantidades de dados guardados ao longo dos anos, deram grandes passos em frente. Nos últimos anos, temos visto muitos avanços notáveis neste campo e uma nova face da inteligência artificial em geral (por exemplo, aprendizagem de máquinas, aprendizagem profunda). Foram propostas abordagens de clusters revigoradas que combinavam técnicas clássicas com aprendizagem profunda para gerar representações precisas e produzir clusters a partir destes vectores de dados. Biclustering e triclustering estão a tornar-­se cada vez mais populares para análises não supervisionadas de conjuntos de dados bidimensionais e tridimensionais. Entre outros padrões de interesse, a utilização de n­clusters na análise não supervisionada de dados pode identificar potenciais módulos biológicos, perfis de progressão de doenças, e comunidades de indivíduos com comportamento consistente. Nos domínios médicos, as aplicações possíveis incluem a análise de sinais fisiológicos multivariados, onde os n­clusters identificados podem capturar respostas fisiológicas coerentes para um grupo de indivíduos; análise de dados de neuroimagem, onde os n­clusters podem capturar funções de resposta hemodinâmica e conectividade entre regiões cerebrais; e análise de registos clínicos, onde os n­clusters podem corresponder a grupos de pacientes com características clínicas correlacionadas ao longo do tempo. Relativamente aos domínios sociais, as aplicações possíveis vão desde a análise de redes sociais até à descoberta de comunidades de indivíduos com actividade e interacção correlacionadas (frequentemente referidas como comunidades em evolução coerente) ou conteúdos de grupo de acordo com o perfil do utilizador; grupos de utilizadores com padrões de navegação coerentes nos dados de utilização da web; análise de dados de comércio electrónico para encontrar padrões de navegação ocultos de conjuntos cor relacionados de utilizadores (web), páginas (web) visitadas, e operações ao longo do tempo; análise de dados de pesquisa de marketing para estudar a utilidade perceptível de vários produtos para diferentes fins, a julgar por diferentes grupos demográficos; dados de filtragem colaborativa para descobrir correlações accionáveis para sistemas de recomendação ou utilizadores de grupo com preferências semelhantes, entre outras aplicações. O clustering tradicional pode ser utilizado para agrupar observações neste contexto, mas a sua utili dade é limitada porque as observações neste domínio de dados são tipicamente apenas significativamente correlacionadas em subespaços do espaço global. Apesar da importância de n­clustering, a maioria dos algoritmos continua a basear­se em abordagens exaustivas para produzir resultados de qualidade. Como o n­clustering é uma tarefa complexa de opti mização combinatória, as abordagens existentes limitam a estrutura permitida, a coerência e a qualidade da solução. A principal limitação da utilização de aprendizagem profunda para resolver esta tarefa é que os n clusters são computados assumindo que todos os elementos são representados sob igual distância. Este pressuposto invalida o uso de técnicas de simplificação da localidade como as convoluções neurais. Os grafos são estruturas flexíveis que podem ser utilizadas para representar um conjunto de dados onde todos os elementos estão a uma distância igual, através de grafos completos, encorajando assim a utilização de redes convolucionais de grafos para aprender a sua estrutura e gerar representações precisas dos conjuntos de dados. Uma vez que o n­clustering é visto principalmente como uma tarefa iterativa em que os elemen tos são adicionados ou removidos de um dado cluster, uma estrutura de aprendizagem de reforço é um bom suporte. Agentes de aprendizagem de reforço profundos já foram acoplados com sucesso a redes convolucionais de grafos para resolver problemas complexos de otimização combinatória, motivando a adaptação de arquitecturas de aprendizagem de reforço a este problema. Esta dissertação lança as bases para uma nova abordagem de aprendizagem por reforço para n clustering que poderia superar os algoritmos de estado da arte, ao mesmo tempo que implementa um algoritmo mais eficiente. Para este fim, foram implementadas três bibliotecas: um gerador de dados sintéticos, uma framework que modela as tarefas de n­clustering como um processo de decisão de Markov, e uma biblioteca de treino. NclustGen foi implementado para melhorar a utilização programática dos geradores de dados sintéti cos de biclustering e triclustering de última geração. O NclustEnv modela n­clustering como um processo de decisão Markov através da implementação de ambientes de biclustering e triclustering. Segue a interface padrão de programação de aplicações proposta pelo Gym para ambientes de aprendizagem por reforço. A implementação de ambientes de qualidade que modelam a interação entre um agente e uma tarefa de n­clustering é da maior importância. Ao implementar esta tarefa utilizando o padrão Gym, o ambi ente pode ser implementado como agente agnóstico. Assim, qualquer agente será capaz de treinar neste ambiente, se correctamente configurado, independentemente da sua implementação. Esta capacidade de construir ambientes que modelam uma dada tarefa de uma forma agnóstica permite a implementação de uma framework geral para n­clustering baseada em aprendizagem por reforço. Os agentes podem depois utilizar esta framework de treino para encontrar uma solução de última geração para esta tarefa. A fim de avaliar o comportamento dos ambientes de aprendizagem por reforço que foram concebidos, foi implementado e calibrado um agente de optimização proximal de políticas utilizando treino baseado em populações. Um agente de optimização proximal de políticas foi escolhido porque pode servir como uma boa base para experiências futuras. Devido à sua versatilidade, os agentes de optimização proximal de políticas são largamente considerados como os agentes de referência para experiências em ambientes não explorados. A solução e as limitações alcançadas por este agente normalmente dão pelo menos uma ideia dos seguintes passos a tomar se o agente não conseguir alcançar uma boa solução. Os resultados mostram que os agentes podem aprender a modificar o seu comportamento enquanto interagem com o ambiente para maximizar o seu sinal de recompensa. No entanto, ainda estão longe de ser uma solução para o n­clustering. Esta dissertação é o primeiro passo para esta solução e apresentou o trabalho fundamental, mas ainda há muito mais trabalho a ser feito para que esta abordagem possa ultrapassar os algoritmos mais avança dos.Por fim, são propostos os próximos passos para melhorar estes resultados, e que para num futuro próximo, esta abordagem possa vir a resolver a tarefa do n­clustering

    Biclustering fMRI time series

    Get PDF
    Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2020Biclustering é um método de análise que procura gerar clusters tendo em conta simultaneamente as linhas e as colunas de uma matriz de dados. Este método tem sido vastamente explorado em análise de dados genéticos. Apesar de diversos estudos reconhecerem as capacidades deste método de análise em outras áreas de investigação, as últimas duas décadas tem sido marcadas por um número elevado de estudos aplicados em dados genéticos e pela ausência de uma linha de investigação que explore as capacidades de biclustering fora desta área tradicional Esta tese segue pistas que sugerem potencial no uso de biclustering em dados de natureza espaço-temporal. Considerando o contexto particular das neurociências, esta tese explora as capacidades dos algoritmos de biclustering em extrair conhecimento das séries temporais geradas por técnicas de imagem por ressonância magnética funcional (fMRI). Eta tese propõe uma metodologia para avaliar a capacidade de algoritmos de biclustering em estudar dados fMRI, considerando tanto dados sintéticos como dados reais. Para avaliar estes algoritmos, usamos métricas de avaliação interna. Os nossos resultados discutem o uso de diversas estratégias de busca, revelando a superioridade de estratégias exaustivos para obter os biclusters mais homogéneos. No entanto, o elevado custo computacional de estratégias exaustivas ainda são um desafio e é necessário pesquisa adicional para a busca eficiente de biclusters no contexto de análise de dados fMRI. Propomos adicionalmente uma nova metodologia de análise de biclusters baseada em algoritmos de descoberta de padrões para determinar os padrões mais frequentes presentes nas soluções de biclustering geradas. Um bicluster não é mais que um hipervértice num hipergrafo . Extrair padrões frequentes numa solução de biclustering implica extrair os hipervértices mais significativos. Numa primeira abordagem, isto permite entender relações entre regiões do cérebro e traçar perfis temporais que métodos tradicionais de estudos de correlação não são capazes de detetar. Adicionalmente, o processo de gerar os biclusters permite filtrar ligações pouco interessantes, permitindo potencialmente gerar hipergrafos de forma eficiente. A questão final é o que podemos fazer com este conhecimento. Conhecer a relação entre regiões do cérebro é o objetivo central das neurociências. Entender as ligações entre regiões do cérebro para vários sujeitos permitem traçar perfis. Nesse caso, propomos uma metodologia para extrapolar biclusters para dados tridimensionais e efetuar triclustering. Adicionalmente, entender a ligação entre zonas cerebrais permite identificar doenças como a esquizofrenia, demência ou o Alzheimer. Este trabalho aponta caminhos para o uso de biclustering na análise de dados espaço-temporais, em particular em neurociências. A metodologia de avaliação proposta mostra evidências da eficácia do biclustering para encontrar padrões locais em dados de fMRI, embora mais trabalhos sejam necessários em relação à escalabilidade para promover a aplicação em cenários reais.The effectiveness of biclustering, simultaneous clustering of both rows and columns in a data matrix, has been primarily shown in gene expression data analysis. Furthermore, several researchers recognize its potentialities in other research areas. Nevertheless, the last two decades witnessed many biclustering algorithms targeting gene expression data analysis and a lack of consistent studies exploring the capacities of biclustering outside this traditional application domain. Following hints that suggest potentialities for biclustering on Spatiotemporal data, particularly in neurosciences, this thesis explores biclustering’s capacity to extract knowledge from fMRI time series. This thesis proposes a methodology to evaluate biclustering algorithms’ feasibility to study the fMRI signal, considering both synthetic and realworld fMRI datasets. In the absence of ground truth to compare bicluster solutions with a reference one, we used internal valuation metrics. Results discussing the use of different search strategies showed the superiority of exhaustive approaches, obtaining the most homogeneous biclusters. However, their high computational cost is still a challenge, and further work is needed for the efficient use of biclustering in fMRI data analysis. We propose a new methodology for analyzing biclusters based on performing pattern mining algorithms to determine the most frequent patterns present in the generated biclustering solutions. A bicluster is nothing more than a hyperlink in a hypergraph. Extracting frequent patterns in a biclustering solution implies extracting the most significant hyperlinks. In a first approach, this allows to understand relationships between regions of the brain and draw temporal profiles that traditional methods of correlation studies cannot detect. Additionally, the process of generating biclusters allows filtering uninteresting links, potentially allowing to generate hypergraphs efficiently. The final question is, what can we do with this knowledge. Knowing the relationship between brain regions is the central objective of neurosciences. Understanding the connections between regions of the brain for various subjects allows one to draw profiles. In this case, we propose a methodology to extrapolate biclusters to threedimensional data and perform triclustering. Additionally, understanding the link between brain zones allows identifying diseases like schizophrenia, dementia, or Alzheimer’s. This work pinpoints avenues for the use of biclustering in Spatiotemporal data analysis, in particular neurosciences applications. The proposed evaluation methodology showed evidence of biclustering’s effectiveness in finding local fMRI data patterns, although further work is needed regarding scalability to promote the application in real scenarios

    G-Tric: enhancing triclustering evaluation using three-way synthetic datasets with ground truth

    Get PDF
    Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2020Three-dimensional datasets, or three-way data, started to gain popularity due to their increasing capacity to describe inherently multivariate and temporal events, such as biological responses, social interactions along time, urban dynamics, or complex geophysical phenomena. Triclustering, subspace clustering of three-way data, enables the discovery of patterns corresponding to data subspaces (triclusters) with values correlated across the three dimensions (observations _ features _ contexts). With an increasing number of algorithms being proposed, effectively comparing them with state-of-the-art algorithms is paramount.These comparisons are usually performed using real data, without a known ground-truth, thus limiting the assessments. In this context, we propose a synthetic data generator, G-Tric, allowing the creation of synthetic datasets with configurable properties and the possibility to plant triclusters. The generator is prepared to create datasets resembling real three-way data from biomedical and social data domains, with the additional advantage of further providing the ground truth (triclustering solution) as output. G-Tric can replicate real-world datasets and create new ones that match researchers’ needs across several properties, including data type (numeric or symbolic), dimension, and background distribution. Users can tune the patterns and structure that characterize the planted triclusters (subspaces) and how they interact (overlapping). Data quality can also be controlled by defining the number of missing values, noise, and errors. Furthermore, a benchmark of datasets resembling real data is made available, together with the corresponding triclustering solutions (planted triclusters) and generating parameters. Triclustering evaluation using G-Tric provides the possibility to combine both intrinsic and extrinsic metrics to compare solutions that produce more reliable analyses. A set of predefined datasets, mimicking widely used three-way data and exploring crucial properties was generated and made available, highlighting G-Tric’s potential to advance triclustering state-of-the-art by easing the process of evaluating the quality of new triclustering approaches. Besides reviewing the current state-of-the-art regarding triclustering approaches, comparison studies and evaluation metrics, this work also analyzes how the lack of frameworks to generate synthetic data influences existent evaluation methodologies, limiting the scope of performance insights that can be extracted from each algorithm. As well as exemplifying how the set of decisions made on these evaluations can impact the quality and validity of those results. Alternatively, a different methodology that takes advantage of synthetic data with ground truth is presented. This approach, combined with the proposal of an extension to an existing clustering extrinsic measure, enables to assess solutions’ quality under new perspectives

    Similarity measures for comparing biclusterings

    No full text
    The comparison of ordinary partitions of a set of objects is well established in the clustering literature, which comprehends several studies on the analysis of the properties of similarity measures for comparing partitions. However, similarity measures for clusterings are not readily applicable to biclusterings, since each bicluster is a tuple of two sets (of rows and columns), whereas a cluster is only a single set (of rows). Some biclustering similarity measures have been defined as minor contributions in papers which primarily report on proposals and evaluation of biclustering algorithms or comparative analyses of biclustering algorithms. The consequence is that some desirable properties of such measures have been overlooked in the literature. We review 14 biclustering similarity measures. We define eight desirable properties of a biclustering measure, discuss their importance, and prove which properties each of the reviewed measures has. We show examples drawn and inspired from important studies in which several biclustering measures convey misleading evaluations due to the absence of one or more of the discussed properties. We also advocate the use of a more general comparison approach that is based on the idea of transforming the original problem of comparing biclusterings into an equivalent problem of comparing clustering partitions with overlapping clusters
    corecore