448 research outputs found

    Towards reinforcement learning based N­Clustering

    Get PDF
    Tese de Mestrado, Ciência de Dados, 2022, Universidade de Lisboa, Faculdade de CiênciasBiclustering and triclustering are becoming increasingly popular for unsupervised analysis of two­ and three­dimensional datasets. Among other patterns of interest, using n­clusters in unsupervised data analy sis can identify potential biological modules, illness progression profiles, and communities of individuals with consistent behaviour. Despite this, most algorithms still rely on exhaustive approaches to produce high­quality results. The main limitation of using deep learning to solve this task is that n­clusters are computed assuming that all elements are represented under equal distance. This assumption invalidates the use of locality simplification techniques like neural convolutions. Graphs are flexible structures that could represent a dataset where all elements are at an equal distance through fully connected graphs, thus encouraging the use of graph convolutional networks to learn their structure and generate accurate embeddings of the datasets. Because n­clustering is primarily viewed as an iterative task in which elements are added or re moved from a given cluster, a reinforcement learning framework is a good fit. Deep reinforcement learn ing agents have already been successfully coupled with graph convolutional networks to solve complex combinatorial optimization problems, motivating the adaptation of reinforcement learning architectures to this problem. This dissertation lays the foundations for a novel reinforcement learning approach for n­clustering that could outperform state of the art algorithms while implementing a more efficient algorithm. To this end, three libraries were implemented: a synthetic data generator, a framework that models n­clustering tasks as Markov decision process, and a training library. A proximal policy­based agent was implemented and tunned using population­based training, to evaluate the behaviour of the reinforcement learning en vironments designed. Results show that agents can learn to modify their behaviour while interacting with the environment to maximize their reward signal. However, they are still far from being a solution to n­clustering. This dissertation is the first step towards this solution. Finally, future steps to improve these results are pro posed. This dissertation has presented foundational work that enables modelling n­clustering as an MDP, paving the way for further studies focused on improving task performance.Os seres humanos evoluíram para encontrar padrões. Esta capacidade está presente na nossa vida quotidiana, e não sobreviveríamos sem ela. Na realidade, esta é uma característica que parecemos partilhar com todos os seres inteligentes, a necessidade de compreender padrões e de criar rotinas. Os padrões são lugares seguros onde podemos agir conscientemente, onde as relações causais que ligam as nossas acções às suas consequências são conhecidas por nós. A compreensão de um padrão pode ser a diferença entre vida e morte, o suave som de folhas pode implicar um ataque mortal, a presença de humidade no solo pode indicar um riacho próximo, enquanto um cheiro pode ajudar a distinguir entre amigo ou inimigo. Encontrar padrões e distinguir entre padrões e acontecimentos aleatórios permitiu à nossa sociedade chegar tão longe. Hoje, enfrentamos problemas mais complexos em quase todos os campos de estudo científicos e sociais, por vezes escondidos por detrás de quantidades massivas de eventos aleatórios. É literalmente como encontrar uma agulha num palheiro. Como tal, recorremos mais uma vez a máquinas para nos ajudar neste empreendimento desafiante. Técnicas de aprendizagem sem supervisão começaram a ser propostas por estatísticos e matemáticos muito antes do aparecimento de campos como a prospecção de dados. No entanto, estes campos, juntamente com um significativo interesse restaurado na área pela indústria, na esperança de rentabilizar grandes quantidades de dados guardados ao longo dos anos, deram grandes passos em frente. Nos últimos anos, temos visto muitos avanços notáveis neste campo e uma nova face da inteligência artificial em geral (por exemplo, aprendizagem de máquinas, aprendizagem profunda). Foram propostas abordagens de clusters revigoradas que combinavam técnicas clássicas com aprendizagem profunda para gerar representações precisas e produzir clusters a partir destes vectores de dados. Biclustering e triclustering estão a tornar-­se cada vez mais populares para análises não supervisionadas de conjuntos de dados bidimensionais e tridimensionais. Entre outros padrões de interesse, a utilização de n­clusters na análise não supervisionada de dados pode identificar potenciais módulos biológicos, perfis de progressão de doenças, e comunidades de indivíduos com comportamento consistente. Nos domínios médicos, as aplicações possíveis incluem a análise de sinais fisiológicos multivariados, onde os n­clusters identificados podem capturar respostas fisiológicas coerentes para um grupo de indivíduos; análise de dados de neuroimagem, onde os n­clusters podem capturar funções de resposta hemodinâmica e conectividade entre regiões cerebrais; e análise de registos clínicos, onde os n­clusters podem corresponder a grupos de pacientes com características clínicas correlacionadas ao longo do tempo. Relativamente aos domínios sociais, as aplicações possíveis vão desde a análise de redes sociais até à descoberta de comunidades de indivíduos com actividade e interacção correlacionadas (frequentemente referidas como comunidades em evolução coerente) ou conteúdos de grupo de acordo com o perfil do utilizador; grupos de utilizadores com padrões de navegação coerentes nos dados de utilização da web; análise de dados de comércio electrónico para encontrar padrões de navegação ocultos de conjuntos cor relacionados de utilizadores (web), páginas (web) visitadas, e operações ao longo do tempo; análise de dados de pesquisa de marketing para estudar a utilidade perceptível de vários produtos para diferentes fins, a julgar por diferentes grupos demográficos; dados de filtragem colaborativa para descobrir correlações accionáveis para sistemas de recomendação ou utilizadores de grupo com preferências semelhantes, entre outras aplicações. O clustering tradicional pode ser utilizado para agrupar observações neste contexto, mas a sua utili dade é limitada porque as observações neste domínio de dados são tipicamente apenas significativamente correlacionadas em subespaços do espaço global. Apesar da importância de n­clustering, a maioria dos algoritmos continua a basear­se em abordagens exaustivas para produzir resultados de qualidade. Como o n­clustering é uma tarefa complexa de opti mização combinatória, as abordagens existentes limitam a estrutura permitida, a coerência e a qualidade da solução. A principal limitação da utilização de aprendizagem profunda para resolver esta tarefa é que os n clusters são computados assumindo que todos os elementos são representados sob igual distância. Este pressuposto invalida o uso de técnicas de simplificação da localidade como as convoluções neurais. Os grafos são estruturas flexíveis que podem ser utilizadas para representar um conjunto de dados onde todos os elementos estão a uma distância igual, através de grafos completos, encorajando assim a utilização de redes convolucionais de grafos para aprender a sua estrutura e gerar representações precisas dos conjuntos de dados. Uma vez que o n­clustering é visto principalmente como uma tarefa iterativa em que os elemen tos são adicionados ou removidos de um dado cluster, uma estrutura de aprendizagem de reforço é um bom suporte. Agentes de aprendizagem de reforço profundos já foram acoplados com sucesso a redes convolucionais de grafos para resolver problemas complexos de otimização combinatória, motivando a adaptação de arquitecturas de aprendizagem de reforço a este problema. Esta dissertação lança as bases para uma nova abordagem de aprendizagem por reforço para n clustering que poderia superar os algoritmos de estado da arte, ao mesmo tempo que implementa um algoritmo mais eficiente. Para este fim, foram implementadas três bibliotecas: um gerador de dados sintéticos, uma framework que modela as tarefas de n­clustering como um processo de decisão de Markov, e uma biblioteca de treino. NclustGen foi implementado para melhorar a utilização programática dos geradores de dados sintéti cos de biclustering e triclustering de última geração. O NclustEnv modela n­clustering como um processo de decisão Markov através da implementação de ambientes de biclustering e triclustering. Segue a interface padrão de programação de aplicações proposta pelo Gym para ambientes de aprendizagem por reforço. A implementação de ambientes de qualidade que modelam a interação entre um agente e uma tarefa de n­clustering é da maior importância. Ao implementar esta tarefa utilizando o padrão Gym, o ambi ente pode ser implementado como agente agnóstico. Assim, qualquer agente será capaz de treinar neste ambiente, se correctamente configurado, independentemente da sua implementação. Esta capacidade de construir ambientes que modelam uma dada tarefa de uma forma agnóstica permite a implementação de uma framework geral para n­clustering baseada em aprendizagem por reforço. Os agentes podem depois utilizar esta framework de treino para encontrar uma solução de última geração para esta tarefa. A fim de avaliar o comportamento dos ambientes de aprendizagem por reforço que foram concebidos, foi implementado e calibrado um agente de optimização proximal de políticas utilizando treino baseado em populações. Um agente de optimização proximal de políticas foi escolhido porque pode servir como uma boa base para experiências futuras. Devido à sua versatilidade, os agentes de optimização proximal de políticas são largamente considerados como os agentes de referência para experiências em ambientes não explorados. A solução e as limitações alcançadas por este agente normalmente dão pelo menos uma ideia dos seguintes passos a tomar se o agente não conseguir alcançar uma boa solução. Os resultados mostram que os agentes podem aprender a modificar o seu comportamento enquanto interagem com o ambiente para maximizar o seu sinal de recompensa. No entanto, ainda estão longe de ser uma solução para o n­clustering. Esta dissertação é o primeiro passo para esta solução e apresentou o trabalho fundamental, mas ainda há muito mais trabalho a ser feito para que esta abordagem possa ultrapassar os algoritmos mais avança dos.Por fim, são propostos os próximos passos para melhorar estes resultados, e que para num futuro próximo, esta abordagem possa vir a resolver a tarefa do n­clustering

    Biclustering fMRI time series

    Get PDF
    Tese de mestrado, Ciência de Dados, Universidade de Lisboa, Faculdade de Ciências, 2020Biclustering é um método de análise que procura gerar clusters tendo em conta simultaneamente as linhas e as colunas de uma matriz de dados. Este método tem sido vastamente explorado em análise de dados genéticos. Apesar de diversos estudos reconhecerem as capacidades deste método de análise em outras áreas de investigação, as últimas duas décadas tem sido marcadas por um número elevado de estudos aplicados em dados genéticos e pela ausência de uma linha de investigação que explore as capacidades de biclustering fora desta área tradicional Esta tese segue pistas que sugerem potencial no uso de biclustering em dados de natureza espaço-temporal. Considerando o contexto particular das neurociências, esta tese explora as capacidades dos algoritmos de biclustering em extrair conhecimento das séries temporais geradas por técnicas de imagem por ressonância magnética funcional (fMRI). Eta tese propõe uma metodologia para avaliar a capacidade de algoritmos de biclustering em estudar dados fMRI, considerando tanto dados sintéticos como dados reais. Para avaliar estes algoritmos, usamos métricas de avaliação interna. Os nossos resultados discutem o uso de diversas estratégias de busca, revelando a superioridade de estratégias exaustivos para obter os biclusters mais homogéneos. No entanto, o elevado custo computacional de estratégias exaustivas ainda são um desafio e é necessário pesquisa adicional para a busca eficiente de biclusters no contexto de análise de dados fMRI. Propomos adicionalmente uma nova metodologia de análise de biclusters baseada em algoritmos de descoberta de padrões para determinar os padrões mais frequentes presentes nas soluções de biclustering geradas. Um bicluster não é mais que um hipervértice num hipergrafo . Extrair padrões frequentes numa solução de biclustering implica extrair os hipervértices mais significativos. Numa primeira abordagem, isto permite entender relações entre regiões do cérebro e traçar perfis temporais que métodos tradicionais de estudos de correlação não são capazes de detetar. Adicionalmente, o processo de gerar os biclusters permite filtrar ligações pouco interessantes, permitindo potencialmente gerar hipergrafos de forma eficiente. A questão final é o que podemos fazer com este conhecimento. Conhecer a relação entre regiões do cérebro é o objetivo central das neurociências. Entender as ligações entre regiões do cérebro para vários sujeitos permitem traçar perfis. Nesse caso, propomos uma metodologia para extrapolar biclusters para dados tridimensionais e efetuar triclustering. Adicionalmente, entender a ligação entre zonas cerebrais permite identificar doenças como a esquizofrenia, demência ou o Alzheimer. Este trabalho aponta caminhos para o uso de biclustering na análise de dados espaço-temporais, em particular em neurociências. A metodologia de avaliação proposta mostra evidências da eficácia do biclustering para encontrar padrões locais em dados de fMRI, embora mais trabalhos sejam necessários em relação à escalabilidade para promover a aplicação em cenários reais.The effectiveness of biclustering, simultaneous clustering of both rows and columns in a data matrix, has been primarily shown in gene expression data analysis. Furthermore, several researchers recognize its potentialities in other research areas. Nevertheless, the last two decades witnessed many biclustering algorithms targeting gene expression data analysis and a lack of consistent studies exploring the capacities of biclustering outside this traditional application domain. Following hints that suggest potentialities for biclustering on Spatiotemporal data, particularly in neurosciences, this thesis explores biclustering’s capacity to extract knowledge from fMRI time series. This thesis proposes a methodology to evaluate biclustering algorithms’ feasibility to study the fMRI signal, considering both synthetic and realworld fMRI datasets. In the absence of ground truth to compare bicluster solutions with a reference one, we used internal valuation metrics. Results discussing the use of different search strategies showed the superiority of exhaustive approaches, obtaining the most homogeneous biclusters. However, their high computational cost is still a challenge, and further work is needed for the efficient use of biclustering in fMRI data analysis. We propose a new methodology for analyzing biclusters based on performing pattern mining algorithms to determine the most frequent patterns present in the generated biclustering solutions. A bicluster is nothing more than a hyperlink in a hypergraph. Extracting frequent patterns in a biclustering solution implies extracting the most significant hyperlinks. In a first approach, this allows to understand relationships between regions of the brain and draw temporal profiles that traditional methods of correlation studies cannot detect. Additionally, the process of generating biclusters allows filtering uninteresting links, potentially allowing to generate hypergraphs efficiently. The final question is, what can we do with this knowledge. Knowing the relationship between brain regions is the central objective of neurosciences. Understanding the connections between regions of the brain for various subjects allows one to draw profiles. In this case, we propose a methodology to extrapolate biclusters to threedimensional data and perform triclustering. Additionally, understanding the link between brain zones allows identifying diseases like schizophrenia, dementia, or Alzheimer’s. This work pinpoints avenues for the use of biclustering in Spatiotemporal data analysis, in particular neurosciences applications. The proposed evaluation methodology showed evidence of biclustering’s effectiveness in finding local fMRI data patterns, although further work is needed regarding scalability to promote the application in real scenarios

    Development of artificial neural network-based object detection algorithms for low-cost hardware devices

    Get PDF
    Finally, the fourth work was published in the “WCCI” conference in 2020 and consisted of an individuals' position estimation algorithm based on a novel neural network model for environments with forbidden regions, named “Forbidden Regions Growing Neural Gas”.The human brain is the most complex, powerful and versatile learning machine ever known. Consequently, many scientists of various disciplines are fascinated by its structures and information processing methods. Due to the quality and quantity of the information extracted from the sense of sight, image is one of the main information channels used by humans. However, the massive amount of video footage generated nowadays makes it difficult to process those data fast enough manually. Thus, computer vision systems represent a fundamental tool in the extraction of information from digital images, as well as a major challenge for scientists and engineers. This thesis' primary objective is automatic foreground object detection and classification through digital image analysis, using artificial neural network-based techniques, specifically designed and optimised to be deployed in low-cost hardware devices. This objective will be complemented by developing individuals' movement estimation methods by using unsupervised learning and artificial neural network-based models. The cited objectives have been addressed through a research work illustrated in four publications supporting this thesis. The first one was published in the “ICAE” journal in 2018 and consists of a neural network-based movement detection system for Pan-Tilt-Zoom (PTZ) cameras deployed in a Raspberry Pi board. The second one was published in the “WCCI” conference in 2018 and consists of a deep learning-based automatic video surveillance system for PTZ cameras deployed in low-cost hardware. The third one was published in the “ICAE” journal in 2020 and consists of an anomalous foreground object detection and classification system for panoramic cameras, based on deep learning and supported by low-cost hardware

    Adapting image processing and clustering methods to productive efficiency analysis and benchmarking: A cross disciplinary approach

    Get PDF
    This dissertation explores the interdisciplinary applications of computational methods in quantitative economics. Particularly, this thesis focuses on problems in productive efficiency analysis and benchmarking that are hardly approachable or solvable using conventional methods. In productive efficiency analysis, null or zero values are often produced due to the wrong skewness or low kurtosis of the inefficiency distribution as against the distributional assumption on the inefficiency term. This thesis uses the deconvolution technique, which is traditionally used in image processing for noise removal, to develop a fully non-parametric method for efficiency estimation. Publications 1 and 2 are devoted to this topic, with focus being laid on the cross-sectional case and panel case, respectively. Through Monte-Carlo simulations and empirical applications to Finnish electricity distribution network data and Finnish banking data, the results show that the Richardson-Lucy blind deconvolution method is insensitive to the distributio-nal assumptions, robust to the data noise levels and heteroscedasticity on efficiency estimation. In benchmarking, which could be the next step of productive efficiency analysis, the 'best practice' target may not perform under the same operational environment with the DMU under study. This would render the benchmarks impractical to follow and adversely affects the managers to make the correct decisions on performance improvement of a DMU. This dissertation proposes a clustering-based benchmarking framework in Publication 3. The empirical study on Finnish electricity distribution network reveals that the proposed framework novels not only in its consideration on the differences of the operational environment among DMUs, but also its extreme flexibility. We conducted a comparison analysis on the different combinations of the clustering and efficiency estimation techniques using computational simulations and empirical applications to Finnish electricity distribution network data, based on which Publication 4 specifies an efficient combination for benchmarking in energy regulation.  This dissertation endeavors to solve problems in quantitative economics using interdisciplinary approaches. The methods developed benefit this field and the way how we approach the problems open a new perspective

    Patterns of positive selection on the transcriptome of western Iberian Squalius fish: a new approach accounting for alternative splicing

    Get PDF
    Tese de mestrado, Biologia Evolutiva e do Desenvolvimento, Universidade de Lisboa, Faculdade de Ciências, 2019One of the main goals of evolutionary biology is to understand the molecular mechanisms of adaptation. Advances on next generation sequencing (NGS) have allowed to improve our knowledge on the mechanisms of adaptation, including in non-model organisms. One example is the use of RNA-seq data to test at the transcriptome level for the presence of signatures of positive selection using the ratio of non-synonymous to synonymous mutations (dN/dS ratio). However, the identification of orthologous sequences between the transcriptomes of different species is challenging because of the possibility of mixing different splicing isoforms on the ortholog alignments. Even so, by providing tens of thousands of sequences for protein coding genes, RNA-seq can be a powerful tool for understanding the time and mode of the adaptative process. In Portugal, the western Iberian freshwater cyprinids of the Squalius genus are a good system to study adaptation. The reason is that there are four species (S. carolitertii, S. pyrenaicus, S. torgalensis and S. aradensis) distributed across a north-south temperature cline, encompassing two distinct climate types – Atlantic and Mediterranean. Recent studies found evidences of adaptation to temperature in one of the southern species (S. torgalensis). In this study, we compared the transcriptomes of these four species to look for genes with signatures of positive selection, infer branches of their phylogeny with evidence for positive selection, and identify biological functions that were enriched in genes under positive selection. We also characterized the relationship between these species at the transcriptome level. Since our RNA-seq data for the different species came from different organs our study was especially vulnerable to the effect of alternative splicing. We have thus developed a new approach to deal with alternative splicing in comparative studies using transcriptomic data. Our approach was based on identifying ortholog alignments with different splicing isoforms and remove the regions on the alignments with exons that were not common between isoforms. Our results suggest that our approach manages to reduce the quantity of false positives related to alternative splicing in comparison with a more conventional approach. Regarding the phylogenetic relationship between species, we found support for the paraphyly between S. pyrenaicus and S. carolitertii, which has been also suggested by recent studies. Regarding the patterns of positive selection on these species, we found positive selection in 1.4% to 2.0% of the identified ortholog gene groups, which is comparable to what has been estimated for bony fish species in other studies. Interestingly, we found a relatively higher number of genes under positive selection on the branches of the southern species under the Mediterranean climate type than on the northern species under the Atlantic climate type. This could suggest that the southern Squalius species might be under stronger selective pressures due to the characteristics of the Mediterranean climate type, like high summer temperatures. We also found that the genes with signatures of selection were enriched on several biological functions, including blood coagulation, immunity, proteolysis, development and metabolism. Rather than having particular functions associated with specific branches of the phylogeny, most of the biological functions were generic and distributed similarly across species. This suggests that these biological functions have been consistently selected on the phylogeny. In conclusion, in this study we present a new approach to deal with alternative splicing on comparative studies using transcriptomic data, which can be useful for comparative studies on other species. We also present new transcriptomic data for two species of western Iberian Squalius – S. aradensis and the Tagus population of S. pyrenaicus. These results can be used as a resource for further studies on adaptation using the western Iberian Squalius as a model

    Adverse drug reaction extraction on electronic health records written in Spanish

    Get PDF
    148 p.This work focuses on the automatic extraction of Adverse Drug Reactions (ADRs) in Electronic HealthRecords (EHRs). That is, extracting a response to a medicine which is noxious and unintended and whichoccurs at doses normally used. From Natural Language Processing (NLP) perspective, this wasapproached as a relation extraction task in which the drug is the causative agent of a disease, sign orsymptom, that is, the adverse reaction.ADR extraction from EHRs involves major challenges. First, ADRs are rare events. That is, relationsbetween drugs and diseases found in an EHR are seldom ADRs (are often unrelated or, instead, related astreatment). This implies the inference from samples with skewed class distribution. Second, EHRs arewritten by experts often under time pressure, employing both rich medical jargon together with colloquialexpressions (not always grammatical) and it is not infrequent to find misspells and both standard andnon-standard abbreviations. All this leads to a high lexical variability.We explored several ADR detection algorithms and representations to characterize the ADR candidates.In addition, we have assessed the tolerance of the ADR detection model to external noise such as theincorrect detection of implied medical entities implied in the ADR extraction, i.e. drugs and diseases. Westtled the first steps on ADR extraction in Spanish using a corpus of real EHRs

    Bioinformatic analysis and deep learning on large-scale human transcriptomic data: studies on aging, Alzheimer’s neurodegeneration and cancer

    Get PDF
    [ES] El objetivo general del proyecto ha sido el análisis bioinformático integrativo de datos múltiples de proteómica y genómica combinados con datos clínicos asociados para la búsqueda de biomarcadores y módulos poligénicos causales aplicado a enfermedades complejas; principalmente, cáncer de origen primario desconocido, en sus distintos tipos y subtipos y enfermedades neurodegenerativas (ND) mayormente Alzheimer, además de neurodegeneración debida a la edad. Además, se ha hecho un uso intensivo de técnicas de inteligencia artificial, más en concreto de técnicas de redes neuronales de aprendizaje profundo para el análisis y pronóstico de dichas enfermedades

    Global characterization of the immune response to inoculation of aluminium hydroxide-based vaccines by RNA sequencing

    Get PDF
    xix, 195 p.En este trabajo se han analizado muestras correspondientes a un experimento de vacunación de larga duración. Múltiples ovejas fueron expuestas a varias vacunas compuestas de aluminio hidróxido como adyuvante en un periodo de 475 días, con el objetivo de estudiar el mecanismo de acción de dicho adyuvante en el sistema inmune y comprobar si es capaz de llegar a órganos distantes como el cerebro después de su inoculación. Para ello se extrajeron muestras de células mononucleares de sangre periférica y de la corteza del lóbulo parietal y se usaron para la preparación de librerías de secuenciación de ARN y microRNAs (Total RNA-seq y miRNA-seq). Las librerías se analizaron mediante herramientas bioinformáticas y se realizaron multiples análisis: 1. Expresión diferencial tanto para los datos de RNA-seq como para los de miRNA-seq; 2. Anotación de nuevos miRNAs en oveja; 3. Predicción de targets para los miRNAs y análisis de co-expresión con los datos de RNA-seq. Además, como las librerías de Total RNA-seq retienen el ARN no codificante, que esta pobremente anotado en oveja, dichos datos se usaron para la anotación de ARN circulares en oveja y se estudió si dichos ARN no-codificantes pudieran tener algún rol en la actividad del aluminio como adyuvante

    Global characterization of the immune response to inoculation of aluminium hydroxide-based vaccines by RNA sequencing

    Get PDF
    xix, 195 p.En este trabajo se han analizado muestras correspondientes a un experimento de vacunación de larga duración. Múltiples ovejas fueron expuestas a varias vacunas compuestas de aluminio hidróxido como adyuvante en un periodo de 475 días, con el objetivo de estudiar el mecanismo de acción de dicho adyuvante en el sistema inmune y comprobar si es capaz de llegar a órganos distantes como el cerebro después de su inoculación. Para ello se extrajeron muestras de células mononucleares de sangre periférica y de la corteza del lóbulo parietal y se usaron para la preparación de librerías de secuenciación de ARN y microRNAs (Total RNA-seq y miRNA-seq). Las librerías se analizaron mediante herramientas bioinformáticas y se realizaron multiples análisis: 1. Expresión diferencial tanto para los datos de RNA-seq como para los de miRNA-seq; 2. Anotación de nuevos miRNAs en oveja; 3. Predicción de targets para los miRNAs y análisis de co-expresión con los datos de RNA-seq. Además, como las librerías de Total RNA-seq retienen el ARN no codificante, que esta pobremente anotado en oveja, dichos datos se usaron para la anotación de ARN circulares en oveja y se estudió si dichos ARN no-codificantes pudieran tener algún rol en la actividad del aluminio como adyuvante
    corecore