8 research outputs found
Sickle cell disease and priapism data mining
O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença.Technology has been producing large biological datasets of genome sequences, gene and protein expression, RNA and protein structure, images, electronic questionnaires and laboratory test results. In order to extract information and knowledge from these large datasets, data mining techniques have been used in the investigation of a wide range of biological processes, with the goal of predicting gene, gene function, phenotype, regulatory modules, molecular interaction, protein function and protein structure. Each dataset has different characteristics and demands the application of different statistical methodologies and pattern recognition algorithms, such as Random Forests, Neural Networks, Deep Learning, Markov Hidden Model, Support Vector Machine, K-means and Principal Component Analysis. The choice of the algorithm depends on data type, data generation, data characteristics and goal of the study. Therefore, the goal of this work was to explore pattern recognition and statistical techniques in a biological dataset on sickle cell disease patients, in order to extract information and knowledge about the biological systems, processes and mechanisms associated with the disease. A diverse dataset was analyzed, containing data from medical records, patient interviews, laboratory tests and single nucleotide polymorphisms. The dataset requires a variety of analysis approaches, in order to explore and reveal the hidden data structure. In an initial investigation, pattern recognition algorithms were used in the analysis of clinical data from sickle cell patients, in order to obtain clusters containing similar patients. PCAMix, PAM and TwoStep clustering algorithms generated homogeneous clusters of patients that display different clinical characteristics and different levels of disease severity. The results show that age, bilirubin levels, transfusion history, vaso-occlusive pain episodes, acute chest syndrome, infarctive stroke, hemorrhagic stroke, ischemic attack, leg ulcers, moyamoya, ferritin, reticulocyte count, retinopathy, seizures and transfusional hemosiderosis are important to define homogeneous patient clusters, with distinct levels of sickle cell severity. Additionally, the patients with history of priapism, a sickle cell related complication, were studied. The goal of the study was to characterize patients with priapism history and investigate genetic factors that modify the risks of the disease. Priapism more frequently occurred among patients with HbSS genotype and was associated with older age and occurrence of pulmonary hypertension and avascular necrosis. Two novel SNPs were associated with priapism and there was evidence of replication of a previously reported association of TGFBR3 with priapism risk
HIV mutation classification framework
Um grande número de medicamentos utilizados no tratamento contra o HIV agem procurando inibir a ação das proteínas transcriptase reversa e protease. Mutações existentes nas sequências dessas proteínas podem estar relacionadas à resistência aos medicamentos e podem prejudicar o desempenho de um tratamento. O estudo do genótipo dos vírus pode ajudar na tomada de escolhas específicas em tratamentos para cada indivíduo, tornando maiores a chance de sucesso. Com a maior acessibilidade a exames de genotipagem, uma grande quantidade de sequências do vírus está disponível, contendo um grande volume de informação. Padrões de ocorrência de mutações são exemplos de informações contidas nessas sequências e são importantes por estarem relacionados à resistência aos medicamentos. Um dos caminhos que pode ser capaz de nos levar ao entendimento desses padrões de mutações é a aplicação de técnicas de agrupamento e biclustering. Essas técnicas visam a geração de grupos ou biclusters que possuam dados com propriedades em comum. São empregadas em casos em que não há grande quantidade de informação prévia e existem poucas hipóteses sobre os dados. Assim, pode-se encontrar os padrões de mutações que ocorrem nessas sequências e tentar relacioná-los com a resistência aos medicamentos, utilizando métodos de agrupamento e bicluster em sequências de protease e transcriptase reversa. Existem alguns sistemas que tentam predizer a resistência ou susceptibilidade das sequências, porém, devido à grande complexidade dessa relação, ainda é necessário esclarecer o vínculo entre combinações de mutações e níveis de resistência fenotípica. Desta forma, a principal contribuição deste trabalho é o desenvolvimento de um framework baseado na aplicação dos algoritmos KMédias e Bimax às sequências de transcriptase reversa e protease de pacientes infectados com HIV, em uma codificação binária. O presente trabalho também introduz uma representação visual dos grupos e biclusters baseada em dados de microarranjos para casos em que se tem grandes volumes de dados, de forma a facilitar a visualização da informação extraída e a caracterização dos grupos e biclusters no domínio da doença.Drugs used in HIV treatment intend to inhibit protease and reverse transcriptase. Mutations in the sequences of these proteins can be related to drug resistance and can reduce treatment efficacy. Studying virus genotype may help choosing specific treatments for each patient, increasing success probability. As genotyping tests become available, a great amount of virus sequences, which comprehend lots of information, are more accessible. Patterns of mutation are examples of information comprised in the sequences and are important since are related to drug resistance. One way that can lead to the understanding of these mutation patterns is the use of clustering and biclustering techniques. These techniques search for clusters or biclusters comprising data with similar attributes. They are used when there is not a lot of previous information and there are few hypothesis about the data. Therefore, it may be possible to find patterns of mutations in the sequences and to relate them to drug resistance using clustering and biclustering techniques with protease and reverse transcriptase sequences. There are a few systems that predict drug resistance according to the sequence of the virus, however, due to the complexity of the relationship, it is still necessary to elucidate the connection between mutation combinations and the level of phenotypic resistance. Accordingly, this work main contribution is the development of a framework based on Kmeans and Bimax algorithms with protease and reverse transcriptase sequences from HIV patients in a binary form. This work also presents a visual representation of the clusters and biclusters based on microarray data suitable for large data volumes, helping the visualization of information extracted from data and cluster and bicluster characterization in the disease domain
HIV mutation classification framework
Um grande número de medicamentos utilizados no tratamento contra o HIV agem procurando inibir a ação das proteínas transcriptase reversa e protease. Mutações existentes nas sequências dessas proteínas podem estar relacionadas à resistência aos medicamentos e podem prejudicar o desempenho de um tratamento. O estudo do genótipo dos vírus pode ajudar na tomada de escolhas específicas em tratamentos para cada indivíduo, tornando maiores a chance de sucesso. Com a maior acessibilidade a exames de genotipagem, uma grande quantidade de sequências do vírus está disponível, contendo um grande volume de informação. Padrões de ocorrência de mutações são exemplos de informações contidas nessas sequências e são importantes por estarem relacionados à resistência aos medicamentos. Um dos caminhos que pode ser capaz de nos levar ao entendimento desses padrões de mutações é a aplicação de técnicas de agrupamento e biclustering. Essas técnicas visam a geração de grupos ou biclusters que possuam dados com propriedades em comum. São empregadas em casos em que não há grande quantidade de informação prévia e existem poucas hipóteses sobre os dados. Assim, pode-se encontrar os padrões de mutações que ocorrem nessas sequências e tentar relacioná-los com a resistência aos medicamentos, utilizando métodos de agrupamento e bicluster em sequências de protease e transcriptase reversa. Existem alguns sistemas que tentam predizer a resistência ou susceptibilidade das sequências, porém, devido à grande complexidade dessa relação, ainda é necessário esclarecer o vínculo entre combinações de mutações e níveis de resistência fenotípica. Desta forma, a principal contribuição deste trabalho é o desenvolvimento de um framework baseado na aplicação dos algoritmos KMédias e Bimax às sequências de transcriptase reversa e protease de pacientes infectados com HIV, em uma codificação binária. O presente trabalho também introduz uma representação visual dos grupos e biclusters baseada em dados de microarranjos para casos em que se tem grandes volumes de dados, de forma a facilitar a visualização da informação extraída e a caracterização dos grupos e biclusters no domínio da doença.Drugs used in HIV treatment intend to inhibit protease and reverse transcriptase. Mutations in the sequences of these proteins can be related to drug resistance and can reduce treatment efficacy. Studying virus genotype may help choosing specific treatments for each patient, increasing success probability. As genotyping tests become available, a great amount of virus sequences, which comprehend lots of information, are more accessible. Patterns of mutation are examples of information comprised in the sequences and are important since are related to drug resistance. One way that can lead to the understanding of these mutation patterns is the use of clustering and biclustering techniques. These techniques search for clusters or biclusters comprising data with similar attributes. They are used when there is not a lot of previous information and there are few hypothesis about the data. Therefore, it may be possible to find patterns of mutations in the sequences and to relate them to drug resistance using clustering and biclustering techniques with protease and reverse transcriptase sequences. There are a few systems that predict drug resistance according to the sequence of the virus, however, due to the complexity of the relationship, it is still necessary to elucidate the connection between mutation combinations and the level of phenotypic resistance. Accordingly, this work main contribution is the development of a framework based on Kmeans and Bimax algorithms with protease and reverse transcriptase sequences from HIV patients in a binary form. This work also presents a visual representation of the clusters and biclusters based on microarray data suitable for large data volumes, helping the visualization of information extracted from data and cluster and bicluster characterization in the disease domain
Sickle cell disease and priapism data mining
O avanço de novas tecnologias tem conduzido à geração de grandes volumes de dados biológicos, provenientes, por exemplo, de sequenciamento de genomas, expressão de genes e proteínas, estrutura de proteínas e RNAs, análise de imagens, formulários eletrônicos e exames médicos. Com o intuito de transformar esses volumosos conjuntos de dados brutos em informação e conhecimento que sejam compreensíveis e interpretáveis, técnicas de mineração de dados têm sido aplicadas no estudos de diversos processos biológicos, como a predição de genes, funções de genes, fenótipos, módulos regulatórios, estrutura de proteínas, função de proteínas e descoberta de interações moleculares. Cada conjunto de dados tem suas particularidades, demandando o emprego de distintas metodologias de análises e algoritmos de reconhecimento de padrões, como Florestas Aleatórias, Redes Neurais, Deep Learning, Modelo Oculto de Markov, Máquina de Vetores de Suporte, K-médias e Análise de Componentes Principais. A escolha do algoritmo a ser utilizado é influenciada por fatores como o tipo dos dados, a forma como são gerados, sua natureza, suas características e o objetivo do estudo. Assim, este trabalho teve como objetivo explorar técnicas de reconhecimento de padrões e estatística aplicadas a um conjunto de dados biológicos envolvendo pacientes com anemia falciforme, para extração de informação e conhecimento sobre os processos, fenômenos e sistemas biológicos envolvidos na doença. Foram realizadas análises de um conjunto de dados diverso, proveniente de registros clínicos, entrevistas com pacientes, exames clínicos e sequenciamento de polimorfismos de nucleotídeo único. Os dados demandam diferentes abordagens de análises, exploração e revelação da estrutura de dados intrínseca. Em uma análise inicial, foram aplicados algoritmos de reconhecimento de padrões a dados clínicos de pacientes com anemia falciforme, com o objetivo de obter grupos contendo pacientes similares. Os algoritmos PCAMix, PAM e TwoStep clustering foram capazes de gerar grupos homogêneos de pacientes, sendo que estes grupos apresentam distintas características clínicas e diferentes níveis de gravidade da doença quando comparados entre si. Os resultados indicam que características como idade, níveis de bilirrubina, histórico de transfusões, dor aguda da anemia falciforme, síndrome torácica aguda, acidente vascular cerebral, infarto cerebral silencioso, ataque isquêmico transitório, úlcera de pernas, moyamoya, ferritina, contagem de reti- culócitos, retinopatias, ataques epiléticos e hemossiderose transfusional são importantes para a definição de grupos homogêneos de pacientes, que apresentem distintos níveis de gravidade de anemia falciforme quando comparados entre si. Adicionalmente à análise de agrupamento, o conjunto de pacientes com histórico de priapismo, uma das complicações da anemia falciforme, foi estudado. O objetivo desta análise foi caracterizar clinicamente os pacientes com histórico de priapismo, e investigar fatores genéticos que alterassem o risco da doença. Observou-se que o priapismo ocorreu mais frequentemente em pacientes com genótipo HbSS, estando associado a idades mais avançadas e à ocorrência de hipertensão pulmonar e necrose avascular. Dois novos SNPs foram associados à ocorrência de priapismo, bem como houve indicativo de replicação da associação do gene TGFBR3 ao risco da doença.Technology has been producing large biological datasets of genome sequences, gene and protein expression, RNA and protein structure, images, electronic questionnaires and laboratory test results. In order to extract information and knowledge from these large datasets, data mining techniques have been used in the investigation of a wide range of biological processes, with the goal of predicting gene, gene function, phenotype, regulatory modules, molecular interaction, protein function and protein structure. Each dataset has different characteristics and demands the application of different statistical methodologies and pattern recognition algorithms, such as Random Forests, Neural Networks, Deep Learning, Markov Hidden Model, Support Vector Machine, K-means and Principal Component Analysis. The choice of the algorithm depends on data type, data generation, data characteristics and goal of the study. Therefore, the goal of this work was to explore pattern recognition and statistical techniques in a biological dataset on sickle cell disease patients, in order to extract information and knowledge about the biological systems, processes and mechanisms associated with the disease. A diverse dataset was analyzed, containing data from medical records, patient interviews, laboratory tests and single nucleotide polymorphisms. The dataset requires a variety of analysis approaches, in order to explore and reveal the hidden data structure. In an initial investigation, pattern recognition algorithms were used in the analysis of clinical data from sickle cell patients, in order to obtain clusters containing similar patients. PCAMix, PAM and TwoStep clustering algorithms generated homogeneous clusters of patients that display different clinical characteristics and different levels of disease severity. The results show that age, bilirubin levels, transfusion history, vaso-occlusive pain episodes, acute chest syndrome, infarctive stroke, hemorrhagic stroke, ischemic attack, leg ulcers, moyamoya, ferritin, reticulocyte count, retinopathy, seizures and transfusional hemosiderosis are important to define homogeneous patient clusters, with distinct levels of sickle cell severity. Additionally, the patients with history of priapism, a sickle cell related complication, were studied. The goal of the study was to characterize patients with priapism history and investigate genetic factors that modify the risks of the disease. Priapism more frequently occurred among patients with HbSS genotype and was associated with older age and occurrence of pulmonary hypertension and avascular necrosis. Two novel SNPs were associated with priapism and there was evidence of replication of a previously reported association of TGFBR3 with priapism risk
Recommended from our members
Clinical and Genetic Predictors of Priapism in Sickle Cell Disease: Results from the Recipient Epidemiology and Donor Evaluation Study III Brazil Cohort Study.
INTRODUCTION: Priapism is the persistent and painful erection of the penis and is a common sickle cell disease (SCD) complication. AIM: The goal of this study was to characterize clinical and genetic factors associated with priapism within a large multi-center SCD cohort in Brazil. METHODS: Cases with priapism were compared to SCD type-matched controls within defined age strata to identify clinical outcomes associated with priapism. Whole blood single nucleotide polymorphism genotyping was performed using a customized array, and a genome-wide association study (GWAS) was conducted to identify single nucleotide polymorphisms associated with priapism. MAIN OUTCOME MEASURE: Of the 1,314 male patients in the cohort, 188 experienced priapism (14.3%). RESULTS: Priapism was more common among older patients (P = .006) and more severe SCD genotypes such as homozygous SS (P < .0001). In the genotype- and age-matched analyses, associations with priapism were found for pulmonary hypertension (P = .05) and avascular necrosis (P = .01). The GWAS suggested replication of a previously reported candidate gene association of priapism for the gene transforming growth factor beta receptor 3 (TGFBR3) (P = 2 × 10-4). CLINICAL IMPLICATIONS: Older patients with more severe genotypes are at higher risk of priapism, and there is a lack of consensus on standard treatment strategies for priapism in SCD. STRENGTHS & LIMITATIONS: This study characterizes SCD patients with any history of priapism from a large multi-center cohort. Replication of the GWAS in an independent cohort is required to validate the results. CONCLUSION: These findings extend the understanding of risk factors associated with priapism in SCD and identify genetic markers to be investigated in future studies to further elucidate priapism pathophysiology. Ozahata M, Page GP, Guo Y, et al. Clinical and Genetic Predictors of Priapism in Sickle Cell Disease: Results from the Recipient Epidemiology and Donor Evaluation Study III Brazil Cohort Study. J Sex Med 2019;16:1988-1999