3 research outputs found

    Similaridade em linhas celulares nos sitemas de recomendação farmacológicos para o tratamento oncológico

    Get PDF
    Nas últimas décadas a área da saúde tem-se focado na busca de respostas, cada vez mais personalizadas, para o tratamento das mais variadas patologias. Neste caminho encontra-se o doente oncológico, diferenciando-se dos demais pela complexidade da sua patologia. Neste sentido têm surgido novas disciplinas como: a Bioinformática, a Farmacogenómica, o Machine Learning, o Data Mining, a Genómica, entre outras. A descoberta do sequenciamento genético tem avanços muito significativos nestas áreas, permitindo cada vez mais praticar a chamada medicina de precisão e individualizada para cada doente. Ou seja, cada vez mais o doente é tratado de forma individualizada, com uma determinada patologia, e não um grupo de doentes com características distintas, que detêm a mesma patologia. Será estudada a similaridade entre linhas celulares, tendo por base os Sistemas de Recomendação (RecSys), para o tratamento do doente oncológico. Na implementação deste projeto usar-se-á a metodologia Cross-Industry Standard Process for Data Mining (CRISP DM), onde serão abordadas métricas de similaridade e algoritmos de machine learning, por forma a responder à identificação da similaridade entre linhas celulares. O dataset usado foi o do Genomics of Drug Sensitivity in Cancer (GDSC1), tendo-se selecionado uma amostra de 20 linhas celulares (10 amostras referentes à patologia da mama e 10 amostras referentes a patologias da pele), com 49386 genes cada, dado os recursos de hardware. Para avaliar a similaridade da expressão génica entre estas linhas celulares, serão aplicadas métricas de similaridade, para avaliar 3 genes de uma amostra das 20 linhas celulares, e por outro lado os algoritmos de machine learning onde serão avaliados os 49386 genes de cada amostra das 20 linhas celulares. Assim as métricas de similaridade testadas foram as distâncias de Dice, Jaccard, Sorensen, Czekanowski, Minkowski, Pearson, Intersection, Manhattan, Tanimoto e Euclideana. Na parte dos algoritmos de machine learning foram testados: Rede Neural Artificial, Logistic regression, Linear discriminant analysis, K-Nearest Neighbors, DecisionTreeClassifier, Gaussian NB e Support vector machine. Como conclusão dos resultados obtidos, as distâncias de similaridade com melhores resultados foram Jaccard e Dice, uma vez que apresentaram os resultados mais consistentes para os dois genes selecionados sendo que num dos genes os resultados ainda foram mais consistentes, já os algoritmos que apresentaram uma melhor accuracy foram Logistic Regression, Linear Discriminant Analysis e Gaussian NB

    GDSCTools for mining pharmacogenomic interactions in cancer

    No full text
    International audienceMotivation: Large pharmacogenomic screenings integrate heterogeneous cancer genomic datasets as well as anti-cancer drug responses on thousand human cancer cell lines. Mining this data to identify new therapies for cancer sub-populations would benefit from common data structures, modular computational biology tools and user-friendly interfaces.Results: We have developed GDSCTools: a software aimed at the identification of clinically relevant genomic markers of drug response. The Genomics of Drug Sensitivity in Cancer (GDSC) database (www.cancerRxgene.org) integrates heterogeneous cancer genomic datasets as well as anti-cancer drug responses on a thousand cancer cell lines. Including statistical tools (analysis of variance) and predictive methods (Elastic Net), as well as common data structures, GDSCTools allows users to reproduce published results from GDSC and to implement new analytical methods. In addition, non-GDSC data resources can also be analysed since drug responses and genomic features can be encoded as CSV files
    corecore