3 research outputs found
Similaridade em linhas celulares nos sitemas de recomendação farmacológicos para o tratamento oncológico
Nas últimas décadas a área da saúde tem-se focado na busca de respostas, cada vez mais
personalizadas, para o tratamento das mais variadas patologias. Neste caminho encontra-se
o doente oncológico, diferenciando-se dos demais pela complexidade da sua patologia. Neste
sentido têm surgido novas disciplinas como: a Bioinformática, a Farmacogenómica, o
Machine Learning, o Data Mining, a Genómica, entre outras. A descoberta do
sequenciamento genético tem avanços muito significativos nestas áreas, permitindo cada vez
mais praticar a chamada medicina de precisão e individualizada para cada doente. Ou seja,
cada vez mais o doente é tratado de forma individualizada, com uma determinada patologia,
e não um grupo de doentes com características distintas, que detêm a mesma patologia.
Será estudada a similaridade entre linhas celulares, tendo por base os Sistemas de
Recomendação (RecSys), para o tratamento do doente oncológico. Na implementação deste
projeto usar-se-á a metodologia Cross-Industry Standard Process for Data Mining (CRISP DM), onde serão abordadas métricas de similaridade e algoritmos de machine learning, por
forma a responder à identificação da similaridade entre linhas celulares. O dataset usado foi
o do Genomics of Drug Sensitivity in Cancer (GDSC1), tendo-se selecionado uma amostra
de 20 linhas celulares (10 amostras referentes à patologia da mama e 10 amostras referentes
a patologias da pele), com 49386 genes cada, dado os recursos de hardware. Para avaliar a
similaridade da expressão génica entre estas linhas celulares, serão aplicadas métricas de
similaridade, para avaliar 3 genes de uma amostra das 20 linhas celulares, e por outro lado
os algoritmos de machine learning onde serão avaliados os 49386 genes de cada amostra das
20 linhas celulares. Assim as métricas de similaridade testadas foram as distâncias de Dice,
Jaccard, Sorensen, Czekanowski, Minkowski, Pearson, Intersection, Manhattan, Tanimoto e
Euclideana. Na parte dos algoritmos de machine learning foram testados: Rede Neural
Artificial, Logistic regression, Linear discriminant analysis, K-Nearest Neighbors,
DecisionTreeClassifier, Gaussian NB e Support vector machine. Como conclusão dos
resultados obtidos, as distâncias de similaridade com melhores resultados foram Jaccard e
Dice, uma vez que apresentaram os resultados mais consistentes para os dois genes
selecionados sendo que num dos genes os resultados ainda foram mais consistentes, já os algoritmos que apresentaram uma melhor accuracy foram Logistic Regression, Linear
Discriminant Analysis e Gaussian NB
GDSCTools for mining pharmacogenomic interactions in cancer
International audienceMotivation: Large pharmacogenomic screenings integrate heterogeneous cancer genomic datasets as well as anti-cancer drug responses on thousand human cancer cell lines. Mining this data to identify new therapies for cancer sub-populations would benefit from common data structures, modular computational biology tools and user-friendly interfaces.Results: We have developed GDSCTools: a software aimed at the identification of clinically relevant genomic markers of drug response. The Genomics of Drug Sensitivity in Cancer (GDSC) database (www.cancerRxgene.org) integrates heterogeneous cancer genomic datasets as well as anti-cancer drug responses on a thousand cancer cell lines. Including statistical tools (analysis of variance) and predictive methods (Elastic Net), as well as common data structures, GDSCTools allows users to reproduce published results from GDSC and to implement new analytical methods. In addition, non-GDSC data resources can also be analysed since drug responses and genomic features can be encoded as CSV files