4 research outputs found

    Applying machine learning to predict pathology response in colorectal cancer

    Get PDF
    Las técnicas de machine learning (ML) están transformando muchos de los aspectos nuestra sociedad hoy en día. En el campo de la medicina y más especificamente en la oncología el ML esta siendo aplicado desde los laboratorios hasta la práctica clínica. En este proyecto se aplicarán 4 modelos de ML en el prognóstico de supervivencia a 5 años a partir datos ómicos de cancer colorrectal. A la vez, se evaluará el sesgo en las predicciones de los modelos considerando como variable de estudio ’RACE’ y como atributo sensible ’Black and African American’. El conjunto de datos usado pertenece a una cohorte real de 594 pacientes y fue descargado del repositorio público The Cancer Genome Atlas (TCGA). El tipo de datos ómico aociado a cada muestra y aplicado en el desarrollo de los modelos fue la integración de datos RNAseq, grado de metilación y abundancia de microorganismos en microbioma. Las variables más significativas de los conjuntos de datos ómicos se realizó mediante 2 métodos de selección de variables secuencialmente aplicados. Las 30 variables más signíficativas de cada conjunto de dato ómico fueron aplicadas en el desarrollo de los modelos de ML. Los modelos de ML fueron implementados usando las librerías lgbm de Python y Caret de R. El rendimiento de los modelos se evaluó mediante 5x2 Cross Validation. Una selección de métricas fueron aplicadas tanto en la evaluación del rendimiento de los modelos ML, como en la detección de bias en sus predicciones. Los resultados mostraron diferencias significativas en el rendimiento entre las familias de los modelos de ML aplicados. El análisis del sesgo en las predicciones se vio influida por la proporción desbalanceada de las variables en la variable ’Race’, provocando una disminución en la robustez de los resultados en las métricas aplicadas

    Personalized large scale classification of public tenders on hadoop

    Get PDF
    Ce projet a été réalisé dans le cadre d’un partenariat entre Fujitsu Canada et Université Laval. Les besoins du projets ont été centrés sur une problématique d’affaire définie conjointement avec Fujitsu. Le projet consistait à classifier un corpus d’appels d’offres électroniques avec une approche orienté big data. L’objectif était d’identifier avec un très fort rappel les offres pertinentes au domaine d’affaire de l’entreprise. Après une séries d’expérimentations à petite échelle qui nous ont permise d’illustrer empiriquement (93% de rappel) l’efficacité de notre approche basé sur l’algorithme BNS (Bi-Normal Separation), nous avons implanté un système complet qui exploite l’infrastructure technologique big data Hadoop. Nos expérimentations sur le système complet démontrent qu’il est possible d’obtenir une performance de classification tout aussi efficace à grande échelle (91% de rappel) tout en exploitant les gains de performance rendus possible par l’architecture distribuée de Hadoop.This project was completed as part of an innovation partnership with Fujitsu Canada and Université Laval. The needs and objectives of the project were centered on a business problem defined jointly with Fujitsu. Our project aimed to classify a corpus of electronic public tenders based on state of the art Hadoop big data technology. The objective was to identify with high recall public tenders relevant to the IT services business of Fujitsu Canada. A small scale prototype based on the BNS algorithm (Bi-Normal Separation) was empirically shown to classify with high recall (93%) the public tender corpus. The prototype was then re-implemented on a full scale Hadoop cluster using Apache Pig for the data preparation pipeline and using Apache Mahout for classification. Our experimentation show that the large scale system not only maintains high recall (91%) on the classification task, but can readily take advantage of the massive scalability gains made possible by Hadoop’s distributed architecture

    IEEE/ACM Transactions on Computational Biology and Bioinformatics: Vol. 10, No. 3, May-June 2013

    No full text
    1. A Recent Survey on Colon Cancer Detection Techniques / Saima Rathore, Mutawarra Hussain, Ahmad Ali, Asifullah Khan 2. A Combination of Feature Extraction Methods With an Ensemble of Different Classifiers for Protein Structural Class Prediction Problem / Abdollah Dehzangi, Kuldip Paliwal, Alok Sharma, Omid Dehzangi, and Abdul Sattar 3. Accuracy Guarantees for Phylogeny Reconstruction Algorithms Based on balanced Minimum Evolution / Magnus Bordewich, Radu Mihaescu 4. Boolean Networks with Multiexpressions and Parameters / Yi Ming Zou 5. Comparison of Feature Selection Methods for Cross-Laboratory Microarray Analysis / Hsi-Che Liu, Pei-Chen Peng, Tzung-Chiens Hsieh, Ting-Chi Yeh, Chih-Jen Lin, Chien-Yu Chen, Jen-Yin Hou, Lee-Yung Shih, Der-Cherng Liang 6. Designing Integrated Computational Biology Pipelines Visually / H. M. Jamil 7. Gelsius: A Literature-Based Workflow for Determining Quantitative Associations between Genes and Biological Processes / F. Abate, A. Acquaviva, E. Ficarra, R. Piva, E. Macii 8. Generalized Query-Based Active Laerning to Identify Differentially Methylted Regions in DNA / M. M. Haque, L. B. Holder, M. K. Skinner, D. J. Cook 9. GenomeTools: A Comprehensive Software Library fo Efficient Processing fo Structured Genome Annotations 10. Hybrid Fuzzy Cluster Ensemble Framework for Tumor Clustering from Biomolecular Data / Z. Yu, H. Chen, J. You, G. Han, L. Li 11. Inference of Gene Regulatory Networks with Variabel Time Delay from Time-Series Microarray Data / O. ElBakry, M. O. Ahmad, M. N. S. Swany 12. Informative SNPs Selection Based On Two-Locus and Multiocus Linkage Disequilibrium: Criteria of Max-Correlation and Min-Redundancy / X. Li, B. Liao, L. Cai, Z. Cao, W. Zh
    corecore