18 research outputs found
Evaluation of cross-validation strategies in sequence-based binding prediction using deep learning
Binding prediction between targets and drug-like compounds through deep neural networks has generated promising results in recent years, outperforming traditional machine learning-based methods. However, the generalization capability of these classification models is still an issue to be addressed. In this work, we explored how different cross-validation strategies applied to data from different molecular databases affect to the performance of binding prediction proteochemometrics models. These strategies are (1) random splitting, (2) splitting based on K-means clustering (both of actives and inactives), (3) splitting based on source database, and (4) splitting based both in the clustering and in the source database. These schemas are applied to a deep learning proteochemometrics model and to a simple logistic regression model to be used as baseline. Additionally, two different ways of describing molecules in the model are tested: (1) by their SMILES and (2) by three fingerprints. The classification performance of our deep learning-based proteochemometrics model is comparable to the state of the art. Our results show that the lack of generalization of these models is due to a bias in public molecular databases and that a restrictive cross-validation schema based on compound clustering leads to worse but more robust and credible results. Our results also show better performance when representing molecules by their fingerprints.Peer ReviewedPostprint (author's final draft
Natural History of MYH7-Related Dilated Cardiomyopathy
BACKGROUND Variants in myosin heavy chain 7 (MYH7) are responsible for disease in 1% to 5% of patients with dilated cardiomyopathy (DCM); however, the clinical characteristics and natural history of MYH7-related DCM are poorly described. OBJECTIVES We sought to determine the phenotype and prognosis of MYH7-related DCM. We also evaluated the influence of variant location on phenotypic expression. METHODS We studied clinical data from 147 individuals with DCM-causing MYH7 variants (47.6% female; 35.6 +/- 19.2 years) recruited from 29 international centers. RESULTS At initial evaluation, 106 (72.1%) patients had DCM (left ventricular ejection fraction: 34.5% +/- 11.7%). Median follow-up was 4.5 years (IQR: 1.7-8.0 years), and 23.7% of carriers who were initially phenotype-negative developed DCM. Phenotypic expression by 40 and 60 years was 46% and 88%, respectively, with 18 patients (16%) first diagnosed at <18 years of age. Thirty-six percent of patients with DCM met imaging criteria for LV noncompaction. During follow-up, 28% showed left ventricular reverse remodeling. Incidence of adverse cardiac events among patients with DCM at 5 years was 11.6%, with 5 (4.6%) deaths caused by end-stage heart failure (ESHF) and 5 patients (4.6%) requiring heart transplantation. The major ventricular arrhythmia rate was low (1.0% and 2.1% at 5 years in patients with DCM and in those with LVEF of <= 35%, respectively). ESHF and major ventricular arrhythmia were significantly lower compared with LMNA-related DCM and similar to DCM caused by TTN truncating variants. CONCLUSIONS MYH7-related DCM is characterized by early age of onset, high phenotypic expression, low left ventricular reverse remodeling, and frequent progression to ESHF. Heart failure complications predominate over ventricular arrhythmias, which are rare. (C) 2022 The Authors. Published by Elsevier on behalf of the American College of Cardiology Foundation
CIBERER : Spanish national network for research on rare diseases: A highly productive collaborative initiative
Altres ajuts: Instituto de Salud Carlos III (ISCIII); Ministerio de Ciencia e Innovación.CIBER (Center for Biomedical Network Research; Centro de Investigación Biomédica En Red) is a public national consortium created in 2006 under the umbrella of the Spanish National Institute of Health Carlos III (ISCIII). This innovative research structure comprises 11 different specific areas dedicated to the main public health priorities in the National Health System. CIBERER, the thematic area of CIBER focused on rare diseases (RDs) currently consists of 75 research groups belonging to universities, research centers, and hospitals of the entire country. CIBERER's mission is to be a center prioritizing and favoring collaboration and cooperation between biomedical and clinical research groups, with special emphasis on the aspects of genetic, molecular, biochemical, and cellular research of RDs. This research is the basis for providing new tools for the diagnosis and therapy of low-prevalence diseases, in line with the International Rare Diseases Research Consortium (IRDiRC) objectives, thus favoring translational research between the scientific environment of the laboratory and the clinical setting of health centers. In this article, we intend to review CIBERER's 15-year journey and summarize the main results obtained in terms of internationalization, scientific production, contributions toward the discovery of new therapies and novel genes associated to diseases, cooperation with patients' associations and many other topics related to RD research
Ecos de la academia: Revista de la Facultad de Educación, Ciencia y Tecnología - FECYT Nro 4
Ecos de la academia, Revista de la Facultad de Educación Ciencia y Tecnología es una publicación científica de la Universidad Técnica del Norte, con revisión por pares a doble ciego que publica artículos en idioma español, quichua, portugués e inglés. Se edita con una frecuencia semestral con dos números por año.En ella se divulgan trabajos originales e inéditos generados por los investigadores, docentes y estudiantes de la FECYT, y contribuciones de profesionales de instituciones docentes e investigativas dentro y fuera del país, con calidad, originalidad y relevancia en las áreas de ciencias sociales y tecnología aplicada.Los orígenes de la fotografía en la segunda ciudad de Cataluña: Reus, 1839-1903.
Hábitos de consumo y uso de medios digitales en los estudiantes de la Universidad Técnica del Norte.
Gastronomía, historia y cultura afrodescendiente de las comunidades Chota y Salinas en Imbabura, Ecuador.
Los organizadores gráficos: elementos y procedimientos básicos para su diseño.
Análisis del desempeño profesional del graduado de la carrera de Licenciatura en Inglés de la Universidad Técnica del Norte.
Uso del software Aleks como complemento en la asignatura de Fundamentos de Matemáticas del curso de nivelación EPN-SENECYT.
La educación de postgrado y la enseñanza de Redes Neuronales Artificiales como herramienta versátil para egresados.
Home is an uneasty place: Afroperipheralism anda diasporic sensibilities in Wayde Compton’s “The Instrumental”.
Respuesta de la carrera de Educación Básica a las necesidades sociales en la Zona 1 del Ecuador.
Programa SaludArte: Salud, Alimentación y Movimiento entran a las escuelas para mejorar la calidad educativa.
Tendencias de consumo turístico de los Millennials en la ciudad de Ibarra.
Los Grupos de Investigación como estrategias para desarrollo de la investigación científica en las instituciones de educación superior ecuatorianas.
Paradigmas y modelos pedagógicos de los postulados científicos en el espacio de aula en la Universidad Técnica de Ambato.
Predicting academic performance in traditional environments at higher-education institutions using data mining: A review.
El Proyecto de Investigación “Muros que hablan. Un recorrido por los graffitis de Imbabura”.
Construcción de la marca ciudad.
Normas de presentación de artículos científicos en la revista Ecos de la Academia
Data preprocessing and quality diagnosis in deep learning-based in silico bioactivity prediction
Tesi presentada en modalitat de compendi de publicacions; aplicat embargament des de la data de defensa fins el dia 1 d'agost de 2021Drug discovery is a time and resource consuming process involving the identification of a target and the exploration of suitable drug candidates for it. To streamline drug discovery, computational techniques help identifying molecular candidates with desirable properties by modeling their interactions with the target. These techniques are in constant improvement thanks to the development of algorithms, the increasing computational power and the growth of public molecular databases. Specifically, machine learning approaches provide predictive models on biochemical properties and target-ligand binding activity.
Deep learning is a machine learning approach that automatically extracts multiple levels of representations of the data. Within the last ten years, deep learning has outperformed classical prediction models in most domains, including drug discovery. Common use cases encompass molecular property prediction, de novo compound generation, protein secondary structure prediction and target-compound binding prediction.
However, studies point out the reported performance of deep learning bioactivity prediction models could be a consequence of data bias rather than generalization capability. Efforts are being put in addressing this problem, but it is still present in the state of the art, rewarding novelty over critical assessment. Moreover, the flexibility of deep learning derives in a lack of consensus on how to represent the input spaces, making it difficult to compare models in a common benchmark. Bioactivity data has limited availability because of its associated costs and is often imbalanced, hampering the model learning process. The diagnosis of these problems is not straightforward, since deep learning models are considered black boxes, hindering their adoption as the de facto solution in computer-aided drug discovery.
The present thesis aims to improve deep learning models for computational drug discovery, focusing in the input representation, the data bias control, the data imbalance correction and the model diagnosis.
First, this thesis assesses the effect that different validation strategies have on binding classification models, aiming to find the most realistic performance estimates. The strategy based on clustering molecules to avoid having similar compounds in training and test sets showed to be the most similar to a prospective validation, and thus, more consistent than random cross-validation (over-optimistic) or than an external test set from other database (over-pessimistic).
Second, this thesis focuses on the sequential inputs padding. Padding is necessary to establish a common sequence length by adding zeros to each sequence. These are usually added at the end of the sequence, without formal justification behind it. Here, classical and novel padding strategies were compared in an enzyme classification task. Results showed that the padding position has an effect in the performance of deep learning models, so it should be tuned as an additional hyperparameter.
Third, this thesis studies the effect of data imbalance in protein-compound activity classification models and its mitigation through resampling techniques. The model performance was assessed for different combinations of oversampling the minority class and clustering. Results showed that the proportion of actives predicted by the model was explained by the actual data balance in the test set. Data clustering, followed by data resampling in training and validation sets, stood as the best performing strategy without altering the test set.
To accomplish the three points above, this thesis provides a systematic way to diagnose deep learning models, identifying the factors that govern the model predictions and performance. Specifically, explanatory linear models enabled informed, quantitative decisions regarding input preprocessing. This ultimately leads to more consistent deep learning target-compound binding prediction models.El descubrimiento de fármacos es un proceso costoso en tiempo y recursos. Consiste en la identificación de una diana y la exploración de fármacos candidatos apropiados para ella. Las técnicas computacionales optimizan este proceso, ayudando a identificar las mejores moléculas candidatas mediante el modelado de sus interacciones con la diana. Estas técnicas están en constante mejora gracias al desarrollo de algoritmos, al incremento del poder computacional y al aumento de bases de datos moleculares públicas. Particularmente, el aprendizaje automático proporciona modelos predictivos de distintas propiedades bioquímicas. El deep learning (aprendizaje profundo) es una aproximación del aprendizaje automático basada en las redes neuronales multicapa. Durante los últimos diez años el deep learning ha superado a los modelos predictivos clásicos en la mayoría de dominios, incluído el descubrimiento de fármacos. Algunas de sus aplicaciones son la predicción de propiedades moleculares, la generación de nuevos compuestos, la predicción de la estructura secundaria de proteínas y la predicción de unión entre compuestos y dianas. Sin embargo, algunos estudios apuntan a que el rendimiento reportado por los modelos de deep learning de predicción de unión entre dianas y compuestos podría deberse más al sesgo de los datos que a su capacidad de generalización, dando más peso a la novedad que a la valoración crítica. Además, la flexibilidad del deep learning da pie a una falta de consenso en la representación de sus entradas, dificultando su comparación en un marco común. Los datos de bioactividad tienen una disponibilidad limitada debido a su coste y suelen estar desbalanceados, lo cual puede dificultar el proceso de aprendizaje del modelo. El diagnóstico de estos problemas no es sencillo porque los modelos de deep learning son considerados cajas negras. El objetivo de esta tesis es mejorar los modelos de deep learning para el descubrimiento computacional de fármacos, centrándose en la representación de la entrada, el control del sesgo de los datos, la corrección de su desbalance y el diagnóstico de los modelos. Primero, esta tesis evalúa el efecto de diferentes estrategias de validación en los modelos de clasificación de la unión diana-compuesto para encontrar las estimaciones de rendimiento más realistas. La estrategia basada en el agrupamiento de las moléculas demostró ser la más parecida a una validación prospectiva y por tanto, más consistente que la validación cruzada aleatoria (demasiado optimista) o que un conjunto de test externo proveniente de otra base de datos (demasiado pesimista). Segundo, esta tesis se centra en el relleno de las secuencias de entrada, utilizado para establecer una longitud común de las mismas. Este relleno consiste normalmente en añadir ceros al final de cada secuencia, sin una justificación formal detrás esta decisión. Aquí, se compararon estrategias de relleno novedosas y clásicas en una tarea de clasificación de enzimas. Los resultados mostraron que la posición del relleno tiene un efecto sobre el rendimiento de los modelos de aprendizaje profundo, por lo que se le debería dar más atención. Tercero, esta tesis estudia el efecto del desbalance de los datos en los modelos de clasificación de actividad diana-compuesto y su atenuación mediante técnicas de remuestreo. Se evaluó el rendimiento de un modelo para diferentes combinaciones de sobremuestreo de la clase minoritaria y agrupamiento de las moléculas. Los resultados demostraron que el agrupamiento de los datos, seguido por su remuestreo en los conjuntos de entrenamiento y validación, es la estrategia con mejor rendimiento. Por último, esta tesis proporciona una forma sistemática de diagnosticar modelos de deep learning, identificando los factores que rigen sus predicciones. Estos modelos lineales explicativos permitieron la toma de decisiones informadas y cuantitativas en cada unoPostprint (published version
Effect of sequence padding on the performance of deep learning models in archaeal protein functional prediction
The use of raw amino acid sequences as input for deep learning models for protein functional prediction has gained popularity in recent years. This scheme obliges to manage proteins with different lengths, while deep learning models require same-shape input. To accomplish this, zeros are usually added to each sequence up to a established common length in a process called zero-padding. However, the effect of different padding strategies on model performance and data structure is yet unknown. We propose and implement four novel types of padding the amino acid sequences. Then, we analysed the impact of different ways of padding the amino acid sequences in a hierarchical Enzyme Commission number prediction problem. Results show that padding has an effect on model performance even when there are convolutional layers implied. Contrastingly to most of deep learning works which focus mainly on architectures, this study highlights the relevance of the deemed-of-low-importance process of padding and raises awareness of the need to refine it for better performance.Peer ReviewedPostprint (published version
Balancing data on deep learning-based proteochemometric activity classification
In silico analysis of biological activity data has become an essential technique in pharmaceutical development. Specifically, the so-called proteochemometric models aim to share information between targets in machine learning ligand–target activity prediction models. However, bioactivity data sets used in proteochemometric modeling are usually imbalanced, which could potentially affect the performance of the models. In this work, we explored the effect of different balancing strategies in deep learning proteochemometric target–compound activity classification models while controlling for the compound series bias through clustering. These strategies were (1) no_resampling, (2) resampling_after_clustering, (3) resampling_before_clustering, and (4) semi_resampling. These schemas were evaluated in kinases, GPCRs, nuclear receptors, and proteases from BindingDB. We observed that the predicted proportion of positives was driven by the actual data balance in the test set. Additionally, it was confirmed that data balance had an impact on the performance estimates of the proteochemometric model. We recommend a combination of data augmentation and clustering in the training set (semi_resampling) to mitigate the data imbalance effect in a realistic scenario. The code of this analysis is publicly available at https://github.com/b2slab/imbalance_pcm_benchmark.Peer ReviewedPostprint (published version
Desarrollo de una plataforma web para el acceso interactivo a una base de datos SQL con información biológica de competiciones deportivas
En este artículo se describe el desarrollo de una aplicación web mediante R que permite acceder fácilmente a la información almacenada en una base de datos SQL compleja construida a partir de datos fisiológicos de rendimiento y genéticos de cinco carreras diferentes de ultra-trail, constituyendo una población total de estudio de 170 participantes. Esta aplicación ofrece el acceso interactivo a las diferentes tablas de la base de datos, muestra información estadística y descriptiva de los datos almacenados y permite la visualización de gráficas de evolución y modelos de tendencia construidos a partir de los mismos.
El objetivo de esta aplicación es extender el uso de esta información y su análisis a todos los implicados en la investigación en este ámbito, y a largo plazo, desarrollar un repositorio de datos fisiológicos en intervenciones deportivas y permitir la investigación multi-prueba en deporte de élite.Peer ReviewedPostprint (author's final draft
Desarrollo de una plataforma web para el acceso interactivo a una base de datos SQL con información biológica de competiciones deportivas
En este artículo se describe el desarrollo de una aplicación web mediante R que permite acceder fácilmente a la información almacenada en una base de datos SQL compleja construida a partir de datos fisiológicos de rendimiento y genéticos de cinco carreras diferentes de ultra-trail, constituyendo una población total de estudio de 170 participantes. Esta aplicación ofrece el acceso interactivo a las diferentes tablas de la base de datos, muestra información estadística y descriptiva de los datos almacenados y permite la visualización de gráficas de evolución y modelos de tendencia construidos a partir de los mismos.
El objetivo de esta aplicación es extender el uso de esta información y su análisis a todos los implicados en la investigación en este ámbito, y a largo plazo, desarrollar un repositorio de datos fisiológicos en intervenciones deportivas y permitir la investigación multi-prueba en deporte de élite.Peer Reviewe