123 research outputs found

    Statistical methods for analysis and correction of high-throughput screening data

    Get PDF
    Durant le criblage à haut débit (High-throughput screening, HTS), la première étape dans la découverte de médicaments, le niveau d'activité de milliers de composés chimiques est mesuré afin d'identifier parmi eux les candidats potentiels pour devenir futurs médicaments (i.e., hits). Un grand nombre de facteurs environnementaux et procéduraux peut affecter négativement le processus de criblage en introduisant des erreurs systématiques dans les mesures obtenues. Les erreurs systématiques ont le potentiel de modifier de manière significative les résultats de la sélection des hits, produisant ainsi un grand nombre de faux positifs et de faux négatifs. Des méthodes de correction des données HTS ont été développées afin de modifier les données reçues du criblage et compenser pour l'effet négatif que les erreurs systématiques ont sur ces données (Heyse 2002, Brideau et al. 2003, Heuer et al. 2005, Kevorkov and Makarenkov 2005, Makarenkov et al. 2006, Malo et al. 2006, Makarenkov et al. 2007). Dans cette thèse, nous évaluons d'abord l'applicabilité de plusieurs méthodes statistiques servant à détecter la présence d'erreurs systématiques dans les données HTS expérimentales, incluant le x2 goodness-of-fit test, le t-test et le test de Kolmogorov-Smirnov précédé par la méthode de Transformation de Fourier. Nous montrons premièrement que la détection d'erreurs systématiques dans les données HTS brutes est réalisable, de même qu'il est également possible de déterminer l'emplacement exact (lignes, colonnes et plateau) des erreurs systématiques de l'essai. Nous recommandons d'utiliser une version spécialisée du t-test pour détecter l'erreur systématique avant la sélection de hits afin de déterminer si une correction d'erreur est nécessaire ou non. Typiquement, les erreurs systématiques affectent seulement quelques lignes ou colonnes, sur certains, mais pas sur tous les plateaux de l'essai. Toutes les méthodes de correction d'erreur existantes ont été conçues pour modifier toutes les données du plateau sur lequel elles sont appliquées et, dans certains cas, même toutes les données de l'essai. Ainsi, lorsqu'elles sont appliquées, les méthodes existantes modifient non seulement les mesures expérimentales biaisées par l'erreur systématique, mais aussi de nombreuses données correctes. Dans ce contexte, nous proposons deux nouvelles méthodes de correction d'erreur systématique performantes qui sont conçues pour modifier seulement des lignes et des colonnes sélectionnées d'un plateau donné, i.e., celles où la présence d'une erreur systématique a été confirmée. Après la correction, les mesures corrigées restent comparables avec les valeurs non modifiées du plateau donné et celles de tout l'essai. Les deux nouvelles méthodes s'appuient sur les résultats d'un test de détection d'erreur pour déterminer quelles lignes et colonnes de chaque plateau de l'essai doivent être corrigées. Une procédure générale pour la correction des données de criblage à haut débit a aussi été suggérée. Les méthodes actuelles de sélection des hits en criblage à haut débit ne permettent généralement pas d'évaluer la fiabilité des résultats obtenus. Dans cette thèse, nous décrivons une méthodologie permettant d'estimer la probabilité de chaque composé chimique d'être un hit dans le cas où l'essai contient plus qu'un seul réplicat. En utilisant la nouvelle méthodologie, nous définissons une nouvelle procédure de sélection de hits basée sur la probabilité qui permet d'estimer un niveau de confiance caractérisant chaque hit. En plus, de nouvelles mesures servant à estimer des taux de changement de faux positifs et de faux négatifs, en fonction du nombre de réplications de l'essai, ont été proposées. En outre, nous étudions la possibilité de définir des modèles statistiques précis pour la prédiction informatique des mesures HTS. Remarquons que le processus de criblage expérimental est très coûteux. Un criblage virtuel, in silico, pourrait mener à une baisse importante de coûts. Nous nous sommes concentrés sur la recherche de relations entre les mesures HTS expérimentales et un groupe de descripteurs chimiques caractérisant les composés chimiques considérés. Nous avons effectué l'analyse de redondance polynomiale (Polynomial Redundancy Analysis) pour prouver l'existence de ces relations. En même temps, nous avons appliqué deux méthodes d'apprentissage machine, réseaux de neurones et arbres de décision, pour tester leur capacité de prédiction des résultats de criblage expérimentaux.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : criblage à haut débit (HTS), modélisation statistique, modélisation prédictive, erreur systématique, méthodes de correction d'erreur, méthodes d'apprentissage automatiqu

    Interacting meaningfully with machine learning systems: Three experiments

    Get PDF
    Although machine learning is becoming commonly used in today's software, there has been little research into how end users might interact with machine learning systems, beyond communicating simple “right/wrong” judgments. If the users themselves could work hand-in-hand with machine learning systems, the users’ understanding and trust of the system could improve and the accuracy of learning systems could be improved as well. We conducted three experiments to understand the potential for rich interactions between users and machine learning systems. The first experiment was a think-aloud study that investigated users’ willingness to interact with machine learning reasoning, and what kinds of feedback users might give to machine learning systems. We then investigated the viability of introducing such feedback into machine learning systems, specifically, how to incorporate some of these types of user feedback into machine learning systems, and what their impact was on the accuracy of the system. Taken together, the results of our experiments show that supporting rich interactions between users and machine learning systems is feasible for both user and machine. This shows the potential of rich human–computer collaboration via on-the-spot interactions as a promising direction for machine learning systems and users to collaboratively share intelligence

    Ecological models at fish community and species level to support effective river restoration

    Full text link
    RESUMEN Los peces nativos son indicadores de la salud de los ecosistemas acuáticos, y se han convertido en un elemento de calidad clave para evaluar el estado ecológico de los ríos. La comprensión de los factores que afectan a las especies nativas de peces es importante para la gestión y conservación de los ecosistemas acuáticos. El objetivo general de esta tesis es analizar las relaciones entre variables biológicas y de hábitat (incluyendo la conectividad) a través de una variedad de escalas espaciales en los ríos Mediterráneos, con el desarrollo de herramientas de modelación para apoyar la toma de decisiones en la restauración de ríos. Esta tesis se compone de cuatro artículos. El primero tiene como objetivos modelar la relación entre un conjunto de variables ambientales y la riqueza de especies nativas (NFSR), y evaluar la eficacia de potenciales acciones de restauración para mejorar la NFSR en la cuenca del río Júcar. Para ello se aplicó un enfoque de modelación de red neuronal artificial (ANN), utilizando en la fase de entrenamiento el algoritmo Levenberg-Marquardt. Se aplicó el método de las derivadas parciales para determinar la importancia relativa de las variables ambientales. Según los resultados, el modelo de ANN combina variables que describen la calidad de ribera, la calidad del agua y el hábitat físico, y ayudó a identificar los principales factores que condicionan el patrón de distribución de la NFSR en los ríos Mediterráneos. En la segunda parte del estudio, el modelo fue utilizado para evaluar la eficacia de dos acciones de restauración en el río Júcar: la eliminación de dos azudes abandonados, con el consiguiente incremento de la proporción de corrientes. Estas simulaciones indican que la riqueza aumenta con el incremento de la longitud libre de barreras artificiales y la proporción del mesohabitat de corriente, y demostró la utilidad de las ANN como una poderosa herramienta para apoyar la toma de decisiones en el manejo y restauración ecológica de los ríos Mediterráneos. El segundo artículo tiene como objetivo determinar la importancia relativa de los dos principales factores que controlan la reducción de la riqueza de peces (NFSR), es decir, las interacciones entre las especies acuáticas, variables del hábitat (incluyendo la conectividad fluvial) y biológicas (incluidas las especies invasoras) en los ríos Júcar, Cabriel y Turia. Con este fin, tres modelos de ANN fueron analizados: el primero fue construido solamente con variables biológicas, el segundo se construyó únicamente con variables de hábitat y el tercero con la combinación de estos dos grupos de variables. Los resultados muestran que las variables de hábitat son los ¿drivers¿ más importantes para la distribución de NFSR, y demuestran la importancia ecológica de los modelos desarrollados. Los resultados de este estudio destacan la necesidad de proponer medidas de mitigación relacionadas con la mejora del hábitat (incluyendo la variabilidad de caudales en el río) como medida para conservar y restaurar los ríos Mediterráneos. El tercer artículo busca comparar la fiabilidad y relevancia ecológica de dos modelos predictivos de NFSR, basados en redes neuronales artificiales (ANN) y random forests (RF). La relevancia de las variables seleccionadas por cada modelo se evaluó a partir del conocimiento ecológico y apoyado por otras investigaciones. Los dos modelos fueron desarrollados utilizando validación cruzada k-fold y su desempeño fue evaluado a través de tres índices: el coeficiente de determinación (R2 ), el error cuadrático medio (MSE) y el coeficiente de determinación ajustado (R2 adj). Según los resultados, RF obtuvo el mejor desempeño en entrenamiento. Pero, el procedimiento de validación cruzada reveló que ambas técnicas generaron resultados similares (R2 = 68% para RF y R2 = 66% para ANN). La comparación de diferentes métodos de machine learning es muy útil para el análisis crítico de los resultados obtenidos a través de los modelos. El cuarto artículo tiene como objetivo evaluar la capacidad de las ANN para identificar los factores que afectan a la densidad y la presencia/ausencia de Luciobarbus guiraonis en la demarcación hidrográfica del Júcar. Se utilizó una red neuronal artificial multicapa de tipo feedforward (ANN) para representar relaciones no lineales entre descriptores de L. guiraonis con variables biológicas y de hábitat. El poder predictivo de los modelos se evaluó con base en el índice Kappa (k), la proporción de casos correctamente clasificados (CCI) y el área bajo la curva (AUC) característica operativa del receptor (ROC). La presencia/ausencia de L. guiraonis fue bien predicha por el modelo ANN (CCI = 87%, AUC = 0.85 y k = 0.66). La predicción de la densidad fue moderada (CCI = 62%, AUC = 0.71 y k = 0.43). Las variables más importantes que describen la presencia/ausencia fueron: radiación solar, área de drenaje y la proporción de especies exóticas de peces con un peso relativo del 27.8%, 24.53% y 13.60% respectivamente. En el modelo de densidad, las variables más importantes fueron el coeficiente de variación de los caudales medios anuales con una importancia relativa del 50.5% y la proporción de especies exóticas de peces con el 24.4%. Los modelos proporcionan información importante acerca de la relación de L. guiraonis con variables bióticas y de hábitat, este nuevo conocimiento podría utilizarse para apoyar futuros estudios y para contribuir en la toma de decisiones para la conservación y manejo de especies en los en los ríos Júcar, Cabriel y Turia.Olaya Marín, EJ. (2013). Ecological models at fish community and species level to support effective river restoration [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/28853TESI
    corecore