20 research outputs found

    ABC likelihood-freee methods for model choice in Gibbs random fields

    Full text link
    Gibbs random fields (GRF) are polymorphous statistical models that can be used to analyse different types of dependence, in particular for spatially correlated data. However, when those models are faced with the challenge of selecting a dependence structure from many, the use of standard model choice methods is hampered by the unavailability of the normalising constant in the Gibbs likelihood. In particular, from a Bayesian perspective, the computation of the posterior probabilities of the models under competition requires special likelihood-free simulation techniques like the Approximate Bayesian Computation (ABC) algorithm that is intensively used in population genetics. We show in this paper how to implement an ABC algorithm geared towards model choice in the general setting of Gibbs random fields, demonstrating in particular that there exists a sufficient statistic across models. The accuracy of the approximation to the posterior probabilities can be further improved by importance sampling on the distribution of the models. The practical aspects of the method are detailed through two applications, the test of an iid Bernoulli model versus a first-order Markov chain, and the choice of a folding structure for two proteins.Comment: 19 pages, 5 figures, to appear in Bayesian Analysi

    Choix de modèle pour les champs de Gibbs par un algorithme ABC.

    Get PDF
    International audienceLes champs de Gibbs sont des modèles souvent utilisés pour l'analyse de données présentant des corrélations spatiales. La définition du modèle est alors liée à un système de voisinage ; dans certains cas, plusieurs peuvent être proposés. Pour chaque système de voisinage, un modèle de champ de Gibbs peut être construit et sélectionner le système de voisinage est finalement un problème de choix de modèle. Nous travaillons dans un cadre Bayésien. Nous définissons un nouveau paramètre incluant les paramètres de chacun des modèles et l'indice du modèle. Le choix de modèle repose alors sur l'évaluation des probabilités a posteriori des modèles ou des facteurs de Bayes. Les méthodes utilisées habituellement ne peuvent être appliquées ici car la vraisemblance des champs de Gibbs est disponible à un facteur de normalisation près. Nous proposons donc une approche “ sans vraisemblance”, basée sur un algorithme ABC (Approximate Bayesian Computation). L'algorithme ABC-MC (MC signifiant Model Choice) génère un échantillon dont la distribution est approximativement la distribution a posteriori de l'ensemble des paramètres, échantillon que nous utilisons pour évaluer les probabilités a posteriori des modèles. Nous étudions les performances de cette méthode sur deux modèles qui sont des cas particuliers de champs de Gibbs pour lesquels la vraisemblance est entièrement disponible. Nous utilisons ensuite l'algorithme ABC-MC pour choisir la structure 3D d'une protéine parmi un ensemble de candidats proposés par une méthode de threading. Nous montrons les résultats obtenus pour une protéine de la bactérie Thermotaga maritima

    Choix de modèle pour les champs de Gibbs par un algorithme ABC.

    Get PDF
    International audienceLes champs de Gibbs sont des modèles souvent utilisés pour l'analyse de données présentant des corrélations spatiales. La définition du modèle est alors liée à un système de voisinage ; dans certains cas, plusieurs peuvent être proposés. Pour chaque système de voisinage, un modèle de champ de Gibbs peut être construit et sélectionner le système de voisinage est finalement un problème de choix de modèle. Nous travaillons dans un cadre Bayésien. Nous définissons un nouveau paramètre incluant les paramètres de chacun des modèles et l'indice du modèle. Le choix de modèle repose alors sur l'évaluation des probabilités a posteriori des modèles ou des facteurs de Bayes. Les méthodes utilisées habituellement ne peuvent être appliquées ici car la vraisemblance des champs de Gibbs est disponible à un facteur de normalisation près. Nous proposons donc une approche “ sans vraisemblance”, basée sur un algorithme ABC (Approximate Bayesian Computation). L'algorithme ABC-MC (MC signifiant Model Choice) génère un échantillon dont la distribution est approximativement la distribution a posteriori de l'ensemble des paramètres, échantillon que nous utilisons pour évaluer les probabilités a posteriori des modèles. Nous étudions les performances de cette méthode sur deux modèles qui sont des cas particuliers de champs de Gibbs pour lesquels la vraisemblance est entièrement disponible. Nous utilisons ensuite l'algorithme ABC-MC pour choisir la structure 3D d'une protéine parmi un ensemble de candidats proposés par une méthode de threading. Nous montrons les résultats obtenus pour une protéine de la bactérie Thermotaga maritima

    Choix de modèle pour les champs de Gibbs par un algorithme ABC.

    No full text
    International audienceLes champs de Gibbs sont des modèles souvent utilisés pour l'analyse de données présentant des corrélations spatiales. La définition du modèle est alors liée à un système de voisinage ; dans certains cas, plusieurs peuvent être proposés. Pour chaque système de voisinage, un modèle de champ de Gibbs peut être construit et sélectionner le système de voisinage est finalement un problème de choix de modèle. Nous travaillons dans un cadre Bayésien. Nous définissons un nouveau paramètre incluant les paramètres de chacun des modèles et l'indice du modèle. Le choix de modèle repose alors sur l'évaluation des probabilités a posteriori des modèles ou des facteurs de Bayes. Les méthodes utilisées habituellement ne peuvent être appliquées ici car la vraisemblance des champs de Gibbs est disponible à un facteur de normalisation près. Nous proposons donc une approche “ sans vraisemblance”, basée sur un algorithme ABC (Approximate Bayesian Computation). L'algorithme ABC-MC (MC signifiant Model Choice) génère un échantillon dont la distribution est approximativement la distribution a posteriori de l'ensemble des paramètres, échantillon que nous utilisons pour évaluer les probabilités a posteriori des modèles. Nous étudions les performances de cette méthode sur deux modèles qui sont des cas particuliers de champs de Gibbs pour lesquels la vraisemblance est entièrement disponible. Nous utilisons ensuite l'algorithme ABC-MC pour choisir la structure 3D d'une protéine parmi un ensemble de candidats proposés par une méthode de threading. Nous montrons les résultats obtenus pour une protéine de la bactérie Thermotaga maritima

    Structural bioinformatics Advance Access publication October 28, 2011 STRIKE: evaluation of protein MSAs using a single 3D structure

    No full text
    Motivation: Evaluating alternative multiple protein sequence alignments is an important unsolved problem in Biology. The most accurate way of doing this is to use structural information. Unfortunately, most methods require at least two structures to be embedded in the alignment, a condition rarely met when dealing with standard datasets. Result: We developed STRIKE, a method that determines the relative accuracy of two alternative alignments of the same sequences using a single structure. We validated our methodology on three commonly used reference datasets (BAliBASE, Homestrad and Prefab). Given two alignments, STRIKE manages to identify the most accurate one in 70 % of the cases on average. This figure increases to 79 % when considering very challenging datasets like the RV11 category of BAliBASE. This discrimination capacity is significantly higher than that reported for other metrics such as Contact Accepted mutation or Blosum. We show that this increased performance results both from a refined definition of the contacts and from the use of an improved contact substitution score. Contact

    KRAS mutation detection trap. Letters

    No full text
    International audienc

    KRAS mutation detection trap. Letters

    No full text
    International audienc

    Efficient and Interpretable Prediction of Protein Functional Classes by Correspondence Analysis and Compact Set Relations

    Get PDF
    <div><p>Predicting protein functional classes such as localization sites and modifications plays a crucial role in function annotation. Given a tremendous amount of sequence data yielded from high-throughput sequencing experiments, the need of efficient and interpretable prediction strategies has been rapidly amplified. Our previous approach for subcellular localization prediction, PSLDoc, archives high overall accuracy for Gram-negative bacteria. However, PSLDoc is computational intensive due to incorporation of homology extension in feature extraction and probabilistic latent semantic analysis in feature reduction. Besides, prediction results generated by support vector machines are accurate but generally difficult to interpret.</p><p> In this work, we incorporate three new techniques to improve efficiency and interpretability. First, homology extension is performed against a compact non-redundant database using a fast search model to reduce running time. Second, correspondence analysis (CA) is incorporated as an efficient feature reduction to generate a clear visual separation of different protein classes. Finally, functional classes are predicted by a combination of accurate compact set (CS) relation and interpretable one-nearest neighbor (<i>1</i>-NN) algorithm. Besides localization data sets, we also apply a human protein kinase set to validate generality of our proposed method. </p><p>Experiment results demonstrate that our method make accurate prediction in a more efficient and interpretable manner. First, homology extension using a fast search on a compact database can greatly accelerate traditional running time up to twenty-five times faster without sacrificing prediction performance. This suggests that computational costs of many other predictors that also incorporate homology information can be largely reduced. In addition, CA can not only efficiently identify discriminative features but also provide a clear visualization of different functional classes. Moreover, predictions based on CS achieve 100% precision. When combined with <i>1</i>-NN on unpredicted targets by CS, our method attains slightly better or comparable performance compared with the state-of-the-art systems.</p></div
    corecore