3,664 research outputs found

    Exploiting the accumulated evidence for gene selection in microarray gene expression data

    Get PDF
    Machine Learning methods have of late made signicant efforts to solving multidisciplinary problems in the field of cancer classification using microarray gene expression data. Feature subset selection methods can play an important role in the modeling process, since these tasks are characterized by a large number of features and a few observations, making the modeling a non-trivial undertaking. In this particular scenario, it is extremely important to select genes by taking into account the possible interactions with other gene subsets. This paper shows that, by accumulating the evidence in favour (or against) each gene along the search process, the obtained gene subsets may constitute better solutions, either in terms of predictive accuracy or gene size, or in both. The proposed technique is extremely simple and applicable at a negligible overhead in cost.Postprint (published version

    Exploiting the accumulated evidence for gene selection in microarray gene expression data

    Get PDF
    Feature subset selection (FSS) methods play an important role for cancer classification using microarray gene expression data. In this scenario, it is extremely important to select genes by taking into account the possible interactions with other gene subsets. This paper shows that, by accumulating the evidence in favour (or against) each gene along a search process, the obtained gene subsets may constitute better solutions, either in terms of size or in predictive accuracy, or in both, at a negligible overhead in computational cost.Postprint (author’s final draft

    Building a cell and anatomy ontology of Caenorhabditis elegans

    Get PDF
    We are endowed with a rich knowledge about Caenorhabditis elegans. Its stereotyped anatomy and development has stimulated research and resulted in the accumulation of cell-based information concerning gene expression, and the role of specific cells in developmental signalling and behavioural circuits. To make the information more accessible to sophisticated queries and automated retrieval systems, WormBase has begun to construct a C. elegans cell and anatomy ontology. Here we present our strategies and progress

    Towards more reliable feature evaluations for classification

    Get PDF
    In this thesis we study feature subset selection and feature weighting algorithms. Our aim is to make their output more stable and more useful when used to train a classifier. We begin by defining the concept of stability and selecting a measure to asses the output of the feature selection process. Then we study different sources of instability and propose modifications of classic algorithms that improve their stability. We propose a modification of wrapper algorithms that take otherwise unused information into account to overcome an intrinsic source of instability for this algorithms: the feature assessment being a random variable that depends on the particular training subsample. Our version accumulates the evaluation results of each feature at each iteration to average out the effect of the randomness. Another novel proposal is to make wrappers evaluate the remainder set of features at each step to overcome another source of instability: randomness of the algorithms themselves. In this case, by evaluating the non-selected set of features, the initial choice of variables is more educated. These modifications do not bring a great amount of computational overhead and deliver better results, both in terms of stability and predictive power. We finally tackle another source of instability: the differential contribution of the instances to feature assessment. We present a framework to combine almost any instance weighting algorithm with any feature weighting one. Our combination of algorithms deliver more stable results for the various feature weighting algorithms we have tested. Finally, we present a deeper integration of instance weighting with feature weighting by modifying the Simba algorithm, that delivers even better results in terms of stabilityEl focus d'aquesta tesi és mesurar, estudiar i millorar l’estabilitat d’algorismes de selecció de subconjunts de variables (SSV) i avaluació de variables (AV) en un context d'aprenentatge supervisat. El propòsit general de la SSV en un context de classificació és millorar la precisió de la predicció. Nosaltres afirmem que hi ha un altre gran repte en SSV i AV: l’estabilitat des resultats. Un cop triada una mesura d’estabilitat entre les estudiades, proposem millores d’un algorisme molt popular: el Relief. Analitzem diferents mesures de distància a més de la original i estudiem l'efecte que tenen sobre la precisió, la detecció de la redundància i l'estabilitat. També posem a prova diferents maneres d’utilitzar els pesos que es calculen a cada pas per influir en el càlcul de distàncies d’una manera similar a com ho fa un altre algorisme d'AV: el Simba. També millorem la seva estabilitat incrementant la contribució dels pesos de les variables en el càlcul de la distància a mesura que avança el temps per minimitzar l’impacte de la selecció aleatòria de les primeres instàncies. Pel què fa als algorismes embolcall, (wrappers) els modifiquem per tenir en compte informació que era ignorada per superar una font intrínseca d’inestabilitat: el fet que l’avaluació de les variables és una variable aleatòria que depèn del subconjunt de dades utilitzat. La nostra versió acumula els resultats en cada iteració per compensar l’efecte aleatori mentre que els originals descarten tota la informació recollida sobre cada variable en una determinada iteració i comencen de nou a la següent, donant lloc a resultats més inestables. Una altra proposta és fer que aquests wrappers avaluïn el subconjunt de variables no seleccionat en cada iteració per evitar una altra font d’inestabilitat. Aquestes modificacions no comporten un gran augment de cost computacional i els seus resultats són més estables i més útils per un classificador. Finalment proposem ponderar la contribució de cada instància en l’AV. Poden existir observacions atípiques que no s'haurien de tenir tant en compte com les altres; si estem intentant predir un càncer utilitzant informació d’anàlisis genètics, hauríem de donar menys credibilitat a les dades obtingudes de persones exposades a grans nivells de radiació tot i que no tenir informació sobre aquesta exposició. Els mètodes d’avaluació d’instàncies (AI) pretenen identificar aquests casos i assignar-los pesos més baixos. Varis autors han treballat en esquemes d’AI per millorar la SSV però no hi ha treball previ en la combinació d'AI amb AV. Presentem un marc de treball per combinar algorismes d'AI amb altres d'AV. A més proposem un nou algorisme d’AI basat en el concepte de marge de decisió que utilitzen alguns algorismes d’AV. Amb aquest marc de treball hem posat a prova les modificacions contra les versions originals utilitzant varis jocs de dades del repositori UCI, de xips d'ADN i els utilitzats en el desafiament de SSV del NIPS-2003. Les nostres combinacions d'algorismes d'avaluació d'instàncies i atributs ens aporten resultats més estables per varis algorismes d'avaluació d'atributs que hem estudiat. Finalment, presentem una integració més profunda de l'avaluació d'instàncies amb l'algorisme de selecció de variables Simba consistent a utilitzar els pesos de les instàncies per ponderar el càlcul de les distàncies, amb la que obtenim resultats encara millors en termes d’estabilitat. Les contribucions principals d’aquesta tesi son: (i) aportar un marc de treball per combinar l'AI amb l’AV, (ii) una revisió de les mesures d’estabilitat de SSV, (iii) diverses modificacions d’algorismes de SSV i AV que milloren la seva estabilitat i el poder predictiu del subconjunt de variables seleccionats; sense un augment significatiu del seu cost computacional, (iv) una definició teòrica de la importància d'una variable i (v) l'estudi de la relació entre l'estabilitat de la SSV i la redundància de les variables.Postprint (published version

    Complexity of the Ruminococcus flavefaciens FD-1 cellulosome reflects an expansion of family-related protein-protein interactions

    Get PDF
    This work was supported in part by the European Union, Area NMP.2013.1.1–2: Self-assembly of naturally occurring nanosystems: CellulosomePlus Project number: 604530, and by the EU Seventh Framework Programme (FP7 2007–2013) under the WallTraC project (Grant Agreement no 263916), and BioStruct-X (grant agreement no 283570). This paper reflects the author’s views only. The European Community is not liable for any use that may be made of the information contained herein. CMGAF is also supported by Fundação para a Ciência e a Tecnologia (Lisbon, Portugal) through grants PTDC/BIA-PRO/103980/2008 and EXPL/BIA-MIC/1176/2012. EAB is also funded by a grant (No. 1349/13) from the Israel Science Foundation (ISF), Jerusalem, Israel and by a grant (No. 2013284) from the U.S.-Israel Binational Science Foundation (BSF). E.A.B. is the incumbent of The Maynard I. and Elaine Wishner Chair of Bio-organic Chemistry.Peer reviewedPublisher PD

    Use of genomic tools for the study of the genetic basis of resistance to gastrointestinal nematode infections in adult sheep = Utilización de herramientas genómicas para el estudio de la base genética de la resistencia a las infecciones por nematodos gastrointestinales en ovejas adultas

    Get PDF
    214 p.La actual tesis doctoral, que se ha desarrollado en el grupo de investigación de mejora genética animal de la Universidad de León (grupo MEGA-ULE), tiene como objetivo global el estudio de la base genética subyacente a la resistencia a los nematodos gastrointestinales (GIN) en ovejas adultas. Para ello se han utilizado metodologías empleadas en la genómica, tales como el chip de genotipado de SNPs de alta densidad (HD) y las tecnologías se cuenciación conocidas como next generation sequencing (NGS). Para el cumplimiento el objetivo global se han abordado dos objetivos específicos. El primero de ellos tuvo por objeto realizar un mapeo de alta densidad de regiones con influencia sobre la resistencia a los GIN en ovejas mediante el análisis de genotipos imputados para el chip HD-chip en una población de raza Churra previamente analizada con el chip de media densidad (50K-chip) y para la cual estaban disponibles datos de dos fenotipos relacionados con la carga parasitaria. El segundo objetivo específico se centró en la caracterización funcional de regiones genómicas asociadas con la resistencia a los GIN en ovejas adultas, utilizando el análsis del transcriptioma completo de diferentes tejidos (ganglio linfático abomasal y mucosa del abomaso) después de la infección experimental con T. circumcincta, mediante la metodología RNAseq

    Converting Redox Signaling to Apoptotic Activities by Stress-Responsive Regulators HSF1 and NRF2 in Fenretinide Treated Cancer Cells

    Get PDF
    BACKGROUND: Pharmacological intervention of redox balance in cancer cells often results in oxidative stress-mediated apoptosis, attracting much attention for the development of a new generation of targeted therapy in cancer. However, little is known about mechanisms underlying the conversion from oxidative signaling to downstream activities leading cells to death. METHODOLOGY/PRINCIPAL FINDINGS: We here report a systematic detection of transcriptome changes in response to oxidative signals generated in leukemia cells upon fenretinide treatment, implicating the occurrence of numerous stress-responsive events during the fenretinide induced apoptosis, such as redox response, endoplasmic reticulum stress/unfolded protein response, translational repression and proteasome activation. Moreover, the configuration of these relevant events is primarily orchestrated by stress responsive transcription factors, as typically highlighted by NF-E2-related factor-2 (NRF2) and heat shock factor 1 (HSF1). Several lines of evidence suggest that the coordinated regulation of these transcription factors and thus their downstream genes are involved in converting oxidative signaling into downstream stress-responsive events regulating pro-apoptotic and apoptotic activities at the temporal and spatial levels, typifying oxidative stress-mediated programmed death rather than survival in cancer cells. CONCLUSIONS/SIGNIFICANCE: This study provides a roadmap for understanding oxidative stress-mediated apoptosis in cancer cells, which may be further developed into more sophisticated therapeutic protocols, as implicated by synergistic induction of cell apoptosis using proteasome inhibitors with fenretinide

    Statistical Methods in Integrative Genomics

    Get PDF
    Statistical methods in integrative genomics aim to answer important biology questions by jointly analyzing multiple types of genomic data (vertical integration) or aggregating the same type of data across multiple studies (horizontal integration). In this article, we introduce different types of genomic data and data resources, and then review statistical methods of integrative genomics, with emphasis on the motivation and rationale of these methods. We conclude with some summary points and future research directions
    corecore