7 research outputs found

    Simple ensemble methods are competitive with state-of-the-art data integration methods for gene function prediction

    Get PDF
    Several works showed that biomolecular data integration is a key issue to improve the prediction of gene functions. Quite surprisingly only little attention has been devoted to data integration for gene function prediction through ensemble methods. In this work we show that relatively simple ensemble methods are competitive and in some cases are also able to outperform state-of-the-art data integration techniques for gene function prediction

    Hierarchical cost-sensitive algorithms for genome-wide gene function prediction

    Get PDF
    In this work we propose new ensemble methods for the hierarchical classification of gene functions. Our methods exploit the hierarchical relationships between the classes in different ways: each ensemble node is trained \u201clocally\u201d, according to its position in the hierarchy; moreover, in the evaluation phase the set of predicted annotations is built so to minimize a global loss function defined over the hierarchy. We also address the problem of sparsity of annotations by introducing a cost- sensitive parameter that allows to control the precision-recall trade-off. Experiments with the model organism S. cerevisiae, using the FunCat taxonomy and 7 biomolecular data sets, reveal a significant advantage of our techniques over \u201cflat\u201d and cost-insensitive hierarchical ensembles

    COSNet : a cost sensitive neural network for semi-supervised learning in graphs

    Get PDF
    The semi-supervised problem of learning node labels in graphs consists, given a partial graph labeling, in inferring the unknown labels of the unlabeled vertices. Several machine learning algorithms have been proposed for solving this problem, including Hopfield networks and label propagation methods; however, some issues have been only partially considered, e.g. the preservation of the prior knowledge and the unbalance between positive and negative labels. To address these items, we propose a Hopfield-based cost sensitive neural network algorithm (COSNet). The method factorizes the solution of the problem in two parts: 1) the sub- network composed by the labelled vertices is considered, and the net- work parameters are estimated through a supervised algorithm; 2) the estimated parameters are extended to the subnetwork composed of the unlabeled vertices, and the attractor reached by the dynamics of this subnetwork allows to predict the labeling of the unlabeled vertices. The proposed method embeds in the neural algorithm the \u201da priori\u201d knowl- edge coded in the labelled part of the graph, and separates node labels and neuron states, allowing to differentially weight positive and nega- tive node labels. Moreover, COSNet introduces an efficient cost-sensitive strategy which allows to learn the near-optimal parameters of the net- work in order to take into account the unbalance between positive and negative node labels. Finally, the dynamics of the network is restricted to its unlabeled part, preserving the minimization of the overall objective function and significantly reducing the time complexity of the learning algorithm. COSNet has been applied to the genome-wide prediction of gene function in a model organism. The results, compared with those ob- tained by other semi-supervised label propagation algorithms and super- vised machine learning methods, show the effectiveness of the proposed approach

    Machine Learning and Integrative Analysis of Biomedical Big Data.

    Get PDF
    Recent developments in high-throughput technologies have accelerated the accumulation of massive amounts of omics data from multiple sources: genome, epigenome, transcriptome, proteome, metabolome, etc. Traditionally, data from each source (e.g., genome) is analyzed in isolation using statistical and machine learning (ML) methods. Integrative analysis of multi-omics and clinical data is key to new biomedical discoveries and advancements in precision medicine. However, data integration poses new computational challenges as well as exacerbates the ones associated with single-omics studies. Specialized computational approaches are required to effectively and efficiently perform integrative analysis of biomedical data acquired from diverse modalities. In this review, we discuss state-of-the-art ML-based approaches for tackling five specific computational challenges associated with integrative analysis: curse of dimensionality, data heterogeneity, missing data, class imbalance and scalability issues

    Simple ensemble methods are competitive with state-of-the-art data integration methods for gene function prediction

    Get PDF
    Several works showed that biomolecular data integration is a key issue to improve the prediction of gene functions. Quite surprisingly only little attention has been devoted to data integration for gene function prediction through ensemble methods. In this work we show that relatively simple ensemble methods are competitive and in some cases are also able to outperform state-of-the-art data integration techniques for gene function prediction

    GRAPH-BASED APPROACHES FOR IMBALANCED DATA IN FUNCTIONAL GENOMICS

    Get PDF
    The Gene Function Prediction (GFP) problem consists in inferring biological properties for the genes whose function is unknown or only partially known, and raises challenging issues from both a machine learning and a computational biology standpoint. The GFP problem can be formalized as a semi-supervised learning problem in an undirected graph. Indeed, given a graph with a partial graph labeling, where nodes represent genes, edges functional relationships between genes, and labels their membership to functional classes, GFP consists in inferring the unknown functional classes of genes, by exploiting the topological relationships of the networks and the available a priori knowledge about the functional properties of genes. Several network-based machine learning algorithms have been proposed for solving this problem, including Hopfield networks and label propagation methods; however, some issues have been only partially considered, e.g. the preservation of the prior knowledge and the unbalance between positive and negative labels. A first contribution of the thesis is the design of a Hopfield-based cost sensitive neural network algorithm (COSNet) to address these learning issues. The method factorizes the solution of the problem in two parts: 1) the subnetwork composed by the labelled vertices is considered, and the network parameters are estimated through a supervised algorithm; 2) the estimated parameters are extended to the subnetwork composed of the unlabeled vertices, and the attractor reached by the dynamics of this subnetwork allows to predict the labeling of the unlabeled vertices. The proposed method embeds in the neural algorithm the \u201ca priori\u201d knowledge coded in the labeled part of the graph, and separates node labels and neuron states, allowing to differentially weight positive and negative node labels, and to perform a learning approach that takes into account the \u201cunbalance problem\u201d that affects GFP. A second contribution of this thesis is the development of a new algorithm (LSI ) which exploits some ideas of COSNet for evaluating the predictive capability of each input network. By this algorithm we can estimate the effectiveness of each source of data for predicting a specific class, and then we can use this information to appropriately integrate multiple networks by weighting them according to an appropriate integration scheme. Both COSNet and LSI are computationally efficient and scale well with the dimension of the data. COSNet and LSI have been applied to the genome-wide prediction of gene functions in the yeast and mouse model organisms, achieving results comparable with those obtained with state-of-the-art semi-supervised and supervised machine learning methods

    Data-Driven Process Development for Virus-Like Particles - Implementation of Process Analytical Technology, Molecular Modeling, and Machine Learning

    Get PDF
    Im Laufe des 20. Jahrhunderts stieg die Lebenserwartung deutlich an. Aus medizinischer Sicht trugen vor allem die umfassende Verbesserung der Hygiene und die Einführung von Impfprogrammen zu diesem Erfolg bei. Impfstoffe waren die ersten biologischen Produkte, die systematisch als medizinische Präparate eingesetzt wurden, und ebneten damit den Weg zur modernen pharmazeutischen Biotechnologie. Nach Insulin und menschlichem Wachstumshormon war eines der frühesten biotechnologisch hergestellten pharmazeutischen Produkte ein rekombinanter Impfstoff, im Speziellen ein virusähnliches Partikel (virus-like particle, VLP) auf Basis von rekombinantem Hepatitis-B-Oberflächenantigen. VLPs beinhalten keine infektiösen viralen Nukleinsäuren und sie ähneln dem Virus, von dem sie abgeleitet sind, wodurch sie eine Immunantwort induzieren können. Obwohl dieser Hepatitis-B-Impfstoff gegenwärtig noch verwendet wird, ist die heutige Anwendung von VLPs sehr unterschiedlich, wie aus zahlreichen präklinischen und klinischen Studien hervorgeht. VLPs werden als mögliche Impfstoffe gegen Infektionskrankheiten, immunologische Erkrankungen oder Krebs untersucht. Ihre starke Immunogenität wird für die Präsentierung von fremdantigenen Epitopen auf den VLPs genutzt, was sie zu chimären VLPs (chimeric virus-like particles, cVLPs) macht. Als solche induzieren sie nachweislich Immunantworten gegen Krebszellen und überwinden die natürliche immunologische Selbsttoleranz gegenüber Krebsantigenen. Allerdings ist ihr hohes Potenzial mit Herausforderungen verbunden, beispielsweise im Zusammenhang mit ihrem molekularen Design und dem Produktionsprozess. Das Ziel des molekularen Designs ist die Entwicklung immunogener und stabiler VLP-Kandidaten. Der Prozess, um geeignete VLP-Kandidaten zu finden, ist jedoch typischerweise empirisch und bringt Herausforderungen wie eine geringe Löslichkeit nach der Expression in rekombinanten Wirten oder unzureichende VLP-Immunogenität mit sich. Dem VLP-Produktionsprozess mangelt es an maßgeschneiderten Aufreinigungsmethoden, was im Vergleich zu etablierten biopharmazeutischen Produkten, wie z.B. monoklonalen Antikörpern, zu einer geringeren Produktivität führt. Hinzu kommt, dass bei der VLP-Prozessierung VLP-spezifische Prozessschritte, wie z.B. die Zerlegung und Reassemblierung der Partikel, entworfen werden müssen. Die Bewältigung dieser Herausforderungen würde von datengestützten Ansätzen wie der prozessanalytischen Technologie (process analytical technology, PAT), der molekularen Modellierung und dem maschinellen Lernen profitieren. Diese würden das Prozess- und Produktverständnis verbessern, den experimentellen Aufwand reduzieren und eine effiziente Überwachung und Steuerung der Prozesse ermöglichen. Daher war es Ziel dieser Arbeit, Antworten auf mehrere dieser Herausforderungen zu finden, indem datengestützte Ansätze implementiert wurden, um die Entwicklung maßgeschneiderter Prozessschritte zu begleiten. Im ersten Teil dieser Arbeit werden VLPs und ihre Produktionsprozesse besprochen, die Vorteile der Implementierung von PAT beschreiben, die Herausforderungen im Zusammenhang mit ihrem molekularen Design beleuchtet und die Möglichkeiten der Anwendung des maschinellen Lernens bei der VLP-Entwicklung und -Prozessierung aufgezeigt. Der zweite Teil dieser Arbeit beschreibt fünf Studien, die darauf abzielen, Antworten auf einige der mit dem VLP-Design und der biotechnologischen Verfahrenstechnik verbundenen Herausforderungen zu finden. Die erste Studie (Kapitel 3) befasst sich mit einem besonderen VLP-spezifischen Prozessschritt. Für eine verbesserte Stabilität, Homogenität und Immunogenität müssen VLPs zerlegt und wieder reassembliert werden. Ausgehend von einer Hoch-pH-Lösung, die zerlegte VLPs enthält, wird die Reassemblierung durch die Erhöhung der Ionenstärke und die Senkung des pH-Wertes erreicht. Die meisten Prozesse im Labormaßstab nutzen die Dialyse für diesen Pufferaustausch, während die Querstromfiltration (cross-flow filtration, CFF) für den Pufferaustausch besser skalierbar ist, den Pufferverbrauch reduziert und die Ausbeute verbessert. Im Vergleich zur Dialyse erfordert die CFF mehr technisches Wissen und Kenntnisse über den VLP-Reassemblierungssfortschritt während des Prozesses. Eine umfassende Überwachungsstrategie wäre daher sehr vorteilhaft, um eine (Beinahe-) Echtzeit-Kontrolle des VLP-Reassemblierungsprozesses durch CFF zu implementieren. In dieser ersten Studie wird ein Aufbau zur Überwachung der VLP-Reassemblierung durch CFF mittels einer Online-Messschleife mit zwei verschiedenen spektroskopischen Sensoren beschrieben. Eine mögliche Kontrollstrategie für den VLP-Assemblierungsprozess wurde in der Überwachung der statischen und dynamischen Lichtstreuung gesehen. Das Maximum des statischen Streulichtsignals fiel mit der maximalen VLP-Konzentration zusammen. Diese Information ist sehr wertvoll, da nach diesem VLP-Konzentrationsmaximum eine Degradationsphase beobachtet wurde, die vermieden werden sollte, um Ausbeute und Reinheit der VLPs zu optimieren. Die Analyse der zweiten Ableitung der ultravioletten und sichtbaren (ultraviolet and visible, UV/Vis) Spektren erwies sich als praktikable orthogonale Methode zur Überwachung der VLP-Assemblierung, insbesondere mit dem sogenannten a/b-Verhältnis. Das a/b-Verhältnis, welches sich im Zeitverlauf der Prozesse änderte, beschreibt die Solvatisierung von Tyrosin. Die Beobachtung der Veränderung des a/b-Verhältnisses deckt sich mit der Tatsache, dass Tyrosin 132 nach der Assemblierung in einer hydrophoben Tasche eingebettet wird. Zusätzlich konnte ein Modell der Regression der partiellen kleinsten Quadrate (partial least squares), das auf den aufgezeichneten UV/Vis-Spektren basiert, die VLP-Konzentrationen abschätzen mit dem Potential, als (Beinahe-) Echtzeitmodell angewendet zu werden. Die etablierte Überwachungsstragie wurde genutzt um optimale Prozessbedingungen für drei chimäre hepatitis B core antigen (HBcAg)- Konstrukte zu ermitteln. Dies resultierte in unterschiedlichen Prozesszeiten, um die maximale VLP-Konzentration zu erreichen. Das cVLP mit dem stärksten negativen Zetapotential assemblierte am spätesten, wahrscheinlich aufgrund abstoßender elektrostatischer Kräfte. Es erfordert daher Puffer mit höheren Ionenstärken für die Reassemblierung. Die Bedeutung des Zetapotenzials für die VLP-Prozessierung war Teil der Motivation für die zweite Studie (Kapitel 4). Das Zetapotential und andere biophysikalische Parameter können nur gemessen werden, wenn Material experimentell in ausreichenden Mengen produziert wurde. Es wäre daher wünschenswert, diese Parameter vorherzusagen, um Ressourcen zu sparen. Es wurde bereits gezeigt, dass Oberflächeneigenschaften aus dreidimensionalen (3-D) Strukturen abgeleitet werden können. 3-D-Strukturen neuartiger Moleküle sind jedoch nicht verfügbar und ihre experimentelle Erzeugung ist langwierig und mühsam. Eine Alternative ist die rechnergestützte 3-D-Strukturerzeugung mit Template-Modellierung und Molekulardynamik-Simulationen (MD). Dieser in silico Arbeitsablauf erfordert üblicherweise signifikante Benutzerinteraktion, Expertenwissen, um die Simulationen zu designen und zu steuern, und viel Rechenleistung. Um diese Limitationen zu überwinden, wurde in dieser Studie ein robuster und automatisierter Arbeitsablauf zur Erzeugung von 3-D Strukturen etabliert. Der Arbeitsablauf ist datenabhängig, minimiert Benutzerinteraktion und reduziert die benötigte Rechenleistung. Die Eingabe in den entwickelten Arbeitsablauf war eine Aminosäuresequenz und eine Strukturvorlage. Die Vorlage wurde automatisch von einer Proteinstrukturdatenbank heruntergeladen, bereinigt und die Struktur wurde Homologie-modelliert, gefolgt von einer Energieminimierung. Eine datenabhängige dreistufige MD-Simulation verfeinerte die Struktur, wobei ein kontinuierlich zunehmender Bereich des Moleküls simuliert wurde, bis schließlich das gesamte Molekül frei simuliert wurde. Der dreistufige MD-Simulationsansatz lieferte hierbei einen großen Beitrag zur Reduktion der benötigten Rechenleistung, in dem strukturell besonders unsichere Bereiche des Moleküls zunächst gesondert simuliert wurden. Oft werden MD-Simulationen nach einer bestimmten Simulationszeit beendet. In dieser Studie beendete die entwickelte datenabhängige Simulationskontrolle die Simulationen, wenn ein Stabilitätsfenster (Window of Stability, WoS) von 2 ns erreicht wurde, definiert durch die Wurzel der mittleren quadratischen Abweichung (root mean square deviation, RMSD) der Atomkoordinaten. Dies stellte sicher, dass die Fluktuationen der MD-Simulation zwischen allen simulierten Konstrukten innerhalb des genannten WoS am Ende der Simulation vergleichbar waren. Der Arbeitsablauf führte zu angemessenen Simulationszeiten (6,6-37,5 h) und einer hohen Gesamtstrukturqualität für die drei chimären HBcAg-Dimere. Um die Anwendbarkeit der Methode zu demonstrieren, wurde eine Fallstudie durchgeführt, in der die in silico Oberflächenladung von HBcAg-Dimeren mit dem experimentellen Zeta-Potential ganzer Kapside korreliert wurde, was eine hohe lineare Korrelation zeigte. Die Extraktion der Oberflächenladung aus dem WoS war robuster als aus einem einzelnen Simulationsschnappschuss, was die Nützlichkeit des entwickelten Ansatzes unterstreicht. Die dritte Studie (Kapitel 5) befasst sich mit dem Problem, dass VLPs häufig mit Technologien prozessiert werden, die ursprünglich für kleinere Produkte entwickelt wurden. Dies führt oft zu Prozesslimitationen wie geringe Bindekapazitäten von Chromatographieharzen, die im downstream process verwendet werden. Daher wurde eine neue Aufreinigungsstrategie entwickelt, die drei verschiedene größenselektive Methoden integriert, da sie für die selektive Abtrennung von VLPs von Verunreinigungen vielversprechend erschienen. Die Methoden waren Fällung/Rücklösung, CFF und Größenausschlusschromatographie (size exclusion chromatography, SEC). Es wurden drei Verfahrensvarianten entwickelt und untersucht, wobei die beste aus Fällung, Waschen und Rücklösung auf einer CFF-Einheit, gefolgt von einer Reinigung durch eine multimodale SEC-Säule bestand. Dieses Verfahren zeigte die höchste Reinheit sowie eine hohe Ausbeute und Produktivität. Die entwickelten Verfahren waren den in der Literatur beschriebenen Verfahren vergleichbar oder überlegen. Die Überwachung und Fraktionierung des Permeatstroms ermöglichte es zudem, produkthaltige Fraktionen für das selektive Vereinigen zu identifizieren. Auf diese Weise können Produktkonzentration- und Reinheit eingestellt werden. Eines der Hauptprobleme beim Molekulardesign von cVLPs ist, dass die Kandidaten bei der Expression oft unlöslich sind. Der Prozess zur Identifizierung unlöslicher VLP-Konstrukte ist typischerweise empirisch und deshalb Zeit- und Ressourcenintensiv. Diese Herausforderung kann mit einem Modell bewältigt werden, welches die Löslichkeit von cVLPs vorhersagt. In Kapitel 6 wurde ein Soft Ensemble Vote Classifier (sEVC) als Werkzeug auf Basis von maschinellem Lernen zur Vorhersage der cVLP-Löslichkeit entwickelt, basierend auf 568 verschiedenen Aminosäuresequenzen und 91 verschiedenen Hydrophobizitäts-Skalen. Das Ensemble-Modell aggregiert die Vorhersage der einzelnen Klassifikatoren, bei denen es sich um einstufige Entscheidungsbäume handelt. Diese wurden jeweils mit einem Hydrophobizitäts-Merkmal auf der Grundlage einer Hydrophobizitäts-Skala trainiert. Stratifizierte Trainingssatzprobenahme und Merkmalsauswahl kamen der Modellbildung zugute. Die besten Modelle wiesen einen Matthew-Korrelationskoeffizienten (Matthew’s correlation coefficient, MCC) von >0,6 auf, der mit den statistischen Größen von Löslichkeitsmodellen aus der Literatur vergleichbar oder diesen überlegen ist. Zusätzlich ermöglichte die Merkmalsauswahl (feature selection) die Identifizierung charakteristischer Eigenschaften (features) des untersuchten cVLP-Löslichkeitsproblems, wobei die Bedeutung verschiedener Aminosäuren für die cVLP-Löslichkeit hervorgehoben wurde. Die Analyse legte nahe, dass Arginin eine wichtige Rolle bei der Rekrutierung von VLP-Untereinheiten während der Kapsidassemblierung spielen könnte. Die letzte Studie baute auf dem Modell und den Ergebnissen von Kapitel 6 auf, mit dem Ziel, die Vorhersageergebnisse zu optimieren und mehr versteckte Informationen aus den Daten zu extrahieren. In der vorherigen Studie wurde eine systematische Fehlklassifikation beobachtet. Dies wurde mit einem Optimierungsalgorithmus angegangen, der die Vorhersage des Modells anpasste, wenn diese systematischen Fehlklassifikationen im Trainingsdatensatz beobachtet wurden. Eine zweite Optimierungsstrategie synthetisierte und optimierte Hydrophobizitäts-Skalen spezifisch für das vorgestellte cVLP-Löslichkeitsproblem. Dabei wurde die Bedeutung von Tryptophan als möglicher Disruptor der Proteinfaltung anhand der Daten vorgeschlagen. Das beste Modell, das mit den entwickelten Optimierungsworkflows erstellt wurde, zeigte einen MCC von 0,77 (Korrektklassifikationsrate von 0,88) in Bezug auf das externe Test-Set. Schließlich wurde das sEVC-Framework in einer Fallstudie evaluiert, um Ammoniumsulfatkonzentrationen vorherzusagen, wie sie für die VLP-Fällung erforderlich sind (wie auch in Kapitel 5 angewandt). Daher wurde das Modell so umgestaltet, dass es als Regressionswerkzeug fungiert. Es wurde mit Daten der Ammoniumsulfat-induzierten Fällung von zehn cVLPs bewertet. Die lineare Regression zeigte eine vielversprechende Korrelation mit einem R² von 0,69. Zusammenfassend lässt sich sagen, dass sowohl von dem Standpunkt der Prozessentwicklung als auch von der computergestützen Entwicklung aus eine Reihe von Methoden entwickelt wurde, die den Weg zu einem VLP-Plattformprozess ebnen könnten. Die Integration von datengesteuerten Ansätzen wie PAT, 3-D-Strukturmodellierung und maschinelles Lernen kann sowohl der Effizienz als auch dem Verständnis der VLP-Prozessierung in der biopharmazeutischen Industrie zugutekommen
    corecore