225 research outputs found

    A computational intelligence analysis of G proteincoupled receptor sequinces for pharmacoproteomic applications

    Get PDF
    Arguably, drug research has contributed more to the progress of medicine during the past decades than any other scientific factor. One of the main areas of drug research is related to the analysis of proteins. The world of pharmacology is becoming increasingly dependent on the advances in the fields of genomics and proteomics. This dependency brings about the challenge of finding robust methods to analyze the complex data they generate. Such challenge invites us to go one step further than traditional statistics and resort to approaches under the conceptual umbrella of artificial intelligence, including machine learning (ML), statistical pattern recognition and soft computing methods. Sound statistical principles are essential to trust the evidence base built through the use of such approaches. Statistical ML methods are thus at the core of the current thesis. More than 50% of drugs currently available target only four key protein families, from which almost a 30% correspond to the G Protein-Coupled Receptors (GPCR) superfamily. This superfamily regulates the function of most cells in living organisms and is at the centre of the investigations reported in the current thesis. No much is known about the 3D structure of these proteins. Fortunately, plenty of information regarding their amino acid sequences is readily available. The automatic grouping and classification of GPCRs into families and these into subtypes based on sequence analysis may significantly contribute to ascertain the pharmaceutically relevant properties of this protein superfamily. There is no biologically-relevant manner of representing the symbolic sequences describing proteins using real-valued vectors. This does not preclude the possibility of analyzing them using principled methods. These may come, amongst others, from the field of statisticalML. Particularly, kernel methods can be used to this purpose. Moreover, the visualization of high-dimensional protein sequence data can be a key exploratory tool for finding meaningful information that might be obscured by their intrinsic complexity. That is why the objective of the research described in this thesis is twofold: first, the design of adequate visualization-oriented artificial intelligence-based methods for the analysis of GPCR sequential data, and second, the application of the developed methods in relevant pharmacoproteomic problems such as GPCR subtyping and protein alignment-free analysis.Se podría decir que la investigación farmacológica ha desempeñado un papel predominante en el avance de la medicina a lo largo de las últimas décadas. Una de las áreas principales de investigación farmacológica es la relacionada con el estudio de proteínas. La farmacología depende cada vez más de los avances en genómica y proteómica, lo que conlleva el reto de diseñar métodos robustos para el análisis de los datos complejos que generan. Tal reto nos incita a ir más allá de la estadística tradicional para recurrir a enfoques dentro del campo de la inteligencia artificial, incluyendo el aprendizaje automático y el reconocimiento de patrones estadístico, entre otros. El uso de principios sólidos de teoría estadística es esencial para confiar en la base de evidencia obtenida mediante estos enfoques. Los métodos de aprendizaje automático estadístico son uno de los fundamentos de esta tesis. Más del 50% de los fármacos en uso hoy en día tienen como ¿diana¿ apenas cuatro familias clave de proteínas, de las que un 30% corresponden a la super-familia de los G-Protein Coupled Receptors (GPCR). Los GPCR regulan la funcionalidad de la mayoría de las células y son el objetivo central de la tesis. Se desconoce la estructura 3D de la mayoría de estas proteínas, pero, en cambio, hay mucha información disponible de sus secuencias de amino ácidos. El agrupamiento y clasificación automáticos de los GPCR en familias, y de éstas a su vez en subtipos, en base a sus secuencias, pueden contribuir de forma significativa a dilucidar aquellas de sus propiedades de interés farmacológico. No hay forma biológicamente relevante de representar las secuencias simbólicas de las proteínas mediante vectores reales. Esto no impide que se puedan analizar con métodos adecuados. Entre estos se cuentan las técnicas provenientes del aprendizaje automático estadístico y, en particular, los métodos kernel. Por otro lado, la visualización de secuencias de proteínas de alta dimensionalidad puede ser una herramienta clave para la exploración y análisis de las mismas. Es por ello que el objetivo central de la investigación descrita en esta tesis se puede desdoblar en dos grandes líneas: primero, el diseño de métodos centrados en la visualización y basados en la inteligencia artificial para el análisis de los datos secuenciales correspondientes a los GPCRs y, segundo, la aplicación de los métodos desarrollados a problemas de farmacoproteómica tales como la subtipificación de GPCRs y el análisis de proteinas no-alineadas

    A probabilistic approach to the visual exploration of G protein-coupled receptor sequences

    Get PDF
    The study of G protein-coupled receptors (GPCRs) is of great interest in pharmaceutical research, but only a few of their 3D structures are known at present. On the contrary, their amino acid sequences are known and accessible. Sequence analysis can provide new insight on GPCR function. Here, we use a kernel-based statistical machine learning model for the visual exploration of GPCR functional groups from their sequences. This is based on the rich information provided by the model regarding the probability of each sequence belonging to a certain receptor group.Postprint (published version

    Exploratory visualization of misclassified GPCRs from their transformed unaligned sequences using manifold learning techniques

    Get PDF
    Class C G-protein-coupled receptors (GPCRs) are cell membrane proteins of great relevance to biology and pharmacology. Previous research has revealed an upper boundary on the accuracy that can be achieved in their classification into subtypes from the unaligned transformation of their sequences. To investigate this, we focus on sequences that have been misclassified using supervised methods. These are visualized, using a nonlinear dimensionality reduction technique and phylogenetic trees, and then characterized against the rest of the data and, particularly, against the rest of cases of their own subtype. This should help to discriminate between different types of misclassification and to build hypotheses about database quality problems and the extent to which GPCR sequence transformations limit subtype discriminability. The reported experiments provide a proof of concept for the proposed method.Postprint (published version

    Kernel-based manifold visualization of GPCR sequences

    Get PDF
    G-Protein Coupled Receptors (GPCRs) are key players in cell- cell communication. They transduce a wide range of extracellular signals such as light, odors, hormones or neurotransmitters into ap- propriated cellular responses. These receptors regulate many cell functions and are encoded by the largest gene family in mammalian genomes, representing more than 3% of the human genes. GPCRs are the estimated target of approximately half of the medicines cur- rently in clinical use. Probabilistic modelling and specifically, machine learning prob- abilistic models have only recently begun to be applied to the anal- ysis of GPCR functioning, although their application is expected to generate new insights in this field. Statistical machine learning techniques are specially suited to deal with some of the common challenges of molecular modelling in proteins, and should be of spe- cial interest when the three dimensional structures of the proteins and receptors remain unknown at large. In this thesis, we describe a statistical machine learning model of the manifold learning family, adapted through kernelization to the analysis of protein sequence data. Experimental results show that it provides a differentiated visualization and grouping of GPCR subfamilies and that these groupings faithfully reflect the structure of GPCR phylogenetic trees.

    Visual Characterization of Misclassified Class C GPCRs through Manifold-based Machine Learning Methods

    Get PDF

    Using machine learning tools for protein database biocuration assistance

    Get PDF
    Biocuration in the omics sciences has become paramount, as research in these fields rapidly evolves towards increasingly data-dependent models. As a result, the management of web-accessible publicly-available databases becomes a central task in biological knowledge dissemination. One relevant challenge for biocurators is the unambiguous identification of biological entities. In this study, we illustrate the adequacy of machine learning methods as biocuration assistance tools using a publicly available protein database as an example. This database contains information on G Protein-Coupled Receptors (GPCRs), which are part of eukaryotic cell membranes and relevant in cell communication as well as major drug targets in pharmacology. These receptors are characterized according to subtype labels. Previous analysis of this database provided evidence that some of the receptor sequences could be affected by a case of label noise, as they appeared to be too consistently misclassified by machine learning methods. Here, we extend our analysis to recent and quite substantially modified new versions of the database and reveal their now extremely accurate labeling using several machine learning models and different transformations of the unaligned sequences. These findings support the adequacy of our proposed method to identify problematic labeling cases as a tool for database biocuration.Peer ReviewedPostprint (published version

    Allosteric modulators of metabotropic glutamate receptors: from virtual screening to experimental validation

    Get PDF
    The goal of this thesis was to gain further insight into the binding behavior of ligands in the heptahelical domain (HD) of group I metabotropic glutamate receptors (mGluRs). This was realized by the establishment of strategies for the detection and optimization of molecules acting as non-competitive antagonists of group I mGluRs (mGluR1/5). These strategies should guarantee high diversity in the retrieved chemotypes of the detected compounds not resembling original reference molecules (“scaffold-hopping”). The detection of new scaffolds, in turn, was divided into two approaches: First the development of pharmacological assays to screen compounds at a certain target for bioactivity (here: affinity towards the allosteric recognition site of mGluR1 and mGluR5), and second the evaluation of computer assisted methods for the identification of virtual hits to be screened afterwards on the pharmacological assays established before. Promising molecules should be optimized with respect to activity/affinity and selectivity, their binding mode investigated and, finally, compared to existing lead compounds. Initially, membrane based binding assays for the HD of mGlu1 and mGlu5 receptors with enhanced throughput (shifting from 24-well plates to 96-well plates) were set up. For the mGluR1 assay the potent antagonist EMQMCM exhibited high affinity towards the binding site (Ki ~3nM), which is in accordance with published data from Mabire et al. (functional IC50 3nM). For mGluR5 the reference antagonist MPEP binds with high affinity to the receptor (binding IC50 13.8nM), which confirmed earlier findings from Anderson et al. (binding IC50 15nM). In another series of experiments the properties of rat cerebellar (mGluR1) and corticalmembranes (mGluR5) as well as of radiotracers were investigated by means of binding saturation studies and kinetic experiments. Furthermore, the influence of the solvent DMSO, necessary for compound screening of lipophilic substances, on positive and negative controls was evaluated. As the precise architecture of the HD of mGluR1 is still not known our efforts in identifying new ligands for this receptor focused on the ligand-based approach. All computer assisted methods that were applied to virtually screen large compound collections and to retrieve potential hits (“activity-enriched subsets”) acting at the heptahelical domain of mGluR1 relied on the existence of a valid dataset of reference molecules. This was realized by an initial compilation of a mGluR reference data collection comprising in total 357 entries predominantly negative but also some positive allosteric modulators for mGluR1 and mGluR5. In the next step a pharmacophore model for non-competitive mGluR1 antagonists was constructed. It was based upon six selective, potent and structurally diverse ligands. Prospective virtual screening was performed using the CATS atom-pair descriptor. The Asinex Gold-Collection was screened for each seed compound and some of the most similar compounds (according to the CATS descriptor) were ordered and tested forbinding affinity and functional activity at mGluR1. A high hit rate of approximately 26% (IC50 < 15 micro M) was yielded confirming the applicability of this method. One compound exerted functional activity below one micro molar (IC50-value of C-07:362nM ± 0.03). Moreover, non-linear principal component analysis was employed. Again the Asinex vendor database served as test database and was filtered by the pharmacophore model for mGluR1 established before. Test molecules that were adjacently located with mGluR1 antagonist references were selected. 15 compounds were tested on mGluR1 in binding and functional assays and three of them exhibited functional activity (IC50) below 15 micro M. The most potent molecule P-06 revealed an IC50-value of 1.11 micro M (± 0.41). The COBRA database comprising 5,376 structurally diverse bioactive molecules affecting various targets was encoded with the CATS descriptor and used for training two selforganizing maps (SOM). The encoded mGluR reference data collection was projected onto this map according to the SOM algorithm. This projection allowed to clearly distinguish between antagonists of mGluR1 and mGluR5 subtype. 28 compounds were ordered and tested on activity and affinity for mGluR1. They exhibited functional activity down to the sub-micro molar range (IC50-value of S-08: 744nM ± 0.29) yielding a final hit rate of 46% (<15 micro M). Then, the Asinex collection was screened using the SOM approach. For a predicted target panel including the muscarinic mACh (M1) receptor, the histamine H1-receptor and the dopamine D2/D3 receptors, the tested mGluR ligands exhibited the calculated binding pattern. This virtual screening concept might provide a basis for early recognition of potential sideeffects in lead discovery. We superimposed a set of 39 quinoline derivatives as non-competitive mGluR1 antagonists that were recently published by Mabire and co-workers. A CoMFA model (QSAR) was established and the influence of several side chains on functional activity was investigated. The coumarine derivative C-07 was obtained as a result of similarity searching. Starting from this compound a series of chemical derivatives was synthesized. This led to the discovery of potent (B-28, IC50: 58nM ± 0.008; Ki: 293nM ± 0.022) and selective (rmGluR5 IC50: 28.6 micro M) mGluR1 antagonists. From a homology model of mGluR1 we derived a potential binding mode for coumarines within the allosteric transmembrane region. Potential interacting patterns with amino acids were proposed considering the difference of the binding pockets between rat and human receptors. The proposed binding modes for quinolines (here:EMQMCM) and coumarines (here:B-04) were compared and discussed considering in particular the influence on activity of several side chains of quinolines obtained from the QSAR studies. The present studies demonstrated the applicability of ligand-based virtual screening for non-competitive antagonists of a G-protein coupled receptor, resulting in novel, potent and selective agents.Ziel dieser Doktorarbeit war es weiteren Einblick in das Bindungsverhalten von Liganden in der transmembranen Region von Gruppe I metabotropen Glutamatrezeptoren (mGluRs) zu gewinnen. Verwirklicht wurde dies durch den Entwurf von Strategien zur Auffindung und Optimierung von Molekülen die als nichtkompetitive Antagonisten an Gruppe I mGluRs (mGluR1/5) wirken. Diese Strategien sollten eine hohe Diversität der chemischen Strukturen der entdeckten Verbindungen gewährleisten und nicht den ursprünglichen Referenzmolekülen ähneln (das sogenannte „Grundgerüst-Springen“). Die Auffindung neuer Kernstrukturen wiederum wurde in zwei Herangehensweisen aufgeteilt: Zum einen die Entwicklung von pharmakologischen Tests um Substanzen auf Bioaktivität an einer bestimmten Zielstruktur zu untersuchen (hier: die Affinität zur allosterischen Bindungsstelle von mGluR1 und mGluR5), und zum anderen die Evaluierung von computergestützten Methoden für die Identifizierung von virtuellen Suchtreffern die dann in den zuvor etablierten pharmakologischen Testsystemen untersucht werden können. Basierend auf den hierin gemachten Ergebnissen sollten vielversprechende Moleküle bezüglich Aktivität, Affinität und Selektivität optimiert werden, ihr Bindungsmodus untersucht und schließlich mit dem von bereits bekannten Leitstrukturen verglichen werden. Anfangs wurden membranbasierte Bindungstests für die transmembrane Region von mGluR1 und mGluR5 mit erhöhtem Durchsatz entworfen (Transfer vom 24-Lochplatten- auf 96-Lochplattenformat). In diesem Zusammenhang wurde das bereits vorhandene Wissen über einen zur Verfügung stehenden NMDA-Rezeptor-Bindungstest genutzt. Hierbei wurde der Einfluss verschiedener Parameter wie Proteinkonzentration, Inkubationszeit, Inkubationstemperatur, etc. erforscht. Validiert wurden die Testsysteme mit Affinitätsmessungen für Standardverbindungen: Für den mGluR1 Bindungsversuch zeigte der potente Antagonist EMQMCM hohe Affinität an der Bindungsstelle (Ki ~3nM), was in Übereinstimmung mit publizierten Daten von Mabire et al. steht (funtioneller IC50 3nM). Für mGluR5 zeigte der Referenz-Antagonist MPEP hohe Affinität am Rezeptor (Bindungs IC50 13,8nM) was durch frühere Untersuchungen von Anderson et al. bestätigt wird (Bindungs IC50 15nM). In einer weiteren Experimentreihe wurden die Eigenschaften von Cerebellum- Membranen (mGluR1) und Cortex-Membranen (mGluR5) der Ratte untersucht sowie die Eigenschaften eines Radioliganden, und zwar in Form von Bindungs-Sättigungsversuchen und Kinetik-Experimenten. Desweiteren wurde der Einfluss des Lösungsmittels DMSO, das für das Lösen lipophiler Substanzen notwendig war, auf Positiv- und Negativkontrolle geprüft. Da die exakte Kristallstruktur der transmembranen Region von mGluR1 noch immer unbekannt ist haben sich unsere Anstrengungen zur Identifizierung neuer Liganden für diesen Rezeptor auf den ligandenbasierten Ansatz beschränkt. Alle computergestützten Methoden die für das virtuelle Durchforsten großer Substanzdatenbanken zur Auffindung potentieller Treffer angewandt wurden (sogenannter „aktivitätsangereicherte Untergruppen“) basieren auf der Existenz eines validen Datensatzes von Referenzmolekülen. Verwirklicht wurde dies zu Beginn durch das Zusammenstellen einer mGluR Referenzdatenbank mit 357 Einträgen, vornehmlich negative aber auch einige positive Modulatoren an mGluR1 und mGluR5. Anhand umfangreicher Suche in sachbezogener Literatur (Patente und Veröffentlichungen) wurden Angaben gesammelt. Im nächsten Schritt wurde ein Phramakophormodell für nichtkompetitive mGluR1 Antagonisten erstellt. Es basiert auf einigen potenten, selektiven und strukturell diversen Liganden aus der mGluR Referenzdatenbank. Die Entwicklung eines aussagekräftigen Pharmakophormodells stellte einen wichtigen Schritt dar und war Grundlage für folgende Struktursuchen. Die dem Modell zu Grunde liegenden Moleküle wiederum dienten als Referenzmoleküle für eine auf einem topologischen Pharmakophordeskriptor basierende Ähnnlichkeitssuche: Prospektive virtuelle Suche wurde unter Benutzung des CATS Atompaar-Deskriptors durchgeführt, einer konformationsfreien Korrelationsvektorrepräsentation. Eine große Datenbank kommerziell erhältlicher Moleküle (Asinex Gold Collection: ~ 200.000 Einträge) wurde für jede Referenzstruktur durchsucht und einige derentsprechend dem CATS Deskriptor als am ähnlichsten erachteten Verbindungen wurden bestellt und auf Aktivität und Affinität an mGluR1 untersucht. Eine Trefferrate von ungefähr 26% (IC50 < 15 mikro M) die den Nutzen dieser Methode bestätigte, wurde erzielt. Darüber hinaus wies eine Verbindung submikromolare funktionelle Aktivität auf (IC50-Wert von C-07:362nM ± 31). Da dieses Cumarin auch eine vielversprechende Kernstruktur aufwies, wurde es direkt einer Leitstrukturoptimierung unterzogen. In einer weiteren Studie wurden die Vorteile von Pharmakophorsuche und Datenreduktion anhand nichtlinearer Hauptkomponentenanalyse kombiniert. Wiederum diente die Asinex Kollektion als Testdatenbank und wurde mit dem zuvor erstellten mGluR1 Pharmakophormodell gefiltert. Die resultierende „fokussierte Datenbank“ enthielt 2211 Einträge und wurde zusammen mit der mGluR Referenzdatenbank mit einer Vielzahl von 2D-Deskriptoren kodiert und anhand von ChemSpaceShuttle in einen dreidimensionalen Raum projiziert. Testverbindungen die in räumlicher Nachbarschaft zu mGluR1 Referenzen zu finden waren wurden ausgewählt. Einige von ihnen wurden bestellt und auf ihre gewünschte Bioaktivität hin untersucht. Insgesamt wurden fünfzehn Verbindungen in funktionellen Tests und Bindungstest für mGluR1 gemessen wobei drei von ihnen funktionelle Aktivität unter 15 mikro M aufwiesen. Die potenteste Verbindung P-06 zeigte einen IC50-Wert von 1,11 mikro M (± 0,41). Kohonen-Karten stellen eine Alternative zu Ähnlichkeitssuchen im Bereich der virtuellen Suche dar. Sie gruppieren Moleküle indem sie ähnliche Datenwerte zusammenstellen. In der vorliegenden Studie wurde die COBRA 3.12 Datenbank, die 5.376 strukturell unterschiedliche bioaktive Moleküle enthält die mit verschiedenen Rezeptoren und Enzymen wechselwirken, mit dem CATS Deskriptor verschlüsselt. Dann wurden zwei selbstorganisierende Karten (SOM) damit trainiert, eine mit 100 Neuronen und eine mit 225 Neuronen. Anschließend wurde die kodierte mGluR Referenzdatenbank gemäß dem SOM Algorithmus auf diese Karten projiziert. Diese Projektion erlaubte eine klare Trennung zwischen Antagonisten vom Subtyp mGluR1 und mGluR5. Ermutigt durch diese Ergebnisse wurde die Untergruppe der mGluR1 Referenzverbindungen auf die mit der COBRA Datenbank trainierten Karten projiziert und diejenigen Neurone die die höchste Dichte an Referenzverbindungen aufwiesen ausgewählt (Neuron 8/7 auf der kleinen Karte und 6/6 auf der großen Karte). In diesem Sinne wurde auch mit der Asinex Datenbank verfahren und alle Verbindungen die sich in beiden der eben erwähnten Neurone gruppiert haben wurden entsprechend ihrer räumlichen Entfernung zum Zentroid des jeweiligen Neurons sortiert. 28 der ersten 60 Molekülstrukuren wurden bestellt und auf Affinität und Aktivität an mGluR1 getestet. Sie wiesen (inhibitorische) Aktivitäten bis in den submikromolaren Bereich auf (IC50-Wert von S-08: 744nM ± 290) und führten zu einer Trefferquote von 46% (<15 mikro M). Die Anwendung der hier beschriebenen virtuellen Suchmethoden gewährte uns eine Auswahl von selektiven mGluR1 Antagonisten mit neuen Kernstrukturen. Im folgenden wurde ihr Bindungsmodus im Verhältnis zu dem der Referenzverbindungen untersucht und eine vielversprechende Verbindung, ein Cumarin-Derivat das durch die Ähnlichkeitssuche gefunden worden ist, wurde strukturell optimiert. Quantitative Struktur-Wirkungsbeziehung (QSAR) zielt darauf ab den Zusammenhang zwischen Ligandenstrukturen und ihren Bioaktivitätsdaten quantitativ zu beschreiben. Diesbezüglich haben wir einen Satz von 39 Chinolin-Derivaten der mGluR1 Antagonisten darstellt und kürzlich von Mabire und Mitarbeitern veröffentlicht wurde verwendet. Die Strukturen wurden flexibel in einer sinnvollen Anordnung überlagert und in einen Trainingsdatensatz (30 Moleküle) und einen Testdatensatz (9 Moleküle) aufgeteilt. Ein CoMFA-Modell das die beste Vorhersagefähigkeit besaß (q2(cv): 0,617) wurde erstellt. Zur statistischen Absicherung wurde derselbe Gesamtdatensatz zehnmal per Zufallsprinzip in Trainings- (20 Moleküle) und Testdatensatz (19 Moleküle) aufgeteilt was in einem mittleren q2(cv) von 0,507 (± 0,036) resultierte. Nachdem für das urprüngliche Modell Konturkarten, die sterische und elektrostatische Beiträge darstellten, berechnet worden sind wurde der Einfluss verschiedener Seitenketten auf die funktionelle Aktivität untersucht. Für einige Gruppe I mGluR Referenzverbindungen wurden, basierend auf den Ergebnissen der virtuellen Suche mit den Kohonen-Karten, Selektivitätsbetrachtungen durchgeführt. Die Kombination eines topologischen Pharmakophor-Deskriptors (CATS) und der SOMs wurde für die Vorhersage von multiplen Rezeptorinteraktionen von bekannten Gruppe I mGluR Antagonisten verwendet. Moleküle der mGluR Referenz-Sammlung und der COBRA Datenbank, die als Testdatensatz diente, wurden mit den CATS Deskriptor kodiert und einer Klassifizierung und Projektion gemäß dem SOM Algorithmus unterzogen. Für eine vorausgesagte Auswahl an Rezeptoren, darunter der muskarinische mACh (M1) Rezeptor, der Histamin H1-Rezeptor und die Dopamin D2/D3 Rezeptoren, konnten die gemessenen mGluR Liganden die berechneten Interaktionen aufweisen. Dieses Konzept des virtuellen Suchens könnte eine Basis für die frühe Erkennung von potentiellen Wechselwirkungen in der Arzneiforschung darstellen. Das Cumarin-Derivat C-07 wurde im Rahmen der Ähnlichkeitssuche mit dem CATS Deskriptor gefunden. Ausgehend von dieser Verbindung wurde in dem folgenden Aktivitäts- Optimierungsprogramm eine Reihe von chemischen Derivaten synthetisiert. Das führte zur Entdeckung von potenten (B-28, IC50: 58nM ± 8; Ki: 293nM ± 22) und selektiven (rmGluR5 IC50: 28,6 mikro M) mGluR1 Antagonisten. Auf Grundlage unseres Homologiemodells haben wir einen potentiellen Bindungsmodus für Cumarine innerhalb der transmembranen Region ermittelt, was am Beispiel von C-07 und B-28 gezeigt wurde. Es wurden potentielle Interaktionsmuster mit Aminosäuren vorgeschlagen, die auch den Unterschied der Bindetaschen vom Ratten- und Humanrezeptor berücksichtigen. Desweiteren wurden die vermuteten Bidungsmodi für Chinoline (hier: EMQMCM) und Cumarine (hier: B-04) verglichen und diskutiert, und zwar unter besonderer Berücksichtigung des Einflusses von verschiedenen Chinolin-Seitenketten auf die Aktivität gemäß den vorausgegangenen QSAR Studien. Die vorliegenden Untersuchungen veranschaulichen den Nutzen von ligandbasierten virtuellen Suchen für nichtkompetitive Antagonisten von G-Protein gekoppelten Rezeptoren was in der Auffindung neuer, potenter und selektiver Verbindungen mündete

    Analysis of class C G-protein coupled receptors using supervised classification methods

    Get PDF
    G protein-coupled receptors (GPCRs) are cell membrane proteins with a key role in regulating the function of cells. This is the result of their ability to transmit extracellular signals, which makes them relevant for pharmacology and has led, over the last decade, to active research in the field of proteomics. The current thesis specifically targets class C of GPCRs, which are relevant in therapies for various central nervous system disorders, such as Alzheimer’s disease, anxiety, Parkinson’s disease and schizophrenia. The investigation of protein functionality often relies on the knowledge of crystal three dimensional (3-D) structures, which determine the receptor’s ability for ligand binding responsible for the activation of certain functionalities in the protein. The structural information is therefore paramount, but it is not always known or easily unravelled, which is the case of eukaryotic cell membrane proteins such as GPCRs. In the face of the lack of information about the 3-D structure, research is often bound to the analysis of the primary amino acid sequences of the proteins, which are commonly known and available from curated databases. Much research on sequence analysis has focused on the quantitative analysis of their aligned versions, although, recently, alternative approaches using machine learning techniques for the analysis of alignment-free sequences have been proposed. In this thesis, we focus on the differentiation of class C GPCRs into functional and structural related subgroups based on the alignment-free analysis of their sequences using supervised classification models. In the first part of the thesis, the main topic is the construction of supervised classification models for unaligned protein sequences based on physicochemical transformations and n-gram representations of their amino acid sequences. These models are useful to assess the internal data quality of the externally labeled dataset and to manage the label noise problem from a data curation perspective. In its second part, the thesis focuses on the analysis of the sequences to discover subtype- and region-speci¿c sequence motifs. For that, we carry out a systematic analysis of the topological sequence segments with supervised classification models and evaluate the subtype discrimination capability of each region. In addition, we apply different types of feature selection techniques to the n-gram representation of the amino acid sequence segments to find subtype and region specific motifs. Finally, we compare the findings of this motif search with the partially known 3D crystallographic structures of class C GPCRs.Los receptores acoplados a proteínas G (GPCRs) son proteínas de la membrana celular con un papel clave para la regulación del funcionamiento de una célula. Esto es consecuencia de su capacidad de transmisión de señales extracelulares, lo que les hace relevante en la farmacología y que ha llevado a investigaciones activas en la última década en el área de la proteómica. Esta tesis se centra específicamente en la clase C de GPCRs, que son relevante para terapias de varios trastornos del sistema nervioso central, como la enfermedad de Alzheimer, ansiedad, enfermedad de Parkinson y esquizofrenia. La investigación de la funcionalidad de proteínas muchas veces se basa en el conocimiento de la estructura cristalina tridimensional (3-D), que determina la capacidad del receptor para la unión con ligandos, que son responsables para la activación de ciertas funcionalidades en la proteína. El análisis de secuencias de amino ácidos se ha centrado en muchas investigaciones en el análisis cuantitativo de las versiones alineados de las secuencias, aunque, recientemente, se han propuesto métodos alternativos usando métodos de aprendizaje automático aplicados a las versiones no-alineadas de las secuencias. En esta tesis, nos centramos en la diferenciación de los GPCRs de la clase C en subgrupos funcionales y estructurales basado en el análisis de las secuencias no-alineadas utilizando modelos de clasificación supervisados. Estos modelos son útiles para evaluar la calidad interna de los datos a partir del conjunto de datos etiquetados externamente y para gestionar el problema del 'ruido de datos' desde la perspectiva de la curación de datos. En su segunda parte, la tesis enfoca el análisis de las secuencias para descubrir motivos de secuencias específicos a nivel de subtipo o región. Para eso, llevamos a cabo un análisis sistemático de los segmentos topológicos de la secuencia con modelos supervisados de clasificación y evaluamos la capacidad de discriminar entre subtipos de cada región. Adicionalmente, aplicamos diferentes tipos de técnicas de selección de atributos a las representaciones mediante n-gramas de los segmentos de secuencias de amino ácidos para encontrar motivos específicos a nivel de subtipo y región. Finalmente, comparamos los descubrimientos de la búsqueda de motivos con las estructuras cristalinas parcialmente conocidas para la clase C de GPCRs

    Protein classification from primary structures in the context of database biocuration

    Get PDF
    En col·laboració amb la Universitat de Barcelona (UB) i la Universitat Rovira i Virgili (URV)The problem of automatic protein classification using only their primary structures plays an important role in modern bioinformatics research, especially for proteins whose 3-D structures are yet unknown. One of these types of proteins, at the center of this thesis, is class C of the G-Protein Coupled Receptors super-family. This class is of a great interest in pharmacoproteomics, from the point of view of drug design, because of their involvement in signaling pathways in cells of the central nervous system. The automatic classification of protein sequences may improve the understanding of their function and be a basis for the prediction of their 3-D structure, which is an information of interest for drug research. This thesis compares classification results for different versions of the same database, including the most recent ones. This exploration of the evolution of classification provides relevant information about its capabilities and limitations. Furthermore, and given that several data transformations are investigated, it also provides strong evidence concerning the robustness of these transformations. The other important contribution of the thesis is the investigation oriented towards the definition of approaches for semi-automatized database curation by using the automatic evaluation of the database changes between versions with advanced machine learning techniques. The thesis shows the consistency in improvements of the quality of the data between three versions of the database across different classification techniques and different primary structure transformations. It also validates the recently introduced continuous distributed representation for protein sequences, originally developed for natural text processing. This new representation is shown to be adequate and robust for the task of primary structure classification
    corecore