6 research outputs found

    Une approche de modélisation de biologie des systèmes sur la spondylarthrite

    Get PDF
    Spondyloarthritis is a frequent chronic inflammatory rheumatism, with a prevalence of 0.43 % in France. This disease presents axial skeleton injuries, but also on peripheral joints, and can results in a total spinal and sacro-iliac motility loss. Extra-articular features including uveitis, psoriasis and inflammatory bowel disease are frequent. Current SpA treatments are only symptomatic, relieving inflammatory symptoms. SpA etiology is largely multifactorial with a genetic component dominated by the long-known strong association with the HLA-B27 allele. This allele, however, is not sufficient for the disease to occur. This thesis project objective was then to identify other genetic factors in the origin of SpA.My work was mainly divided in two complementary data analyses, in a way to get a systems biology approach. The first one consisted in proceed linking analyses on data from Affymetrix genotyping chips gathered from DNA of 1310 people grouped in 210 families. This study allowed notably to detect a new significantly linked region to SpA : 13q13, with an interval of 1.3 Mb. This part of genome is currently being sequenced to allow a better causal SNP identification.Secondly, an Affymetrix HumanGene 1.0 st transcriptomic chips analysis was performed on MD-DCs extracted from 68 people, stimulated or not by LPS during 6 or 24 hours. This cohort was grouped between 23 patients HLA-B27+, 23 healthy controls HLA-B27+ and 21 healthy controls HLA-B27-. I could notice that HLA-B27 allele is farly enough to considerably affect cell transcriptomic profiles, which encourages to include HLA-B27+ healthy controls. Otherwise, a gene network analysis allowed me to highlight on an inhibition of early steps of cholesterol biosyntthesis.La Spondyloarthrite (SpA) est un rhumatisme inflammatoire chronique fréquent, avec une prévalence de 0,43 % en France. Elle consiste en une atteinte prédominante du squelette axial, mais aussi des articulations périphériques, et peut conduire à une immobilité du rachis et des articulations sacro-iliaques. Des atteintes extra-articulaires sont fréquentes, telles qu'une uvéite, un psoriasis ou une maladie inflammatoire chronique de l'intestin. Les traitements actuels ne sont que symptomatiques, ciblant principalement les manifestations inflammatoires. L'étiologie de la SpA est multifactorielle avec une composante génétique dominée par l'association forte et bien connue avec l'allèle HLA-B27. Cependant, ce facteur génétique n'est clairement pas suffisant pour induire le développement de la maladie. L'objectif de ce projet de thèse était donc d'identifier d'autres facteurs génétiques à l'origine du développement de la SpA.Mon travail a porté sur l'analyse de deux jeux de données complémentaires, dans une perspective de biologie des systèmes. Dans une première partie, j'ai conduit une analyse de liaison dans 210 familles atteintes de la maladie représentant 1310 personnes génotypées avec des puces Affymetrix 250k. Une nouvelle région significativement liée à la SpA a été détectée en 13q13, avec un intervalle de 1,3 Mb défini par des haplotypes recombinants chez les patients.Ensuite, une analyse transcriptomique des cellules dendritiques dérivées des monocytes de 23 patients HLA-B27+, 23 témoins sains HLA-B27+ et 21 témoins sains HLA-B27-, et stimulées ou non par du LPS, a tenté de distinguer les gènes dont l'expression est modifiée par la maladie de ceux influencés par l'allèle HLA-B27 seul. L'annotation fonctionnelle et une analyse par réseau de gènes ont mis en évidence l'inhibition chez les patients des étapes précoces de la biosynthèse du cholestérol

    Développement de méthodes d'intégration de données biologiques à l'aide d'Elasticsearch

    Get PDF
    En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites.In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits

    Étude des signatures géniques dans un contexte d’expériences de RNA- Seq

    Full text link
    Le principal intérêt des expériences de séquençage d’ARN (RNA-Seq) est qu’elles consti- tuent une vue d’ensemble sur les procédés géniques intrinsèques de la cellule. L’état malade différe de l’état sain de par son usage génique et de nombreux efforts ont été canalisés dans les dernières années en bioinformatique, pour affiner ces signatures gé- niques, notamment dans la classification de leucémies et le typage de cancers du sein. Tous ces modèles voient, cependant, leur performance détériorée par un grand nombre de dimensions d’entrée et la plupart des auteurs choisissent d’imposer un seuil d’exclusion de gènes. J’ai voulu déterminer la nature d’une signature génique et sa taille optimale, en nombre de gènes. Pour déterminer la taille d’une signature génique j’ai appliqué des algorithmes de co-partitionnements à un sous-ensemble de données transcriptomiques afin d’en extraire la signature génique. Mes résultats indiquent que la signature génique ne peut être extraite en entier et l’utilisation de seuils d’exclusions de gènes est le prin- cipal problème. J’ai exploré une méthode d’extraction de la signature génique avec un réseau de neurones artificiels (ANN) en calculant le plus petit ajustement en expression génique nécessaire pour passer d’un phénotype à un autre. La signature génique extraite indique que presque la totalité des gènes sont affectés pour un phénotype donné. Consé- quemment, il est inapproprié de considérer des méthodes avec seuil d’exclusion de gènes et je propose que les signatures géniques sont des phénomènes omnigéniques. Afin de pallier à l’inconvénient dû à la nécessité d’inclure tous les gènes dans l’analyse, j’ai élaboré une méthode d’apprentissage machine par ANN qui gère simultanément deux espaces : l’espace des gènes et l’espace des échantillons. Les coordonnées des gènes et des échantillons dans leur espaces respectifs sont arrangés de manière à ce qu’ils pré- disent l’expression génique. Ma contribution est donc un modèle qui apprend de manière simultanée les interactions entre les gènes et les interactions entre les échantillons. Ma méthode permet également d’inclure dans l’analyse de jeux de données partiellement manquantes, faisant le lien vers l’intégration de données et l’analyses d’échantillons de séquençage de cellule unique (scRNA-Seq).The main appeal of RNA sequencing experiments is that they offer a general view of all cell’s intrinsic genetic processes. Diseased state differs from healthy by it’s gene usage and many efforts have been channeled in bioinformatics these last few years to purify these gene signatures, in particular in the classification of leukemia and breast cancer subtyping. However, these models see their performance hindered by a large size of input dimensions and most authors chose to impose a threshold of gene exclusion. I wanted to determine what is a gene signature and how many genes it truly contains. To determine it’s size, I applied co-clustering algorithms to a subset of transcriptomic data, to extract it’s gene signature. My results indicate that the gene signature cannot be extracted entirely and the use of exclusion thresholds is the main problem. I then explored a gene signature extraction method using an artificial neural net (ANN), by calculating the smallest adjustment in gene expression necessary to go from one phe- notypic class to another. The extracted gene signature indicated that almost all genes are affected for the given phenotype. Consequently, it seems inappropriate to consider threshold-based methods and I, therefore, propose that gene signatures are omnigenic phenomena. To level the disadvantage of having to include all genes in gene expres- sion analyses, I designed a ANN method that simultaneously manages two spaces: the gene and the sample space. The coordinates for genes and samples in their respective space are arranged to predict the gene expression. My contribution is a model that learns simultaneously about genes and samples. My method allows the analysis of datasets with missing data, making the integration of heterogenous data integration as well as the analysis of single-cell RNA-Seq experiments

    Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile

    Get PDF
    La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente.Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings

    Analyse de données et modèle pour l'étude de la chromatine, des G-quadruplexes et de la réparation de l'ADN

    Get PDF
    Les cassures double brin de l'ADN (DSB) sont des lésions délétères qui peuvent survenir sur le génome suite à une exposition à des agents génotoxiques, mais aussi de façon endogène, parmi lesquelles la formation de structures secondaires de l'ADN, telles que les G-quadruplexes (G4). Des méthodes computationnelles antérieures ont été développées pour prédire les G4 en fonction de motifs spécifiques, mais des approches récentes, basées sur le séquençage à haut débit ont permis d'identifier les G4 à l'échelle du génome. J'ai développé un nouveau modèle de Deep Learning pour prédire les régions G4 actives en utilisant les séquences d'ADN et l'accessibilité de la chromatine. En utilisant ce modèle, nous avons identifié de nouveaux motifs prédicteurs, y compris des facteurs de transcription connus qui pourraient réguler directement ou indirectement l'activité des G4. Nous avons également cartographié des milliers de régions G4 actives qui peuvent être utilisées dans le traitement du cancer pour identifier des cibles potentielles de médicaments récents à base de ligand-G4. De plus, une fois induites sur le génome, les DSB déclenchent des modifications locales de la chromatine, comme la phosphorylation du variant d'histone H2AX (gammaH2AX) par la kinase ATM, pour former des foyers de réparation à l'échelle du mégabase. Comment ces domaines sont formés pour permettre la signalisation rapide des DSB, et comment ces changements locaux de la chromatine sont gérés par la cellule n'est pas encore bien connu. Nous avons découvert que le recrutement des composants de réparation et la phosphorylation de H2AX sont régis par des domaines topologiques associatifs (TAD) préexistants. De plus, nous avons mis en évidence un processus d'extrusion de boucle unidirectionnel médié par le complexe de cohésine des deux côtés des DSB, ce qui permet la formation de foyers de réparation par ATM. Nous avons également découvert qu'à grande échelle, les DSB peuvent former un nouveau compartiment "D" de chromatine, composé de domaines de chromatine décorés par gH2AX, mais aussi de gènes de la réponse aux dommages à l'ADN (DDR), suggérant un rôle du regroupement des DSB dans l'activation de la DDR.DNA Double-strand breaks (DSBs) are harmful lesions that can occur on the genome fol­lowing exposure to genotoxic agents but also due to endogenous causes, among which the formation of DNA secondary structures, such as G-quadruplexes (G4). Previous methods were developed to com­putationaly predict G4s based on specific motifs, and recent Next Generation Sequencing approaches identified G4 distribution genome-wide. I developed a novel Deep learning model to predict active G4 regions using the DNA sequences and chromatin accessibility. Using this model, we found new motifs predictors including known transcription factors that could regulate directly or indirectly G4s activity. We also mapped thousand of active G4s regions that can be used in cancer therapy to identify potential targets of recent G4-ligand drugs. Moreover, once induced on the genome, DSBs trigger local chromatin modifications including the phos­phorylation of the H2AX histone variant (gamma H2AX) by the ATM kinase, to form megabase-sized repair foci. How these domains are formed to enable rapid signaling of DSBs, and how these local chromatin changes are handled by the cell is still unclear. We found, that the recruitment of repair components and the phosphorylation of H2AX is governed by pre-existing Topologically Associating Domain (TADs). Moreover we discovered that an unidirectional loop-extrusion process mediated by the cohesin complex takes place on both side of the DSBs, which allow repair foci formation by ATM. We also found, at a global scale, that DSBs can form a novel "D" chromatin compartment, composed of gH2AX-decorated chromatin domains, but also of DNA damage responsive genes, suggesting a role of DSB clustering in activating the DNA Damage Response

    Web sémantique et Mémoire d expériences sur l analyse du transcriptome

    No full text
    This work is carried out in the context of the MEAT project (Memory of Experiments for Analysis of Transcriptome) aiming to support biologists working on DNA microarrays. We provide methodological and software solutions to help biologists in the validation and the interpretation of their experiments. Our approach, based on Semantic web technologies, is relying on formalized ontologies, semantic annotations of scientific articles and knowledge extraction from texts. It can probably be extended to other massive analyses of biological events (as provided by proteomics, metabolomics...). First, we propose a modular ontology composed of three sub-ontologies covering all knowledge of the biochip domain (experiments databases, scientific papers, biomedical entities...). To describe the biomedical domain, this ontology integrates an existing ontology called UMLS, which allowed us to study the problem of reusing and adapting ontologies for new applications. Second, we propose a methodology for the automatic generation of ontology-based semantic annotations: starting from a scientific article in biology, it allows to generate a structured semantic annotation based on a domain ontology and describing the semantic content of this text. The generated annotations are based not only on concept instances but also on relation instances. Finally, to facilitate the sharing of the knowledge embedded in the memory, we propose a search module based on Corese which enables biologists to use annotations. By using the query and rule languages of Corese, this system allows to perform reasoning on the annotations base for retrieving relevant information.Cette thèse rentre dans le cadre du projet MEAT (Mémoire d´Expériences pour l´Analyse du Transcriptome) dont le but est d´assister les biologistes travaillant dans le domaine des puces à ADN, pour l´interprétation et la validation de leurs résultats. Nous proposons une aide méthodologique et logicielle pour construire une mémoire d´expériences pour ce domaine. Notre approche, basée sur les technologies du web sémantique, repose sur l´utilisation des ontologies et des annotations sémantiques sur des articles scientifiques et d´autres sources de connaissances du domaine. Dans une première partie, nous proposons une ontologie modulaire pour la description des connaissances du domaine des puces à ADN (base de données d´expériences, articles scientifiques, entités biomédicales...). Cette ontologie intègre entre autres, le réseau sémantique déjà existant d´UMLS, ce qui nous a permis d´approfondir le problème de réutilisation de ressources termino-ontologiques et leur adaptation à une nouvelle application. Ensuite, nous proposons une méthodologie générique pour la génération d´annotations sémantiques basées sur cette ontologie en exploitant les connaissances contenues dans les textes. Cette méthodologie a l´originalité d´utiliser des techniques de traitement automatique de la langue et des grammaires d´extraction de relations pour extraire automatiquement des articles scientifiques les relations reliant des termes d´UMLS reconnus dans le texte. Un système supportant cette méthodologie a été implémenté et validé par nos collègues biologistes. Enfin, pour faciliter la diffusion des connaissances contenues dans la mémoire, nous proposons un prototype qui se base sur un moteur de recherche sémantique (Corese) et qui exploite la base d´annotations que nous avons constituée. Cette partie du travail a permis d´améliorer la tâche de recherche d´informations en la rendant plus efficace et en offrant des mécanismes de raisonnement sur les connaissances du domaine
    corecore