65 research outputs found
DiNAMO: Exact method for degenerate IUPAC motifs discovery, characterization of sequence-specific errors
National audienceNext generation sequencing technologies are still associated with relatively high error rates, about 1%, which correspond to thousands of errors in the scale of a complete genome. Each region needs therefore to be sequenced several times and variants are usually filtered based on depth criteria. The significant number of artifacts, in spite of those filters, shows the limit of conventional approaches and indicates that some sequencing artifacts are recurrent. This recurrence underlines that sequencing errors can depend on the upstream nucleotide sequence context. Our goal is to search for overrepresented motifs that tend to induce sequencing errors. Previous studies showed that some motifs, such as GGT [1,2], induce sequencing errors in the Illumina technologies. However, these studies were dedicated to exact motifs, and did not take into account approximate motifs, limiting the statistical power of such approaches. On the other hand, some tools, such as FIRE [3], DREME [4] and Discrover [5], were developed to search for degenerate motifs over the 15-letter IUPAC alphabet in the context of chip-seq studies. However, these tools use greedy algorithms, implying a lack of sensitivity. So we developed an exact algorithm to search for degenerate motifs by enumerating all possible IUPAC motifs. This algorithm is based on mutual information and uses hashtables with graphs data structure to store the motifs. It is independent from the sequencing technology. Experimental results on real data show that there are many overrepresented motifs upstream of sequencing artifacts. These latter are identified through the strand bias between forward and reverse reads. The homopoly-mer of length 3 CCC seems to be sufficient to induce errors on IonTorrent. On Illumina, motifs are mainly composed of GGC followed by GGT (like: TGGCNGGT) or homopolymers. We have also noticed a base quality fall after the detected motifs. Our exact algorithm requires less than one minute (Intel R Core TM i5-4570 CPU, 3.20GHz), and less than 2GB of RAM to search for full degenerate motifs of length 6 on a dataset of approximately 24000 sequences, extracted from 11 exomes sequenced on IonTorrent Proton
Etude des fonctions de REG4 dans les cellules tumorales coliques en relation avec leurs propriétés de chimiorésistance et d'invasivité
Deuxième cause de mortalité par cancer en France, les cancers colorectaux présentent un fort potentiel de dissémination et de résistance aux agents anticancéreux. Un des enjeux actuels de la cancérologie est d identifier des marqueurs prédictifs de chimiorésistance et/ou d agressivité des tumeurs et d analyser les mécanismes moléculaires mis en jeu pour promouvoir des thérapies plus ciblées. Ayant identifié le gène REG4 (regenerating islet-derived gene 4) comme étant surexprimé dans les cancers colorectaux ainsi que dans des lignées de cellules tumorales coliques humaines présentant des propriétés de résistance à des agents anticancéreux et d invasivité, notre hypothèse de travail a été que REG4 participerait à l acquisition de ces propriétés par les cellules tumorales. REG4 est le dernier membre identifié de la famille des gènes REG qui code des protéines à domaine de reconnaissance aux carbohydrates de type C-lectine. La surexpression de certaines protéines REG a été associée à la prolifération, la survie et l adhésion de cellules de différentes origines. Mes travaux de recherche ont donc eu pour objectifs de déterminer les fonctions de REG4 dans les cellules tumorales coliques et d analyser son expression tissulaire dans l intestin normal et dans diverses situations pathologiques. Les études fonctionnelles ont été réalisées à l aide de modèles cellulaires sécrétant ou non la protéine REG4 endogène ou de cellules mises en présence d une protéine REG4 recombinante. La première observation a été que REG4 est sécrétée en continu par les cellules tumorales. Concernant l implication potentielle de REG4 dans la progression tumorale, nous montrons que l ajout quotidien de protéine REG4 (0,1 à 100 nM) dans le milieu de culture de cellules tumorales stimule leur prolifération dès 24 heures de traitement, sans effet dose. Par contre, les courbes de croissance de transfectants stables exprimant REG4 ou non sont identiques, suggérant que REG4 agirait essentiellement de façon paracrine sur la prolifération cellulaire. Utilisant une technique de blessure du tapis cellulaire, nous montrons que REG4 active également la migration cellulaire, et cela de façon paracrine et autocrine. Enfin, les résultats des tests in vitro d invasion des cellules sur collagène de type I permettent de qualifier REG4 de facteur pro-invasif agissant de façon autocrine et paracrine. Les voies PI3K/AKT, PKAs, PKCs et celles engageant les protéines Rho-GTPases seraient impliquées dans le mécanisme d invasion cellulaire induit par REG4. Parallèlement à ces approches in vitro, nous décrivons une augmentation de l expression de REG4 dans des situations pathologiques (polypes hyperplasiques, adénomes et cancers colorectaux) au cours desquelles la prolifération, plus ou moins associée à la migration et à l invasivité cellulaire sont fortement activées. REG4 est également surexprimé dans le tissu intestinal au cours du développement foetal et lors de maladies inflammatoires chroniques. Dans ces tissus, les effets biologiques de REG4 pourraient s exercer sur les cellules sécrétant REG4 mais aussi sur les cellules environnantes. Concernant l implication de REG4 dans la chimiorésistance, nos résultats, bien que préliminaires, suggèrent que REG4 peut entraîner une diminution des effets cytotoxiques d agents anticancéreux sur des cellules en arrêt de croissance, ceci de façon autocrine et paracrine. L augmentation du pourcentage de cellules viables est associée à une diminution de fragmentation de l ADN et à l augmentation de l expression des protéines anti-apoptotiques Bcl-2 et Bcl-XL. Par contre, REG4 semble avoir peu d effet sur les cellules proliférantes. Des études complémentaires sont nécessaires pour conclure sur la participation de REG4 à l chappement des cellules tumorales traitées par un agent anticancéreux.LILLE2-BU Santé-Recherche (593502101) / SudocSudocFranceF
Diagnosis of Lynch Syndrome and Strategies to Distinguish Lynch-Related Tumors from Sporadic MSI/dMMR Tumors
Microsatellite instability (MSI) is a hallmark of Lynch syndrome (LS)-related tumors but is not specific to it, as approximately 80% of MSI/mismatch repair-deficient (dMMR) tumors are sporadic. Methods leading to the diagnosis of LS have considerably evolved in recent years and so have tumoral tests for LS screening and for the discrimination of LS-related to MSI-sporadic tumors. In this review, we address the hallmarks of LS, including the clinical, histopathological, and molecular features. We present recent advances in diagnostic and screening strategies to identify LS patients. We also discuss the pitfalls associated with the current strategies, which should be taken into account to improve the diagnosis of LS and avoid inappropriate clinical management
Caractérisation moléculaire des mutations germinales et somatiques associées au syndrome de Lynch en Tunisie
Bien que le cancer colorectal (CCR) soit relativement peu fréquent en Tunisie, la proportion de cancers colorectaux développés à un âge précoce est particulièrement élevée, suggérant une susceptibilité génétique. Néanmoins, jusqu'à présent, aucune étude génétique n'a été réalisée dans la population tunisienne. Le syndrome de Lynch ou syndrome HNPCC (cancer colo-rectal héréditaire sans polypose) constitue la cause la plus fréquente de CCR héréditaire. Il est dû à des mutations germinales affectant les gènes MMR de réparation des mésappariements de l'ADN. Notre travail de Thèse a eu pour objectif principal d'étudier les caractéristiques cliniques et génétiques du syndrome de Lynch en Tunisie. L'étude a porté sur 31 familles tunisiennes suspectées de syndrome de Lynch, dont 13 (42%) répondants aux critères d'Amsterdam. Dix mutations différentes, dont 8 nouvelles, ont été identifiées dans 11 familles (35,5%) : 5 dans MSH2 et 5 dans MLH1, dont un réarrangement de grande taille. Ainsi, dans la population tunisienne, au moins 35,5% des cancers développés dans le cadre d'une suspicion de syndrome de Lynch sont liés à des mutations germinales des gènes MMR. Ceci constitue une donnée particulièrement importante à prendre en considération pour la prise en charge des patients et de leur famille. L'identification des patients présentant avec un risque élevé de développer un CCR reste problématique. Celle-ci repose essentiellement sur l'histoire familiale des patients. Néanmoins, la recherche d'instabilité microsatellitaire et l'étude de l'expression des protéines MMR sont d'un intérêt majeur pour le dépistage du syndrome de Lynch. Une partie de notre travail a eu pour objectif de tenter d'identifier de nouveaux marqueurs d'aide au diagnostic de susceptibilité au cancer colorectal. Nous avons étudié le phénotype et les caractéristiques génétiques des tumeurs de 51 patients sélectionnés selon les critères de Bethesda. Comme attendu, la présence d'instabilité microsatellitaire et la perte d'expression des protéines MMR était significativement associées à l'existence chez les patients d'antécédents familiaux de cancers colorectaux (P < 0,001). De plus, la mucine sécrétée MUC5AC qui n'est pas exprimée dans le côlon adulte normal était plus fréquemment exprimée dans les tumeurs des patients présentant une histoire familiale de cancer colorectal (P = 0,039). Bien que préliminaire, ce résultat suggère que l'étude de l'expression de MUC5AC pourrait avoir un intérêt pour l'aide au dépistage des patients à haut risque de développer un cancer colorectalLILLE2-BU Santé-Recherche (593502101) / SudocSudocFranceF
Genomic organization of the human mucin gene MUC5B. cDNA and genomic sequences upstream of the large central exon.
International audienceThe complete structure of the DNA encoding the polypeptide chain of human mucin MUC5B has been determined. In this paper, we report the full-length cDNA (3886 bp) and genomic (15,143 bp) sequences upstream of the unusually large central exon of the human mucin gene MUC5B. This region, composed of 29 exons, encodes 1283 amino acid residues. Exon sizes vary from 44 to 262 bp, and intron sizes range from 87 to 1703 bp. We determined the 5'-end of MUC5B by performing rapid amplification of cDNA ends-polymerase chain reaction experiments leading to the same length of the amplified product and by using primer extension experiments. A putative translation start site was found at nucleotide +37. We compared the amino-terminal region of MUC5B with those of pro-von Willebrand Factor, MUC2 and MUC5AC, and animal mucins, RMuc2, PSM, and FIM-B.1. The primary amino acid sequence with a high content of cysteine residues demonstrates a high degree of similarity with other members of the 11p15 mucin gene family, particularly MUC5AC. The complete genomic organization and both full-length genomic and cDNA sequences of MUC5B have been elucidated. This gene contains 48 exons and encodes 5662 amino acid residues to give a polypeptide with a Mr approximately 600,000
- …