    Transcription dynamics in TOL plasmid pWW0 of the soil bacterium Pseudomonas putida mt-2

    Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología Molecular. Fecha de lectura: 25-04-2014Pseudomonas putida mt-2 metabolizes m-xylene and other aromatics through the convergence of enzymes encoded by the catabolic operons of the TOL plasmid pWW0 with chromosomally derived activities. Using the technique of tiling arrays for the transcriptome of interest in both pWW0 and the genome of this bacterium, we observed that not only all pWW0 xyl genes were highly transcribed in response to m-xylene/toluene, but a novel transcription unit downstream of xylN also became apparent, regardless of culture conditions. The 3’-end of the lower operon mRNA penetrated well into the convergent xylS transcript. In contrast, xylR mRNA for the head regulator of the system was sharply decreased by the aromatic substrates, although the corresponding upper operon mRNA was stable throughout its full length. RNA deep sequencing analysis showed a similar expression pattern for xyl genes when cells were treated with m-xylene, which provided higher resolution at the single nucleotide level, thereby revealing incorrect annotation of the xylL sequence. At the same time, the profile showed that the transcription level was apparently increased for several plasmid backbone genes such as orf13, orf31, orf124-126, orf188-191 and the mpf (mating pili formation) cluster, which led to definition of genetic structure. When we visualized the xyl transcripts by mRNA fluorescent in situ hybridization in a single cell, the molecules remained within one or two subcellular regions, which were nucleoid-free. Labeling of RNAP or ribosomal protein with fluorescent protein revealed that RNAP colocalizes with chromosomal DNA and the ribosome is spatially separated from those molecules. When the copy number of the target mRNA was increased by the T7 expression system, an increased number of foci was observed and most messages resided in nucleoid-free regions. In addition, the quantification of mRNA copy number with a statistical approach shows that the TOL system is subject to transcriptional bursting.Pseudomonas putida mt-2 metaboliza m-xileno y otros aromáticos a través de la convergencia de enzimas codificadas por los operones catabólicos del plásmido TOL pWW0 y de actividades enzimáticas de codificación cromosómica. Al emplear la técnica de microchips del tipo tiling para estudiar el transcriptoma originado tanto en pWW0 como en el cromosoma bacteriano, observamos que no sólo todos los genes xyl del plasmido TOL fueron vigorosamente transcritos en respuesta al m-xileno/tolueno; sino que también lo hizo una unidad transcripcional previamente desconocida que se encuentra localizada consecutivamente a xylN y que se expresa independientemente de las condiciones de cultivo. Además, el extremo 3’ del ARNm del operon inferior se extendió hasta el interior de la región codificante del gen xylS ubicado en posición convergente. Por el contrario, el nivel del ARNm de xylR, codificante del principal regulador del sistema, fue disminuyendo abruptamente en presencia de substratos aromáticos; no obstante el correspondiente ARNm del operón superior se mantuvo uniformemente estable a través de toda su longitud. Un análisis de secuenciación masiva de ARN muestra un patrón de expresión similar para los genes xyl cuando las células fueron tratadas con m-xileno, permitiendo una mayor resolución (hasta el nivel de nucleótido único); y de este modo, revelando una incorrecta anotación para la secuencia del gen xylL. Al mismo tiempo, el perfil transcripcional muestra que el nivel de transcritos de varios genes correspondientes a la columna vertebral del plasmido, tales como orf13, orf31, orf124-126, orf188-191 y el grupo mpf (formación del pelo conjugativo) se incrementó; lo cual permite definir su estructura genética. Al visualizar la transcripción de los genes xyl mediante hibridación in situ fluorescente de ARNm al nivel de célula única, se observa que las moléculas son retenidas únicamente dentro de una o dos regiones subcelulares las cuales se encuentran libres de nucleoides. Mediante marcaje con GFP (proteína fluorescente verde) de la polimerasa de ARN o de proteína ribosomal se observó que la polimerasa se colocaliza con el ADN cromosómico y que el ribosoma se encuentra espacialmente separado de estas moléculas. Al aumentar el número de copias de ARN de TOL mediante el sistema de expresión T7, se observó un incremento en el número de focos de co-localización y que la mayoría de los mensajeros residían en regiones libres de nucleoides. Además, la cuantificación del número de copias del ARNm con una aproximación estadística muestra que el sistema TOL se encuentra sujeto a transcriptional bursting, es decir se expresa en intensas ráfagas de actividad transcripcional intercaladas con periodos silentes

    Machine Learning Approaches for Natural Resource Data

    Abstract Real life applications involving efficient management of natural resources are dependent on accurate geographical information. This information is usually obtained by manual on-site data collection, via automatic remote sensing methods, or by the mixture of the two. Natural resource management, besides accurate data collection, also requires detailed analysis of this data, which in the era of data flood can be a cumbersome process. With the rising trend in both computational power and storage capacity, together with lowering hardware prices, data-driven decision analysis has an ever greater role. In this thesis, we examine the predictability of terrain trafficability conditions and forest attributes by using a machine learning approach with geographic information system data. Quantitative measures on the prediction performance of terrain conditions using natural resource data sets are given through five distinct research areas located around Finland. Furthermore, the estimation capability of key forest attributes is inspected with a multitude of modeling and feature selection techniques. The research results provide empirical evidence on whether the used natural resource data is sufficiently accurate enough for practical applications, or if further refinement on the data is needed. The results are important especially to forest industry since even slight improvements to the natural resource data sets utilized in practice can result in high saves in terms of operation time and costs. Model evaluation is also addressed in this thesis by proposing a novel method for estimating the prediction performance of spatial models. Classical model goodness of fit measures usually rely on the assumption of independently and identically distributed data samples, a characteristic which normally is not true in the case of spatial data sets. Spatio-temporal data sets contain an intrinsic property called spatial autocorrelation, which is partly responsible for breaking these assumptions. The proposed cross validation based evaluation method provides model performance estimation where optimistic bias due to spatial autocorrelation is decreased by partitioning the data sets in a suitable way. Keywords: Open natural resource data, machine learning, model evaluationTiivistelmä Käytännön sovellukset, joihin sisältyy luonnonvarojen hallintaa ovat riippuvaisia tarkasta paikkatietoaineistosta. Tämä paikkatietoaineisto kerätään usein manuaalisesti paikan päällä, automaattisilla kaukokartoitusmenetelmillä tai kahden edellisen yhdistelmällä. Luonnonvarojen hallinta vaatii tarkan aineiston keräämisen lisäksi myös sen yksityiskohtaisen analysoinnin, joka tietotulvan aikakautena voi olla vaativa prosessi. Nousevan laskentatehon, tallennustilan sekä alenevien laitteistohintojen myötä datapohjainen päätöksenteko on yhä suuremmassa roolissa. Tämä väitöskirja tutkii maaston kuljettavuuden ja metsäpiirteiden ennustettavuutta käyttäen koneoppimismenetelmiä paikkatietoaineistojen kanssa. Maaston kuljettavuuden ennustamista mitataan kvantitatiivisesti käyttäen kaukokartoitusaineistoa viideltä eri tutkimusalueelta ympäri Suomea. Tarkastelemme lisäksi tärkeimpien metsäpiirteiden ennustettavuutta monilla eri mallintamistekniikoilla ja piirteiden valinnalla. Väitöstyön tulokset tarjoavat empiiristä todistusaineistoa siitä, onko käytetty luonnonvaraaineisto riittävän laadukas käytettäväksi käytännön sovelluksissa vai ei. Tutkimustulokset ovat tärkeitä erityisesti metsäteollisuudelle, koska pienetkin parannukset luonnonvara-aineistoihin käytännön sovelluksissa voivat johtaa suuriin säästöihin niin operaatioiden ajankäyttöön kuin kuluihin. Tässä työssä otetaan kantaa myös mallin evaluointiin esittämällä uuden menetelmän spatiaalisten mallien ennustuskyvyn estimointiin. Klassiset mallinvalintakriteerit nojaavat yleensä riippumattomien ja identtisesti jakautuneiden datanäytteiden oletukseen, joka ei useimmiten pidä paikkaansa spatiaalisilla datajoukoilla. Spatio-temporaaliset datajoukot sisältävät luontaisen ominaisuuden, jota kutsutaan spatiaaliseksi autokorrelaatioksi. Tämä ominaisuus on osittain vastuussa näiden oletusten rikkomisesta. Esitetty ristiinvalidointiin perustuva evaluointimenetelmä tarjoaa mallin ennustuskyvyn mitan, missä spatiaalisen autokorrelaation vaikutusta vähennetään jakamalla datajoukot sopivalla tavalla. Avainsanat: Avoin luonnonvara-aineisto, koneoppiminen, mallin evaluoint