2 research outputs found
Transcription dynamics in TOL plasmid pWW0 of the soil bacterium Pseudomonas putida mt-2
Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología Molecular. Fecha de lectura: 25-04-2014Pseudomonas putida mt-2 metabolizes m-xylene and other aromatics through the
convergence of enzymes encoded by the catabolic operons of the TOL plasmid
pWW0 with chromosomally derived activities. Using the technique of tiling arrays
for the transcriptome of interest in both pWW0 and the genome of this bacterium,
we observed that not only all pWW0 xyl genes were highly transcribed in response
to m-xylene/toluene, but a novel transcription unit downstream of xylN also became
apparent, regardless of culture conditions. The 3’-end of the lower operon mRNA
penetrated well into the convergent xylS transcript. In contrast, xylR mRNA for the
head regulator of the system was sharply decreased by the aromatic substrates,
although the corresponding upper operon mRNA was stable throughout its full
length. RNA deep sequencing analysis showed a similar expression pattern for xyl
genes when cells were treated with m-xylene, which provided higher resolution at
the single nucleotide level, thereby revealing incorrect annotation of the xylL
sequence. At the same time, the profile showed that the transcription level was
apparently increased for several plasmid backbone genes such as orf13, orf31,
orf124-126, orf188-191 and the mpf (mating pili formation) cluster, which led to
definition of genetic structure. When we visualized the xyl transcripts by mRNA
fluorescent in situ hybridization in a single cell, the molecules remained within one
or two subcellular regions, which were nucleoid-free. Labeling of RNAP or
ribosomal protein with fluorescent protein revealed that RNAP colocalizes with
chromosomal DNA and the ribosome is spatially separated from those molecules.
When the copy number of the target mRNA was increased by the T7 expression
system, an increased number of foci was observed and most messages resided in
nucleoid-free regions. In addition, the quantification of mRNA copy number with a
statistical approach shows that the TOL system is subject to transcriptional
bursting.Pseudomonas putida mt-2 metaboliza m-xileno y otros aromáticos a través de la
convergencia de enzimas codificadas por los operones catabólicos del plásmido
TOL pWW0 y de actividades enzimáticas de codificación cromosómica. Al
emplear la técnica de microchips del tipo tiling para estudiar el transcriptoma
originado tanto en pWW0 como en el cromosoma bacteriano, observamos que no
sólo todos los genes xyl del plasmido TOL fueron vigorosamente transcritos en
respuesta al m-xileno/tolueno; sino que también lo hizo una unidad transcripcional
previamente desconocida que se encuentra localizada consecutivamente a xylN y
que se expresa independientemente de las condiciones de cultivo. Además, el
extremo 3’ del ARNm del operon inferior se extendió hasta el interior de la región
codificante del gen xylS ubicado en posición convergente. Por el contrario, el nivel
del ARNm de xylR, codificante del principal regulador del sistema, fue
disminuyendo abruptamente en presencia de substratos aromáticos; no obstante el
correspondiente ARNm del operón superior se mantuvo uniformemente estable a
través de toda su longitud. Un análisis de secuenciación masiva de ARN muestra un
patrón de expresión similar para los genes xyl cuando las células fueron tratadas
con m-xileno, permitiendo una mayor resolución (hasta el nivel de nucleótido
único); y de este modo, revelando una incorrecta anotación para la secuencia del
gen xylL. Al mismo tiempo, el perfil transcripcional muestra que el nivel de
transcritos de varios genes correspondientes a la columna vertebral del plasmido,
tales como orf13, orf31, orf124-126, orf188-191 y el grupo mpf (formación del pelo
conjugativo) se incrementó; lo cual permite definir su estructura genética. Al
visualizar la transcripción de los genes xyl mediante hibridación in situ fluorescente
de ARNm al nivel de célula única, se observa que las moléculas son retenidas
únicamente dentro de una o dos regiones subcelulares las cuales se encuentran
libres de nucleoides. Mediante marcaje con GFP (proteína fluorescente verde) de la
polimerasa de ARN o de proteína ribosomal se observó que la polimerasa se colocaliza
con el ADN cromosómico y que el ribosoma se encuentra espacialmente
separado de estas moléculas. Al aumentar el número de copias de ARN de TOL
mediante el sistema de expresión T7, se observó un incremento en el número de
focos de co-localización y que la mayoría de los mensajeros residían en regiones
libres de nucleoides. Además, la cuantificación del número de copias del ARNm
con una aproximación estadística muestra que el sistema TOL se encuentra sujeto a
transcriptional bursting, es decir se expresa en intensas ráfagas de actividad
transcripcional intercaladas con periodos silentes
Machine Learning Approaches for Natural Resource Data
Abstract
Real life applications involving efficient management of natural resources are dependent on accurate geographical information. This information is usually obtained by manual on-site data collection, via automatic remote sensing methods, or by the mixture of the two. Natural resource management, besides accurate data collection, also requires detailed analysis of this data, which in the era of data flood can be a cumbersome process. With the rising trend in both computational power and storage capacity, together with lowering hardware prices, data-driven decision analysis has an ever greater role.
In this thesis, we examine the predictability of terrain trafficability conditions and forest attributes by using a machine learning approach with geographic information system data. Quantitative measures on the prediction performance of terrain conditions using natural resource data sets are given through five distinct research areas located around Finland. Furthermore, the estimation capability of key forest attributes is inspected with a multitude of modeling and feature selection techniques. The research results provide empirical evidence on whether the used natural resource data is sufficiently accurate enough for practical applications, or if further refinement on the data is needed. The results are important especially to forest industry since even slight improvements to the natural resource data sets utilized in practice can result in high saves in terms of operation time and costs.
Model evaluation is also addressed in this thesis by proposing a novel method for estimating the prediction performance of spatial models. Classical model goodness of fit measures usually rely on the assumption of independently and identically distributed data samples, a characteristic which normally is not true in the case of spatial data sets. Spatio-temporal data sets contain an intrinsic property called spatial autocorrelation, which is partly responsible for breaking these assumptions. The proposed cross validation based evaluation method provides model performance estimation where optimistic bias due to spatial autocorrelation is decreased by partitioning the data sets in a suitable way.
Keywords: Open natural resource data, machine learning, model evaluationTiivistelmä
Käytännön sovellukset, joihin sisältyy luonnonvarojen hallintaa ovat riippuvaisia tarkasta paikkatietoaineistosta. Tämä paikkatietoaineisto kerätään usein manuaalisesti paikan päällä, automaattisilla kaukokartoitusmenetelmillä tai kahden edellisen yhdistelmällä. Luonnonvarojen hallinta vaatii tarkan aineiston keräämisen lisäksi myös sen yksityiskohtaisen analysoinnin, joka tietotulvan aikakautena voi olla vaativa prosessi. Nousevan laskentatehon, tallennustilan sekä alenevien laitteistohintojen myötä datapohjainen päätöksenteko on yhä suuremmassa roolissa.
Tämä väitöskirja tutkii maaston kuljettavuuden ja metsäpiirteiden ennustettavuutta käyttäen koneoppimismenetelmiä paikkatietoaineistojen kanssa. Maaston kuljettavuuden ennustamista mitataan kvantitatiivisesti käyttäen kaukokartoitusaineistoa viideltä eri tutkimusalueelta ympäri Suomea. Tarkastelemme lisäksi tärkeimpien metsäpiirteiden ennustettavuutta monilla eri mallintamistekniikoilla ja piirteiden valinnalla. Väitöstyön tulokset tarjoavat empiiristä todistusaineistoa siitä, onko käytetty luonnonvaraaineisto riittävän laadukas käytettäväksi käytännön sovelluksissa vai ei. Tutkimustulokset ovat tärkeitä erityisesti metsäteollisuudelle, koska pienetkin parannukset luonnonvara-aineistoihin käytännön sovelluksissa voivat johtaa suuriin säästöihin niin operaatioiden ajankäyttöön kuin kuluihin.
Tässä työssä otetaan kantaa myös mallin evaluointiin esittämällä uuden menetelmän spatiaalisten mallien ennustuskyvyn estimointiin. Klassiset mallinvalintakriteerit nojaavat yleensä riippumattomien ja identtisesti jakautuneiden datanäytteiden oletukseen, joka ei useimmiten pidä paikkaansa spatiaalisilla datajoukoilla. Spatio-temporaaliset datajoukot sisältävät luontaisen ominaisuuden, jota kutsutaan spatiaaliseksi autokorrelaatioksi. Tämä ominaisuus on osittain vastuussa näiden oletusten rikkomisesta. Esitetty ristiinvalidointiin perustuva evaluointimenetelmä tarjoaa mallin ennustuskyvyn mitan, missä spatiaalisen autokorrelaation vaikutusta vähennetään jakamalla datajoukot sopivalla tavalla.
Avainsanat: Avoin luonnonvara-aineisto, koneoppiminen, mallin evaluoint