23 research outputs found

    Chemometric Approaches for Systems Biology

    Full text link
    The present Ph.D. thesis is devoted to study, develop and apply approaches commonly used in chemometrics to the emerging field of systems biology. Existing procedures and new methods are applied to solve research and industrial questions in different multidisciplinary teams. The methodologies developed in this document will enrich the plethora of procedures employed within omic sciences to understand biological organisms and will improve processes in biotechnological industries integrating biological knowledge at different levels and exploiting the software packages derived from the thesis. This dissertation is structured in four parts. The first block describes the framework in which the contributions presented here are based. The objectives of the two research projects related to this thesis are highlighted and the specific topics addressed in this document via conference presentations and research articles are introduced. A comprehensive description of omic sciences and their relationships within the systems biology paradigm is given in this part, jointly with a review of the most applied multivariate methods in chemometrics, on which the novel approaches proposed here are founded. The second part addresses many problems of data understanding within metabolomics, fluxomics, proteomics and genomics. Different alternatives are proposed in this block to understand flux data in steady state conditions. Some are based on applications of multivariate methods previously applied in other chemometrics areas. Others are novel approaches based on a bilinear decomposition using elemental metabolic pathways, from which a GNU licensed toolbox is made freely available for the scientific community. As well, a framework for metabolic data understanding is proposed for non-steady state data, using the same bilinear decomposition proposed for steady state data, but modelling the dynamics of the experiments using novel two and three-way data analysis procedures. Also, the relationships between different omic levels are assessed in this part integrating different sources of information of plant viruses in data fusion models. Finally, an example of interaction between organisms, oranges and fungi, is studied via multivariate image analysis techniques, with future application in food industries. The third block of this thesis is a thoroughly study of different missing data problems related to chemometrics, systems biology and industrial bioprocesses. In the theoretical chapters of this part, new algorithms to obtain multivariate exploratory and regression models in the presence of missing data are proposed, which serve also as preprocessing steps of any other methodology used by practitioners. Regarding applications, this block explores the reconstruction of networks in omic sciences when missing and faulty measurements appear in databases, and how calibration models between near infrared instruments can be transferred, avoiding costs and time-consuming full recalibrations in bioindustries and research laboratories. Finally, another software package, including a graphical user interface, is made freely available for missing data imputation purposes. The last part discusses the relevance of this dissertation for research and biotechnology, including proposals deserving future research.Esta tesis doctoral se centra en el estudio, desarrollo y aplicación de técnicas quimiométricas en el emergente campo de la biología de sistemas. Procedimientos comúnmente utilizados y métodos nuevos se aplican para resolver preguntas de investigación en distintos equipos multidisciplinares, tanto del ámbito académico como del industrial. Las metodologías desarrolladas en este documento enriquecen la plétora de técnicas utilizadas en las ciencias ómicas para entender el funcionamiento de organismos biológicos y mejoran los procesos en la industria biotecnológica, integrando conocimiento biológico a diferentes niveles y explotando los paquetes de software derivados de esta tesis. Esta disertación se estructura en cuatro partes. El primer bloque describe el marco en el cual se articulan las contribuciones aquí presentadas. En él se esbozan los objetivos de los dos proyectos de investigación relacionados con esta tesis. Asimismo, se introducen los temas específicos desarrollados en este documento mediante presentaciones en conferencias y artículos de investigación. En esta parte figura una descripción exhaustiva de las ciencias ómicas y sus interrelaciones en el paradigma de la biología de sistemas, junto con una revisión de los métodos multivariantes más aplicados en quimiometría, que suponen las pilares sobre los que se asientan los nuevos procedimientos aquí propuestos. La segunda parte se centra en resolver problemas dentro de metabolómica, fluxómica, proteómica y genómica a partir del análisis de datos. Para ello se proponen varias alternativas para comprender a grandes rasgos los datos de flujos metabólicos en estado estacionario. Algunas de ellas están basadas en la aplicación de métodos multivariantes propuestos con anterioridad, mientras que otras son técnicas nuevas basadas en descomposiciones bilineales utilizando rutas metabólicas elementales. A partir de éstas se ha desarrollado software de libre acceso para la comunidad científica. A su vez, en esta tesis se propone un marco para analizar datos metabólicos en estado no estacionario. Para ello se adapta el enfoque tradicional para sistemas en estado estacionario, modelando las dinámicas de los experimentos empleando análisis de datos de dos y tres vías. En esta parte de la tesis también se establecen relaciones entre los distintos niveles ómicos, integrando diferentes fuentes de información en modelos de fusión de datos. Finalmente, se estudia la interacción entre organismos, como naranjas y hongos, mediante el análisis multivariante de imágenes, con futuras aplicaciones a la industria alimentaria. El tercer bloque de esta tesis representa un estudio a fondo de diferentes problemas relacionados con datos faltantes en quimiometría, biología de sistemas y en la industria de bioprocesos. En los capítulos más teóricos de esta parte, se proponen nuevos algoritmos para ajustar modelos multivariantes, tanto exploratorios como de regresión, en presencia de datos faltantes. Estos algoritmos sirven además como estrategias de preprocesado de los datos antes del uso de cualquier otro método. Respecto a las aplicaciones, en este bloque se explora la reconstrucción de redes en ciencias ómicas cuando aparecen valores faltantes o atípicos en las bases de datos. Una segunda aplicación de esta parte es la transferencia de modelos de calibración entre instrumentos de infrarrojo cercano, evitando así costosas re-calibraciones en bioindustrias y laboratorios de investigación. Finalmente, se propone un paquete software que incluye una interfaz amigable, disponible de forma gratuita para imputación de datos faltantes. En la última parte, se discuten los aspectos más relevantes de esta tesis para la investigación y la biotecnología, incluyendo líneas futuras de trabajo.Aquesta tesi doctoral es centra en l'estudi, desenvolupament, i aplicació de tècniques quimiomètriques en l'emergent camp de la biologia de sistemes. Procediments comúnment utilizats i mètodes nous s'apliquen per a resoldre preguntes d'investigació en diferents equips multidisciplinars, tant en l'àmbit acadèmic com en l'industrial. Les metodologies desenvolupades en aquest document enriquixen la plétora de tècniques utilitzades en les ciències òmiques per a entendre el funcionament d'organismes biològics i milloren els processos en la indústria biotecnològica, integrant coneixement biològic a distints nivells i explotant els paquets de software derivats d'aquesta tesi. Aquesta dissertació s'estructura en quatre parts. El primer bloc descriu el marc en el qual s'articulen les contribucions ací presentades. En ell s'esbossen els objectius dels dos projectes d'investigació relacionats amb aquesta tesi. Així mateix, s'introduixen els temes específics desenvolupats en aquest document mitjançant presentacions en conferències i articles d'investigació. En aquesta part figura una descripació exhaustiva de les ciències òmiques i les seues interrelacions en el paradigma de la biologia de sistemes, junt amb una revisió dels mètodes multivariants més aplicats en quimiometria, que supossen els pilars sobre els quals s'assenten els nous procediments ací proposats. La segona part es centra en resoldre problemes dins de la metabolòmica, fluxòmica, proteòmica i genòmica a partir de l'anàlisi de dades. Per a això es proposen diverses alternatives per a compendre a grans trets les dades de fluxos metabòlics en estat estacionari. Algunes d'elles estàn basades en l'aplicació de mètodes multivariants propostos amb anterioritat, mentre que altres són tècniques noves basades en descomposicions bilineals utilizant rutes metabòliques elementals. A partir d'aquestes s'ha desenvolupat software de lliure accés per a la comunitat científica. Al seu torn, en aquesta tesi es proposa un marc per a analitzar dades metabòliques en estat no estacionari. Per a això s'adapta l'enfocament tradicional per a sistemes en estat estacionari, modelant les dinàmiques dels experiments utilizant anàlisi de dades de dues i tres vies. En aquesta part de la tesi també s'establixen relacions entre els distints nivells òmics, integrant diferents fonts d'informació en models de fusió de dades. Finalment, s'estudia la interacció entre organismes, com taronges i fongs, mitjançant l'anàlisi multivariant d'imatges, amb futures aplicacions a la indústria alimentària. El tercer bloc d'aquesta tesi representa un estudi a fons de diferents problemes relacionats amb dades faltants en quimiometria, biologia de sistemes i en la indústria de bioprocessos. En els capítols més teòrics d'aquesta part, es proposen nous algoritmes per a ajustar models multivariants, tant exploratoris com de regressió, en presencia de dades faltants. Aquests algoritmes servixen ademés com a estratègies de preprocessat de dades abans de l'ús de qualsevol altre mètode. Respecte a les aplicacions, en aquest bloc s'explora la reconstrucció de xarxes en ciències òmiques quan apareixen valors faltants o atípics en les bases de dades. Una segona aplicació d'aquesta part es la transferència de models de calibració entre instruments d'infrarroig proper, evitant així costoses re-calibracions en bioindústries i laboratoris d'investigació. Finalment, es proposa un paquet software que inclou una interfície amigable, disponible de forma gratuïta per a imputació de dades faltants. En l'última part, es discutixen els aspectes més rellevants d'aquesta tesi per a la investigació i la biotecnologia, incloent línies futures de treball.Folch Fortuny, A. (2016). Chemometric Approaches for Systems Biology [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/77148TESISPremios Extraordinarios de tesis doctorale

    The Halo-Galaxy Connection from the Large Scale Structure of the Universe

    Full text link
    Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Física Teórica. Fecha de lectura: 15-09-201

    Mean Square Analytic Solutions of Random Linear Models

    Full text link
    El objetivo de este proyecto de tesis doctoral es el desarrollo de técnicas analítico-numéricas para resolver, en media cuadrática problemas, de valores iniciales de ecuaciones y sistemas de ecuaciones en diferencias y diferenciales aleatorias de tipo lineal. Respecto del estudio aportado sobre ecuaciones en diferencias (véase Capítulo 3), se extienden al contexto aleatorio algunos de los principales resultados que en el caso determinista se conocen para resolver este tipo de ecuaciones así como para estudiar el comportamiento asintótico de su solución. En lo que se refiere a las ecuaciones diferenciales hay que señalar que el elemento unificador del estudio realizado en esta memoria es la extensión al escenario aleatorio del método de Fröbenius para la búsqueda de soluciones de ecuaciones diferenciales en forma de desarrollos en serie de potencias. A largo de los Capítulos 4-7 se abordan problemas tanto de tipo escalar como de tipo matricial tanto de primer como de segundo orden, donde la aleatoriedad se introduce en los modelos a través de las condiciones iniciales y los coeficientes, siendo además la incertidumbre en este último caso, considerada tanto de forma aditiva como multiplicativa. Los problemas basados en ecuaciones diferenciales aleatorias tratados permiten introducir procesos estocásticos importantes como son el proceso exponencial (véase Capítulo 5), los procesos trigonométricos seno y coseno y algunas de sus propiedades algebraicas básicas (véase Capítulo 6). En el último capítulo se estudia la ecuación diferencial de Hermite con coeficientes aleatorios y, bajo ciertas condiciones, se obtienen soluciones en forma de serie aleatoria finita que definen los polinomios de Hermite aleatorios. Además de obtener las soluciones en forma de serie aleatoria convergente en el sentido estocástico de la media cuadrática, para cada uno de los problemas tratados se calculan aproximaciones de las principales propiedades estadísticas del proceso solución.Calbo Sanjuán, G. (2010). Mean Square Analytic Solutions of Random Linear Models [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/8721Palanci

    Development of a methodology to obtain climate change projections of coastline evolution considering multiple time and spatial scales in an uncertainty context

    Get PDF
    RESUMEN: En esta tesis doctoral se establece un marco para el análisis de impactos costeros compatible con los condicionantes computacionales y de escala impuestos por el cambio climático y orientado hacia una mejor estimación del riesgo y hacia el diseño de estrategias de adaptación efectivas. Para ello, se desarrolla un modelo de evolución de la línea de costa basado en la física de los procesos y enriquecido por datos mediante asimilación. Una vez validado, el modelo se usa para pronosticar la respuesta de un tramo costero considerando la incertidumbre asociada al oleaje y al nivel del mar futuros. Esas proyecciones de la línea de costa se emplean a su vez para actualizar la morfología costera y obtener proyecciones de inundación que incorporan el efecto de la erosión. Finalmente, se desarrolla un nuevo modelo capaz de resolver de forma acoplada la evolución de la línea de costa y la morfología costera aplicable a diferentes configuraciones incluidas playas con corales, vegetación y estructuras antrópicas.ABSTRACT: In this PhD thesis, a coastal impact modelling framework that fulfills the computational and scale constraints imposed by climate change and oriented to produce better risk estimates and designing effective adaptation strategies, is established. To this end, a novel physics-based and data-assimilated shoreline evolution model is built. Once validated, the model is used to forecast the shoreline response considering climate-related uncertainty associated to future waves and water levels. Next, the shoreline projections are employed to update the nearshore morphology and to obtain erosion-enhanced flooding projections. Finally, a novel model capable of jointly resolving the shoreline evolution and the complete coastal morphology applicable to most of the sandy coastal settings worldwide including beaches protected by coral reefs, vegetation or man-made structures; is developed

    Models for time series prediction based on neural networks. Case study : GLP sales prediction from ANCAP.

    Get PDF
    A time series is a sequence of real values that can be considered as observations of a certain system. In this work, we are interested in time series coming from dynamical systems. Such systems can be sometimes described by a set of equations that model the underlying mechanism from where the samples come. However, in several real systems, those equations are unknown, and the only information available is a set of temporal measures, that constitute a time series. On the other hand, by practical reasons it is usually required to have a prediction, v.g. to know the (approximated) value of the series in a future instant t. The goal of this thesis is to solve one of such real-world prediction problem: given historical data related with the lique ed bottled propane gas sales, predict the future gas sales, as accurately as possible. This time series prediction problem is addressed by means of neural networks, using both (dynamic) reconstruction and prediction. The problem of to dynamically reconstruct the original system consists in building a model that captures certain characteristics of it in order to have a correspondence between the long-term behavior of the model and of the system. The networks design process is basically guided by three ingredients. The dimensionality of the problem is explored by our rst ingredient, the Takens-Mañé's theorem. By means of this theorem, the optimal dimension of the (neural) network input can be investigated. Our second ingredient is a strong theorem: neural networks with a single hidden layer are universal approximators. As the third ingredient, we faced the search of the optimal size of the hidden layer by means of genetic algorithms, used to suggest the number of hidden neurons that maximizes a target tness function (related with prediction errors). These algorithms are also used to nd the most in uential networks inputs in some cases. The determination of the hidden layer size is a central (and hard) problem in the determination of the network topology. This thesis includes a state of the art of neural networks design for time series prediction, including related topics such as dynamical systems, universal approximators, gradient-descent searches and variations, as well as meta-heuristics. The survey of the related literature is intended to be extensive, for both printed material and electronic format, in order to have a landscape of the main aspects for the state of the art in time series prediction using neural networks. The material found was sometimes extremely redundant (as in the case of the back-propagation algorithm and its improvements) and scarce in others (memory structures or estimation of the signal subspace dimension in the stochastic case). The surveyed literature includes classical research works ([27], [50], [52]) as well as more recent ones ([79] , [16] or [82]), which pretends to be another contribution of this thesis. Special attention is given to the available software tools for neural networks design and time series processing. After a review of the available software packages, the most promising computational tools for both approaches are discussed. As a result, a whole framework based on mature software tools was set and used. In order to work with such dynamical systems, software intended speci cally for the analysis and processing of time series was employed, and then chaotic series were part of our focus. Since not all randomness is attributable to chaos, in order to characterize the dynamical system generating the time series, an exploration of chaotic-stochastic systems is required, as well as network models to predict a time series associated to one of them. Here we pretend to show how the knowledge of the domain, something extensively treated in the bibliography, can be someway sophisticated (such as the Lyapunov's spectrum for a series or the embedding dimension). In order to model the dynamical system generated by the time series we used the state-space model, so the time series prediction was translated in the prediction of the next system state. This state-space model, together with the delays method (delayed coordinates) have practical importance for the development of this work, speci cally, the design of the input layer in some networks (multi-layer perceptrons - MLPs) and other parameters (taps in the TFLNs). Additionally, the rest of the network components where determined in many cases through procedures traditionally used in neural networks : genetic algorithms. The criteria of model (network) selection are discussed and a trade-o between performance and network complexity is further explored, inspired in the Rissanen's minimum description length and its estimation given by the chosen software. Regarding the employed network models, the network topologies suggested from the literature as adequate for the prediction are used (TLFNs and recurrent networks) together with MLPs (a classic of arti cial neural networks) and networks committees. The e ectiveness of each method is con rmed for the proposed prediction problem. Network committees, where the predictions are a naive convex combination of predictions from individual networks, are also extensively used. The need of criteria to compare the behaviors of the model and of the real system, in the long run, for a dynamic stochastic systems, is presented and two alternatives are commented. The obtained results proof the existence of a solution to the problem of learning of the dependence Input ! Output . We also conjecture that the system is dynamic-stochastic but not chaotic, because we only have a realization of the random process corresponding to the sales. As a non-chaotic system, the mean of the predictions of the sales would improve as the available data increase, although the probability of a prediction with a big error is always non-null due to the randomness present. This solution is found in a constructive and exhaustive way. The exhaustiveness can be deduced from the next ve statements: the design of a neural network requires knowing the input and output dimension,the number of the hidden layers and of the neurons in each of them. the use of the Takens-Mañé's theorem allows to derive the dimension of the input data by theorems such as the Kolmogorov's and Cybenko's ones the use of multi-layer perceptrons with only one hidden layer is justi ed so several of such models were tested the number of neurons in the hidden layer is determined many times heuristically using genetic algorithms a neuron in the output gives the desired prediction As we said, two tasks are carried out: the development of a time series prediction model and the analysis of a feasible model for the dynamic reconstruction of the system. With the best predictive model, obtained by an ensemble of two networks, an acceptable average error was obtained when the week to be predicted is not adjacent to the training set (7.04% for the week 46/2011). We believe that these results are acceptable provided the quantity of information available, and represent an additional validation that neural networks are useful for time series prediction coming from dynamical systems, no matter whether they are stochastic or not. Finally, the results con rmed several already known facts (such as that adding noise to the inputs and outputs of the training values can improve the results; that recurrent networks trained with the back-propagation algorithm don't have the problem of vanishing gradients in short periods and that the use of committees - which can be seen as a very basic of distributed arti cial intelligence - allows to improve signi cantly the predictions).Una serie temporal es una secuencia de valores reales que pueden ser considerados como observaciones de un cierto sistema. En este trabajo, estamos interesados en series temporales provenientes de sistemas dinámicos. Tales sistemas pueden ser algunas veces descriptos por un conjunto de ecuaciones que modelan el mecanismo subyacente que genera las muestras. sin embargo, en muchos sistemas reales, esas ecuaciones son desconocidas, y la única información disponible es un conjunto de medidas en el tiempo, que constituyen la serie temporal. Por otra parte, por razones prácticas es generalmente requerida una predicción, es decir, conocer el valor (aproximado) de la serie en un instante futuro t. La meta de esta tesis es resolver un problema de predicción del mundo real: dados los datos históricos relacionados con las ventas de gas propano licuado, predecir las ventas futuras, tan aproximadamente como sea posible. Este problema de predicción de series temporales es abordado por medio de redes neuronales, tanto para la reconstrucción como para la predicción. El problema de reconstruir dinámicamente el sistema original consiste en construir un modelo que capture ciertas características de él de forma de tener una correspondencia entre el comportamiento a largo plazo del modelo y del sistema. El proceso de diseño de las redes es guiado básicamente por tres ingredientes. La dimensionalidad del problema es explorada por nuestro primer ingrediente, el teorema de Takens-Mañé. Por medio de este teorema, la dimensión óptima de la entrada de la red neuronal puede ser investigada. Nuestro segundo ingrediente es un teorema muy fuerte: las redes neuronales con una sola capa oculta son un aproximador universal. Como tercer ingrediente, encaramos la búsqueda del tamaño oculta de la capa oculta por medio de algoritmos genéticos, usados para sugerir el número de neuronas ocultas que maximizan una función objetivo (relacionada con los errores de predicción). Estos algoritmos se usan además para encontrar las entradas a la red que influyen más en la salida en algunos casos. La determinación del tamaño de la capa oculta es un problema central (y duro) en la determinación de la topología de la red. Esta tesis incluye un estado del arte del diseño de redes neuronales para la predicción de series temporales, incluyendo tópicos relacionados tales como sistemas dinámicos, aproximadores universales, búsquedas basadas en el gradiente y sus variaciones, así como meta-heurísticas. El relevamiento de la literatura relacionada busca ser extenso, para tanto el material impreso como para el que esta en formato electrónico, de forma de tener un panorama de los principales aspectos del estado del arte en la predicción de series temporales usando redes neuronales. El material hallado fue algunas veces extremadamente redundante (como en el caso del algoritmo de retropropagación y sus mejoras) y escaso en otros (estructuras de memoria o estimación de la dimensión del sub-espacio de señal en el caso estocástico). La literatura consultada incluye trabajos de investigación clásicos ( ([27], [50], [52])' así como de los más reciente ([79] , [16] or [82]). Se presta especial atención a las herramientas de software disponibles para el diseño de redes neuronales y el procesamiento de series temporales. Luego de una revisión de los paquetes de software disponibles, las herramientas más promisiorias para ambas tareas son discutidas. Como resultado, un entorno de trabajo completo basado en herramientas de software maduras fue definido y usado. Para trabajar con los mencionados sistemas dinámicos, software especializado en el análisis y proceso de las series temporales fue empleado, y entonces las series caóticas fueron estudiadas. Ya que no toda la aleatoriedad es atribuible al caos, para caracterizar al sistema dinámico que genera la serie temporal se requiere una exploración de los sistemas caóticos-estocásticos, así como de los modelos de red para predecir una serie temporal asociada a uno de ellos. Aquí se pretende mostrar cómo el conocimiento del dominio, algo extensamente tratado en la literatura, puede ser de alguna manera sofisticado (tal como el espectro de Lyapunov de la serie o la dimensión del sub-espacio de señal). Para modelar el sistema dinámico generado por la serie temporal se usa el modelo de espacio de estados, por lo que la predicción de la serie temporal es traducida en la predicción del siguiente estado del sistema. Este modelo de espacio de estados, junto con el método de los delays (coordenadas demoradas) tiene importancia práctica en el desarrollo de este trabajo, específicamente, en el diseño de la capa de entrada en algunas redes (los perceptrones multicapa) y otros parámetros (los taps de las redes TLFN). Adicionalmente, el resto de los componentes de la red con determinados en varios casos a través de procedimientos tradicionalmente usados en las redes neuronales: los algoritmos genéticos. Los criterios para la selección de modelo (red) son discutidos y un balance entre performance y complejidad de la red es explorado luego, inspirado en el minimum description length de Rissanen y su estimación dada por el software elegido. Con respecto a los modelos de red empleados, las topologóas de sugeridas en la literatura como adecuadas para la predicción son usadas (TLFNs y redes recurrentes) junto con perceptrones multicapa (un clásico de las redes neuronales) y comités de redes. La efectividad de cada método es confirmada por el problema de predicción propuesto. Los comités de redes, donde las predicciones son una combinación convexa de las predicciones dadas por las redes individuales, son también usados extensamente. La necesidad de criterios para comparar el comportamiento del modelo con el del sistema real, a largo plazo, para un sistema dinámico estocástico, es presentada y dos alternativas son comentadas. Los resultados obtenidos prueban la existencia de una solución al problema del aprendizaje de la dependencia Entrada - Salida . Conjeturamos además que el sistema generador de serie de las ventas es dinámico-estocástico pero no caótico, ya que sólo tenemos una realización del proceso aleatorio correspondiente a las ventas. Al ser un sistema no caótico, la media de las predicciones de las ventas debería mejorar a medida que los datos disponibles aumentan, aunque la probabilidad de una predicción con un gran error es siempre no nula debido a la aleatoriedad presente. Esta solución es encontrada en una forma constructiva y exhaustiva. La exhaustividad puede deducirse de las siguiente cinco afirmaciones : el diseño de una red neuronal requiere conocer la dimensión de la entrada y de la salida, el número de capas ocultas y las neuronas en cada una de ellas el uso del teorema de takens-Mañé permite derivar la dimensión de la entrada por teoremas tales como los de Kolmogorov y Cybenko el uso de perceptrones con solo una capa oculta es justificado, por lo que varios de tales modelos son probados el número de neuronas en la capa oculta es determinada varias veces heurísticamente a través de algoritmos genéticos una sola neurona de salida da la predicción deseada. Como se dijo, dos tareas son llevadas a cabo: el desarrollo de un modelo para la predicción de la serie temporal y el análisis de un modelo factible para la reconstrucción dinámica del sistema. Con el mejor modelo predictivo, obtenido por el comité de dos redes se logró obtener un error aceptable en la predicción de una semana no contigua al conjunto de entrenamiento (7.04% para la semana 46/2011). Creemos que este es un resultado aceptable dada la cantidad de información disponible y representa una validación adicional de que las redes neuronales son útiles para la predicción de series temporales provenientes de sistemas dinámicos, sin importar si son estocásticos o no. Finalmente, los resultados experimentales confirmaron algunos hechos ya conocidos (tales como que agregar ruido a los datos de entrada y de salida de los valores de entrenamiento puede mejorar los resultados: que las redes recurrentes entrenadas con el algoritmo de retropropagación no presentan el problema del gradiente evanescente en periodos cortos y que el uso de de comités - que puede ser visto como una forma muy básica de inteligencia artificial distribuida - permite mejorar significativamente las predicciones)

    Rivista internazionale di scienze economiche e commerciali - Anno 38 N. 09

    Get PDF

    Robust Visual SLAM in Challenging Environments with Low-texture and Dynamic Illumination

    Get PDF
    - Robustness to Dynamic Illumination conditions is also one of the main open challenges in visual odometry and SLAM, e.g. high dynamic range (HDR) environments. The main difficulties in these situations come from both the limitations of the sensors, for instance automatic settings of a camera might not react fast enough to properly record dynamic illumination changes, and also from limitations in the algorithms, e.g. the track of interest points is typically based on brightness constancy. The work of this thesis contributes to mitigate these phenomena from two different perspectives. The first one addresses this problem from a deep learning perspective by enhancing images to invariant and richer representations for VO and SLAM, benefiting from the generalization properties of deep neural networks. In this work it is also demonstrated how the insertion of long short term memory (LSTM) allows us to obtain temporally consistent sequences, since the estimation depends on previous states. Secondly, a more traditional perspective is exploited to contribute with a purely geometric-based tracking of line segments in challenging stereo streams with complex or varying illumination, since they are intrinsically more informative. Fecha de lectura de Tesis Doctoral: 26 de febrero 2020In the last years, visual Simultaneous Localization and Mapping (SLAM) has played a role of capital importance in rapid technological advances, e.g. mo- bile robotics and applications such as virtual, augmented, or mixed reality (VR/AR/MR), as a vital part of their processing pipelines. As its name indicates, it comprises the estimation of the state of a robot (typically the pose) while, simultaneously, incrementally building and refining a consistent representation of the environment, i.e. the so-called map, based on the equipped sensors. Despite the maturity reached by state-of-art visual SLAM techniques in controlled environments, there are still many open challenges to address be- fore reaching a SLAM system robust to long-term operations in uncontrolled scenarios, where classical assumptions, such as static environments, do not hold anymore. This thesis contributes to improve robustness of visual SLAM in harsh or difficult environments, in particular: - Low-textured Environments, where traditional approaches suffer from an accuracy impoverishment and, occasionally, the absolute failure of the system. Fortunately, many of such low-textured environments contain planar elements that are rich in linear shapes, so an alternative feature choice such as line segments would exploit information from structured parts of the scene. This set of contributions exploits both type of features, i.e. points and line segments, to produce visual odometry and SLAM algorithms robust in a broader variety of environments, hence leveraging them at all instances of the related processes: monocular depth estimation, visual odometry, keyframe selection, bundle adjustment, loop closing, etc. Additionally, an open-source C++ implementation of the proposed algorithms has been released along with the published articles and some extra multimedia material for the benefit of the community

    Design and validation of decision and control systems in automated driving

    Get PDF
    xxvi, 148 p.En la última década ha surgido una tendencia creciente hacia la automatización de los vehículos, generando un cambio significativo en la movilidad, que afectará profundamente el modo de vida de las personas, la logística de mercancías y otros sectores dependientes del transporte. En el desarrollo de la conducción automatizada en entornos estructurados, la seguridad y el confort, como parte de las nuevas funcionalidades de la conducción, aún no se describen de forma estandarizada. Dado que los métodos de prueba utilizan cada vez más las técnicas de simulación, los desarrollos existentes deben adaptarse a este proceso. Por ejemplo, dado que las tecnologías de seguimiento de trayectorias son habilitadores esenciales, se deben aplicar verificaciones exhaustivas en aplicaciones relacionadas como el control de movimiento del vehículo y la estimación de parámetros. Además, las tecnologías en el vehículo deben ser lo suficientemente robustas para cumplir con los requisitos de seguridad, mejorando la redundancia y respaldar una operación a prueba de fallos. Considerando las premisas mencionadas, esta Tesis Doctoral tiene como objetivo el diseño y la implementación de un marco para lograr Sistemas de Conducción Automatizados (ADS) considerando aspectos cruciales, como la ejecución en tiempo real, la robustez, el rango operativo y el ajuste sencillo de parámetros. Para desarrollar las aportaciones relacionadas con este trabajo, se lleva a cabo un estudio del estado del arte actual en tecnologías de alta automatización de conducción. Luego, se propone un método de dos pasos que aborda la validación de ambos modelos de vehículos de simulación y ADS. Se introducen nuevas formulaciones predictivas basadas en modelos para mejorar la seguridad y el confort en el proceso de seguimiento de trayectorias. Por último, se evalúan escenarios de mal funcionamiento para mejorar la seguridad en entornos urbanos, proponiendo una estrategia alternativa de estimación de posicionamiento para minimizar las condiciones de riesgo

    Retrieval and assessment of CO2 uptake by Mediterranean ecosystems using remote sensing and meteorological data

    Get PDF
    El IPCC (Intergovernmental Panel onClimateChange) apunta que, sin una reducción de las emisiones antropogénicas de gases de efecto invernadero, la temperatura media del planeta aumentaría y el sistema climático mundial experimentaría durante el siglo XXI cambios muy probablemente mayores a los ya observados durante el siglo XX. Los ecosistemas terrestres desarrollan un papel fundamental en el ciclo del carbono a través de la fotosíntesis, la respiración, combustión de biomasa y la descomposición. La energía es fijada mediante fotosíntesis y es directamente empleada por la vegetación para su crecimiento produciendo materia orgánica que será posteriormente consumida por microorganismos y resto de seres vivos de manera directa o indirecta. La producción primaria bruta (GPP), i.e., el carbono fijado por la vegetación a través de la fotosíntesis, se puede estimar utilizando el modelo clásico de Monteith. Según el mismo, la GPP viene dada por el producto de tres variables: la radiación incidente fotosintéticamente activa (PAR), la fracción de PAR absorbida por la cubierta vegetal (fAPAR) y la eficiencia en el uso de la radiación (LUE). En el trabajo de tesis realizado se ha tratado la problemática de la obtención de estimaciones diarias de GPP para España. Esto involucra la investigación y mejora de las variables que componen el modelo de Monteith. Para ello se han adaptado, mejorado y desarrollado nuevas metodologías para la obtención de la LUE, la PAR y la fAPAR. Para la obtención de la PAR se han aplicado dos metodologías complementarias: (i) La primera estima la radiación a partir de datos de estación de otras variables meteorológicas (como temperatura y precipitación) mediante la construcción de diversos modelos (redes neuronales, procesos regresión mediante kernels,…), y obtiene los mapas a partir de la espacialización de dichas variables puntuales. (ii) La segunda obtiene el PAR a partir de las imágenes de irradiancia del satélite MSG (Meteosat Segunda Generación), e incorpora además un remuestreo de dichas imágenes y una corrección topográfica (por elevación). Para la obtención fAPAR se han aplicado algoritmos operacionales avalados y se han post-procesado para la corrección de huecos y ruido en las series temporales para aumentar la consistencia de las mismas. Finalmente, para la obtención de la LUE se han empleado cartografías híbridas del tipo de cubierta vegetal adaptadas al área de estudio, se han aplicado estimadores a partir de variables meteorológicas (coeficientes de estrés hídrico y por bajas temperaturas) y se ha evaluado el potencial de índices espectrales a partir de datos de satélite como el índice de reflectividad fotoquímico (PRI) u otros índices espectrales sensibles al contenido en agua de la cubierta. Finalmente los resultados de las estimaciones de GPP se han validado de forma directa sobre datos de estaciones terrestres (torres Eddy covariance) y de forma indirecta por comparación con otros productos de satélite (productos de la NASA obtenidos mediante MODIS y Copernicus DMP). Adicionalmente se ha realizado un análisis del potencial explicativo de las variables de entrada para de esta forma observar patrones espaciales relacionados con la relevancia de su variabilidad temporal en las estimaciones del modelo optimizado en el trabajo de tesis.Photosynthesis is a process by which carbon and energy enter ecosystems. The knowledge of where,when, and how carbon dioxide (CO2) is exchanged between terrestrial ecosystems and atmosphere is crucial to close the Earth's carbon budget and predict feedbacks in a likely warming climate. Gross photosynthesis (uptake of CO2) by vegetation is responsible for the gross primary production (GPP) of the ecosystem. Normally GPP refers to the sum of the photosynthesis by all leaves measured at the ecosystem scale. John Monteith proposed in 1972 a simple approach that has become the paradigm for understanding GPP. It considers GPP as proportional to the incident short wave radiation (PAR), the fractional absorption of that flux (fAPAR) and the radiation use conversion efficiency, also known as light-use efficiency (LUE). This simple equation involves a great deal of biological and biophysical complexity. Photosynthesis requires that the plant replace the water that inevitably escapes from its leaves when CO2 is taken up from the atmosphere. Plants also require a supply of nutrients. Physiological and developmental mechanisms operate to adjust the GPP to the availability of resources. Thus, different types of stresses can affect the efficiency. The different terms in Monteith's equation are emphasized by different scientists. Crop physiologists focus on the PAR term, which explains the seasonal growth of crops and year-to-year variation in yield. Early work within the remote sensing community focused on the fAPAR term, which is linked to canopy structure and condition (i.e. to green biomass). It has a clear seasonal evolution in deciduous species and shows limited variability in evergreen forest ecosystems. The fAPAR is a common biophysical product derived from different remote sensing missions through the inversion of radiative transfer models or from empirical relations with vegetation indices. More recently the strong influence of the LUE term on productivity --particularly in strongly seasonal and nutrient-limited and/or water stressed vegetation canopies-- has been recognized. Variation in LUE is significant over shorter time scales when water or temperature stress develop. The LUE has been shown to vary spatially between biomes, ecosystems, and plant species, and to vary temporally during the growing season, due to environmental and physiological limitations. LUE responds more rapidly than fAPAR to different environmental factors related to the energy balance, water availability and nutrient levels. For operational applications, LUE can be expressed as the product of a LUEmax (maximum light-use efficiency), which depends on cover type, and different terms accounting for the reduction in efficiency due to different types of stress. The computation of these terms frequently requires meteorological data, which are seldom available at the needed spatial and temporal scales. The Monteith's approach provides the theoretical basis for most production efficiency models (PEMs), also known as light-use-efficiency (LUE) models: the MODIS-GPP model describes the global terrestrial photosynthesis at 1 km spatial scale and various time steps; the parametric model C-Fix has been applied to estimate forest GPP in several European countries and the modified C-Fix also takes into account the short-term water stress, a typical feature of the hot and dry Mediterranean summer. These models use remotely sensed data as well as meteorological data. In most PEMs, fAPAR is the only satellite-derived variable and, as such, it provides the link between ecosystem function and structure. Validation of satellite-derived GPP products is problematic. The development of eddy covariance (EC) as a method for quantifying the carbon, water, and energy balance over so-called "flux sites" has provided observational data to test and calibrate models; but the EC towers measure net CO2 exchange. GPP is obtained from these measurements after correcting them for respiratory losses (about half). The density of sampling is never enough to get regional or continental scale GPP. This is the domain of models. The modeling approaches also have specific limitations concerning: (i) the uncertainties of vegetation indices due to the presence of soil background mainly in sparse areas, and due to cloud and aerosol contamination problems, (ii) errors in the re-analysis of meteorological data, and (iii) difficulty constraining the light-use-efficiency term. The quality assessment of GPP products is rather complicated by the fact that GPP cannot be measured directly on a geographically relevant scale. In this Thesis, a model to estimate GPP for Mediterranean ecosystems at regional scale is proposed. The three terms in Monteith's equation have been obtained following procedures optimized for the study area, Spain (excluding Canary Islands). The "optimized model" is driven by meteorological and satellite data (MODIS/TERRA and SEVIRI/MSG). Considering the peculiarities of the study area, i.e., the diversity of the vegetation type dynamics and its spatial heterogeneity, the algorithm has been developed to run at a daily time step (to capture the dynamics even in agro-ecosystems) and 1 km spatial resolution (to assure that the spatial resolution of the remote sensing estimates is comparable to the footprint of ground estimates). Thus, the inputs of the model have been retrieved at these temporal and spatial resolutions. The daily GPP product obtained as explained above is difficult to validate due to the lack of ground GPP data. Nevertheless, GPP estimations from several eddy covariance (EC) towers have been used. These towers belong to the European Fluxes Database Cluster (http://www.europe-fluxdata.eu). By chance, these EC towers are mainly located in the semi-arid areas, which are more difficult to model due to their larger soil background effects. Thus, this direct validation of the GPP product serves to establish its upper uncertainty level. Moreover, an indirect validation, by means of an inter-comparison with two other operational products (from MODIS and Copernicus), is carried out. The results have been highly satisfactory and promising. A further analysis of the percentage of variance associated with each input of the Monteith's equation clearly evidences the role of the water stress in the inter-annual variation of GPP in Mediterranean ecosystems

    QUIJOTE-MFI: Optics Characterisation and Polarisation Measurements of CMB Foregrounds

    Get PDF
    The study of the Cosmic Microwave Background (CMB) anisotropies is one of the key tools of Modern Cosmology. The most important limitations of the experiments aimed at measuring both the intensity and the polarisation of the CMB are the systematics and the foregrounds, i.e. the Milky Way diffuse emission. This thesis will be devoted to the characterisation of these two as- pects, with particular regard to the Multi-Frequency Instrument (MFI) of the QUIJOTE (Q-U-I JOint TEnerife) experiment. The MFI consists of four horns that can measure intensity and polarisa- tion between 10 and 20 GHz at angular resolutions between 40’ and 57’. It has been operative almost continuously since November 2012, providing data of several calibrators, Galactic sources and extended fields for cosmological anal- yses. The first part of this thesis consists in the full characterisation of the optics of the MFI. The main beams are obtained through geostationary satel- lites observations and the results are confirmed with simulations and Cassiopeia A observations. We measure ellipticities > 0.92 and beam efficiencies > 0.90 in all horns. We estimate the level of the first sidelobe at -40 dB at 11 GHz, and the far sidelobes are found at a level of -70 dB, which is unprecedented for a microwave experiment. The M ̈uller matrices formalism is used to analyse the polarisation response of the instrument. The main contaminant to CMB obser- vation is the intensity-to-polarisation leakage, which is below 1% at 11 GHz in the MFI. The major contaminants to the CMB polarisation are the synchrotron ra- diation and the dust emission of our Galaxy. The MFI is specifically designed to characterise the former type of emission, which is found mainly along the Galactic plane and in a region around the Galactic centre called Haze but can be found also at higher Galactic latitudes. In the second part of thesis we analyse ≈ 1300 hours of MFI data, covering four fields: W44, W49, W63 and the Haze. We produce the spectral energy distributions of 13 compact sources and adjust them with physical parameters that model the synchrotron, free-free and ther- mal dust emission. Also, a phenomenological model is used for the anomalous microwave emission, which has been found in 11 sources. The diffuse emission is studied in the Haze region. We found that its main component is free-free at low Galactic latitudes and synchrotron at b ≈ 8 o . In polarisation, we measure a spectral index of -2.54 in temperature, which is in agreement with the Haze spectrum measured by Planck.El estudio de las anisotropías de la Radiación Cósmica de Microondas (RCM) es una de las herramientas clave de la cosmología moderna. Las principales limitaciones en los experimentos dedicados a las medidas tanto de intensidad como de polarización de la RCM son los errores sistemáticos de la instrumentación y los contaminantes en el cielo, principalmente la emisión difusa de nuestra Galaxia. Esta tesis está dedicada a la caracterización de estos dos aspectos en relación con el Instrumento MultiFrequencia (MFI) del experimento QUIJOTE (Q-U-I JOint TEnerife). El MFI consta de cuatro bocinas que miden intensidad y polarización entre 10 y 20 GHz con una resolución entre 40 y 57 minutos de arco. Está operativo desde noviembre de 2012 habiendo proporcionado datos de varios calibradores, fuentes Galácticas y campos extensos para análisis cosmológico. La primera parte de esta tesis consiste en la completa caracterización de los haces del MFI. Los haces principales son medidos a través de observaciones de satélites geoestacionarios, y los resultados son confirmados con simulaciones y observaciones de Cassiopeia A. Se han medido elipticidades > 0.92 y eficiencias del haz > 0.90 en todas las bocinas. La estimación del nivel del primer lóbulo lateral es de -40 dB a 11 GHz, mientras los lóbulos laterales lejanos se encuentran a un nivel de -70 dB, lo cual no tiene antecedentes en experimentos de microondas. La respuesta en polarización del instrumento es estudiada con el formalismo de las matrices de Müller. El principal contaminante a las observaciones de la RCM es constituido por las pérdidas de intensidad a polarización, que están por debajo del 1% a 11 GHz en el MFI. Los mayores contaminantes en polarización de la RCM son la radiación de sincrotrón y la emisión del polvo de nuestra Galaxia. El MFI está especialmente diseñado para caracterizar el primer tipo de radiación que, aunque se encuentra principalmente a lo largo del plano de la Galaxia y en una zona cercana al centro Galáctico llamada “Haze”, puede alcanzar latitudes Galácticas bastante elevadas. En la segunda parte de esta tesis se analizan ≈ 1300 horas de datos del MFI, repartidos en cuatro campos: W44, W49, W63 y el Haze. Se producen las distribuciones espectrales de energía de 13 fuentes compactas y se ajustan con parámetros físicos que modelan la emisión de sincrotrón, de libre-libre y de polvo térmico. Un modelo fenomenológico es usado para la emisión anómala de microondas, que ha sido encontrada en 11 fuentes. La emisión difusa es estudiada en la región del Haze. Su componente principal es libre-libre a bajas latitudes Galácticas y sincrotrón a b ≈ 8 o . En polarización, se mide un índice espectral de -2.54 en temperatura, lo cual está en acuerdo con el espectro del Haze que midió Planck
    corecore