13 research outputs found

    Randomized Dimension Reduction on Massive Data

    Full text link
    Scalability of statistical estimators is of increasing importance in modern applications and dimension reduction is often used to extract relevant information from data. A variety of popular dimension reduction approaches can be framed as symmetric generalized eigendecomposition problems. In this paper we outline how taking into account the low rank structure assumption implicit in these dimension reduction approaches provides both computational and statistical advantages. We adapt recent randomized low-rank approximation algorithms to provide efficient solutions to three dimension reduction methods: Principal Component Analysis (PCA), Sliced Inverse Regression (SIR), and Localized Sliced Inverse Regression (LSIR). A key observation in this paper is that randomization serves a dual role, improving both computational and statistical performance. This point is highlighted in our experiments on real and simulated data.Comment: 31 pages, 6 figures, Key Words:dimension reduction, generalized eigendecompositon, low-rank, supervised, inverse regression, random projections, randomized algorithms, Krylov subspace method

    The GSVD: Where are the ellipses?, Matrix Trigonometry, and more

    Full text link
    This paper provides an advanced mathematical theory of the Generalized Singular Value Decomposition (GSVD) and its applications. We explore the geometry of the GSVD which provides a long sought for ellipse picture which includes a horizontal and a vertical multiaxis. We further propose that the GSVD provides natural coordinates for the Grassmann manifold. This paper proves a theorem showing how the finite generalized singular values do or do not relate to the singular values of ABAB^\dagger. We then turn to the applications arguing that this geometrical theory is natural for understanding existing applications and recognizing opportunities for new applications. In particular the generalized singular vectors play a direct and as natural a mathematical role for certain applications as the singular vectors do for the SVD. In the same way that experts on the SVD often prefer not to cast SVD problems as eigenproblems, we propose that the GSVD, often cast as a generalized eigenproblem, is rather best cast in its natural setting. We illustrate this theoretical approach and the natural multiaxes (with labels from technical domains) in the context of applications where the GSVD arises: Tikhonov regularization (unregularized vs regularization), Genome Reconstruction (humans vs yeast), Signal Processing (signal vs noise), and stastical analysis such as ANOVA and discriminant analysis (between clusters vs within clusters.) With the aid of our ellipse figure, we encourage in the future the labelling of the natural multiaxes in any GSVD problem.Comment: 28 page

    A Jacobi-Davidson type method for the product eigenvalue problem

    Get PDF
    Abstract. We propose a Jacobi-Davidson type method to compute selected eigenpairs of the product eigenvalue problem Am · · · A1x = λx, where the matrices may be large and sparse. To avoid difficulties caused by a high condition number of the product matrix, we split up the action of the product matrix and work with several search spaces. We generalize the Jacobi-Davidson correction equation and the harmonic and refined extraction for the product eigenvalue problem. Numerical experiments indicate that the method can be used to compute eigenvalues of product matrices with extremely high condition numbers

    Topics in image reconstruction for high resolution positron emission tomography

    Get PDF
    Les problèmes mal posés représentent un sujet d'intérêt interdisciplinaire qui surgires dans la télédétection et des applications d'imagerie. Cependant, il subsiste des questions cruciales pour l'application réussie de la théorie à une modalité d'imagerie. La tomographie d'émission par positron (TEP) est une technique d'imagerie non-invasive qui permet d'évaluer des processus biochimiques se déroulant à l'intérieur d'organismes in vivo. La TEP est un outil avantageux pour la recherche sur la physiologie normale chez l'humain ou l'animal, pour le diagnostic et le suivi thérapeutique du cancer, et l'étude des pathologies dans le coeur et dans le cerveau. La TEP partage plusieurs similarités avec d'autres modalités d'imagerie tomographiques, mais pour exploiter pleinement sa capacité à extraire le maximum d'information à partir des projections, la TEP doit utiliser des algorithmes de reconstruction d'images à la fois sophistiquée et pratiques. Plusieurs aspects de la reconstruction d'images TEP ont été explorés dans le présent travail. Les contributions suivantes sont d'objet de ce travail: Un modèle viable de la matrice de transition du système a été élaboré, utilisant la fonction de réponse analytique des détecteurs basée sur l'atténuation linéaire des rayons y dans un banc de détecteur. Nous avons aussi démontré que l'utilisation d'un modèle simplifié pour le calcul de la matrice du système conduit à des artefacts dans l'image. (IEEE Trans. Nucl. Sei., 2000) );> La modélisation analytique de la dépendance décrite à l'égard de la statistique des images a simplifié l'utilisation de la règle d'arrêt par contre-vérification (CV) et a permis d'accélérer la reconstruction statistique itérative. Cette règle peut être utilisée au lieu du procédé CV original pour des projections aux taux de comptage élevés, lorsque la règle CV produit des images raisonnablement précises. (IEEE Trans. Nucl. Sei., 2001) Nous avons proposé une méthodologie de régularisation utilisant la décomposition en valeur propre (DVP) de la matrice du système basée sur l'analyse de la résolution spatiale. L'analyse des caractéristiques du spectre de valeurs propres nous a permis d'identifier la relation qui existe entre le niveau optimal de troncation du spectre pour la reconstruction DVP et la résolution optimale dans l'image reconstruite. (IEEE Trans. Nucl. Sei., 2001) Nous avons proposé une nouvelle technique linéaire de reconstruction d'image événement-par-événement basée sur la matrice pseudo-inverse régularisée du système. L'algorithme représente une façon rapide de mettre à jour une image, potentiellement en temps réel, et permet, en principe, la visualisation instantanée de distribution de la radioactivité durant l'acquisition des données tomographiques. L'image ainsi calculée est la solution minimisant les moindres carrés du problème inverse régularisé.Abstract: Ill-posed problems are a topic of an interdisciplinary interest arising in remote sensing and non-invasive imaging. However, there are issues crucial for successful application of the theory to a given imaging modality. Positron emission tomography (PET) is a non-invasive imaging technique that allows assessing biochemical processes taking place in an organism in vivo. PET is a valuable tool in investigation of normal human or animal physiology, diagnosing and staging cancer, heart and brain disorders. PET is similar to other tomographie imaging techniques in many ways, but to reach its full potential and to extract maximum information from projection data, PET has to use accurate, yet practical, image reconstruction algorithms. Several topics related to PET image reconstruction have been explored in the present dissertation. The following contributions have been made: (1) A system matrix model has been developed using an analytic detector response function based on linear attenuation of [gamma]-rays in a detector array. It has been demonstrated that the use of an oversimplified system model for the computation of a system matrix results in image artefacts. (IEEE Trans. Nucl. Sci., 2000); (2) The dependence on total counts modelled analytically was used to simplify utilisation of the cross-validation (CV) stopping rule and accelerate statistical iterative reconstruction. It can be utilised instead of the original CV procedure for high-count projection data, when the CV yields reasonably accurate images. (IEEE Trans. Nucl. Sci., 2001); (3) A regularisation methodology employing singular value decomposition (SVD) of the system matrix was proposed based on the spatial resolution analysis. A characteristic property of the singular value spectrum shape was found that revealed a relationship between the optimal truncation level to be used with the truncated SVD reconstruction and the optimal reconstructed image resolution. (IEEE Trans. Nucl. Sci., 2001); (4) A novel event-by-event linear image reconstruction technique based on a regularised pseudo-inverse of the system matrix was proposed. The algorithm provides a fast way to update an image potentially in real time and allows, in principle, for the instant visualisation of the radioactivity distribution while the object is still being scanned. The computed image estimate is the minimum-norm least-squares solution of the regularised inverse problem

    Evaluación del sistema de recomendación de patrones pedagógicos (SRPP) en cursos de Geometría Euclidiana

    Get PDF
    La situación del profesor universitario, a diferencia de otros colectivos docentes, se caracteriza por no tener una formación específica como profesionales de la enseñanza. Su formación, en cuanto a la docencia se deriva de su propia experiencia, y en muchos casos, los profesores universitarios carecen de instrumentos didácticos que les permitan analizar y reflexionar sobre su labor como docentes, y todo lo que ello supone (García-Valcárcel 2001). Las funciones del profesor universitario deben ser analizadas desde la concepción del mismo como un especialista de alto nivel dedicado a la enseñanza y miembro de una comunidad académica. Diremos que “el profesor universitario, en cuanto profesor, es una persona profesionalmente dedicada a la enseñanza, un profesional de la educación que necesariamente comparte con los profesores de otros niveles unas funciones básicas orientadas a que otras personas aprendan. En segundo lugar, es un especialista al más alto nivel en una ciencia, lo cual comporta la capacidad y hábitos investigadores que le permitan acercarse a, y ampliar, las fronteras de su rama del saber. En tercer lugar, es miembro de una comunidad académica, lo que supone la aceptación, y conformación de la conducta, a un conjunto específico de pautas, valores y actitudes que, de alguna manera, reflejan una determinada percepción de la realidad y caracterizan y dan sentido a una forma de vida” (De la Orden 1987). Es así como las funciones del profesor universitario son varias y con diferente carga de dedicación, interés y prestigio. Los ámbitos básicos de su dedicación son: la docencia, la investigación y la gestión, siendo esta última la actividad que en general es menos atractiva para ellos. Por su parte, la investigación es muy apreciada, y por ellos es la función que más tiempo consume y más beneficios reporta. En opinión de De Miguel (De Miguel 1991), el profesor universitario está demasiado imbuido en su rol de profesional o de científico de una disciplina, y desde ese rol intenta ejercer su acción docente. La consideración de “buen profesor” en el mundo universitario se ha ligada al concepto de “buen investigador”, generando con ello, algunos vacíos en los procesos de enseñanza aprendizaje

    Evaluación del sistema de recomendación de patrones pedagógicos (SRPP) en cursos de Geometría Euclidiana

    Get PDF
    La situación del profesor universitario, a diferencia de otros colectivos docentes, se caracteriza por no tener una formación específica como profesionales de la enseñanza. Su formación, en cuanto a la docencia se deriva de su propia experiencia, y en muchos casos, los profesores universitarios carecen de instrumentos didácticos que les permitan analizar y reflexionar sobre su labor como docentes, y todo lo que ello supone (García-Valcárcel 2001). Las funciones del profesor universitario deben ser analizadas desde la concepción del mismo como un especialista de alto nivel dedicado a la enseñanza y miembro de una comunidad académica. Diremos que “el profesor universitario, en cuanto profesor, es una persona profesionalmente dedicada a la enseñanza, un profesional de la educación que necesariamente comparte con los profesores de otros niveles unas funciones básicas orientadas a que otras personas aprendan. En segundo lugar, es un especialista al más alto nivel en una ciencia, lo cual comporta la capacidad y hábitos investigadores que le permitan acercarse a, y ampliar, las fronteras de su rama del saber. En tercer lugar, es miembro de una comunidad académica, lo que supone la aceptación, y conformación de la conducta, a un conjunto específico de pautas, valores y actitudes que, de alguna manera, reflejan una determinada percepción de la realidad y caracterizan y dan sentido a una forma de vida” (De la Orden 1987). Es así como las funciones del profesor universitario son varias y con diferente carga de dedicación, interés y prestigio. Los ámbitos básicos de su dedicación son: la docencia, la investigación y la gestión, siendo esta última la actividad que en general es menos atractiva para ellos. Por su parte, la investigación es muy apreciada, y por ellos es la función que más tiempo consume y más beneficios reporta. En opinión de De Miguel (De Miguel 1991), el profesor universitario está demasiado imbuido en su rol de profesional o de científico de una disciplina, y desde ese rol intenta ejercer su acción docente. La consideración de “buen profesor” en el mundo universitario se ha ligada al concepto de “buen investigador”, generando con ello, algunos vacíos en los procesos de enseñanza aprendizaje

    Avaluació dels efectes de factors ambientals en organismes model mitjançant metodologies òmiques i quimiomètriques

    Get PDF
    [cat] L’aplicació de tecnologies transcriptòmiques i metabolòmiques en estudis no dirigits té com a principal objectiu la caracterització global (funcional i estructural) dels transcrits de mRNA i dels metabòlits, respectivament, que conformen els sistemes biològics. En el camp mediambiental, aquestes dues aproximacions òmiques permeten avaluar i comparar els nivells d’aquestes molècules en els organismes vius en resposta a diferents estímuls o variacions en les condicions ambientals. D’aquesta manera, ambdues ciències proporcionen coneixement de les interaccions dels sistemes biològics amb el seu entorn a nivell molecular. En els estudis òmics no dirigits són imprescindibles les tècniques analítiques d’alt rendiment com la seqüenciació de RNA (RNA-Seq) i les tècniques de separació acoblades a l’espectrometria de masses, com per exemple la cromatografia de líquids i l’electroforesi capil·lar acoblades a l’espectrometria de masses (LC-MS i CE-MS, respectivament). Ara bé, els grans conjunts de dades generats en aquests estudis són complexos i fan necessari el desenvolupament i l’aplicació de mètodes estadístics i quimiomètrics multivariants d’anàlisi de dades, els quals permetin extreure la informació biològica rellevant i facilitar-ne la seva interpretació. Aquesta Tesi s’ha centrat especialment en el desenvolupament de mètodes analítics i quimiomètrics que puguin ser útils en aquests tipus estudis i en la seva aplicació en diversos casos d’interès ambiental i toxicològic on es pren el peix zebra com a organisme model. D’una banda, s’ha treballat en el desenvolupament i optimització de mètodes analítics de LC-MS i CE-MS i de tractament de dades multivariants per a estudis de metabolòmica no dirigida. S’ha avaluat la influència de diferents factors experimentals en la separació de metabòlits mitjançant la cromatografia de líquids d'interacció hidrofílica (HILIC) (per exemple, la fase estacionària, el pH, la força iònica i el modificador orgànic). També, s’han optimitzat les condicions experimentals per a l’anàlisi metabolòmica no dirigida mitjançant la tècnica de CE-MS. D’altra banda, s’han presentat diferents estratègies de tractament de dades metabolòmiques no dirigides basades en la resolució multivariant de corbes per mínims quadrats alternats (MCR-ALS), les quals permeten la detecció i la identificació dels metabòlits de les dades de LC-MS i CE-MS. Finalment, s’ha aplicat la compressió de les dades de cerca de regions d’interès (ROI) i la resolució per MCR-ALS (mètode ROIMCR) per a l’estudi simultani o fusió de conjunts de dades que provenen de diferents plataformes de MS. La idoneïtat de totes aquestes metodologies analítiques i quimiomètriques s’ha demostrat en estudis comparatius dels perfils metabòlics de mostres de llevat (Saccharomyces cerevisiae) en diferents condicions de creixement estressants. Un segon aspecte d’aquesta Tesi ha estat l’aplicació de les metodologies prèviament proposades en la investigació dels possibles efectes de diferents compostos disruptors endocrins, com ara el bisfenol A (BPA), el sulfonat de perfluorooctà (PFOS) i el tributilestany (TBT), en embrions de peix zebra (Danio rerio). En concret, s’ha detectat que els tres contaminants produeixen importants alteracions en el metabolisme dels embrions, produint efectes tòxics, estrès oxidatiu i alteracions en la proliferació cel·lular, a més d’efectes específics en vies de senyalització. Addicionalment, s’han postulat noves hipòtesis sobre els efectes toxicològics i morfològics adversos d’aquests compostos químics. En el cas del BPA s’ha realitzat, a més, un estudi transcriptòmic no dirigit de seqüenciació de RNA (RNA-Seq), que ha permès obtenir informació addicional a l’extreta a nivell metabolòmic, la qual cosa permet una comprensió més global i conjunta del mecanisme d’acció del BPA en el metabolisme dels embrions.[eng] The application of transcriptomic and metabolomic technologies in non-targeted studies is primarily based on the global (functional and structural) characterization of mRNA transcripts and metabolites, respectively, in biological systems. In the environmental field, these two omic approaches aim at the evaluation and comparison of the abundances of these molecules in biological organisms in response to external stimuli. In this way, both omic sciences provide knowledge about the interactions of the biological systems with their environments at the molecular level. Non-targeted transcriptomics and metabolomics have progressed due to advances in high-performance analytical techniques, such as RNA-sequencing (RNA-Seq) and separation techniques coupled with mass spectrometry (e.g., liquid chromatography-mass spectrometry, LC-MS; and capillary electrophoresis-mass spectrometry, CE- MS). However, datasets generated in these studies are large and complex. Therefore, the development and application of multivariate chemometric data analysis methods are mandatory to extract the relevant information and achieve a reliable biological interpretation. The first half of this thesis focuses on the development and optimization of LC-MS and CE-MS methodologies in combination with advanced chemometric tools for non-targeted metabolomic studies. Firstly, the influence of different experimental factors in the separation of metabolites by hydrophilic interaction liquid chromatography (HILIC), such as the type of stationary phase, the organic modifier and the pH and the ionic strength of the mobile phase, was evaluated. Also, the experimental conditions for a non-targeted metabolomic analysis using CE-MS technique were optimized. Secondly, different data treatment strategies based on the use of multivariate curve resolution by alternating least squares (MCR-ALS) for the detection and identification of the metabolites from non-targeted LC-MS and CE-MS metabolomics data were presented. Finally, the search of the regions of interest (ROI) data compression in combination with MCR-ALS resolution (so-called ROIMCR method) was applied for the simultaneous study or fusion of datasets from different MS platforms. The suitability of all these analytical and chemometric methodologies was shown in comparative studies of the metabolic profiles of yeast (Saccharomyces cerevisiae) samples under different growth stressors. The second half of this thesis deals with the application of the previously proposed methodologies in the investigation of the effects of different endocrine disrupting compounds (e.g., bisphenol A, BPA; perfluorooctane sulfonate, PFOS; and tributyltin, TBT) on zebrafish (Danio rerio) embryos. These three pollutants produced important alterations on embryo metabolism, causing toxic effects, oxidative stress and alterations in cell proliferation, as well as specific effects in signaling pathways. Additionally, new hypotheses were postulated on the adverse toxicological and morphological effects of these chemical compounds. In order to extract more information about BPA effects on the exposed embryos, a non-targeted transcriptomic approach based on RNA-Seq was performed. Overall, the combination of the knowledge coming from both omic levels allowed a global understanding of the mechanism of action of BPA on embryo metabolism

    Computing the SVD of a General Matrix Product/Quotient

    No full text
    In this paper we derive a new algorithm for constructing a unitary decomposition of a sequence of matrices in product or quotient form. The unitary decomposition requires only unitary left and right transformations on the individual matrices and amounts to computing the generalized singular value decomposition of the sequence. The proposed algorithm is related to the classical Golub-Kahan procedure for computing the singular value decomposition of a single matrix in that it constructs a bidiagonal form of the sequence as an intermediate result. When applied to two matrices this new method is an alternative way of computing the quotient and product SVD and is more economical than current methods

    COMPUTING THE SVD OF A GENERAL MATRIX PRODUCT/QUOTIENT

    No full text
    Bachelor'sBACHELOR OF SCIENCE (HONOURS
    corecore