5 research outputs found

    Sparse generalised principal component analysis

    Get PDF
    In this paper, we develop a sparse method for unsupervised dimension reduction for data from an exponential-family distribution. Our idea extends previous work on Generalised Principal Component Analysis by adding L1 and SCAD penalties to introduce sparsity. We demonstrate the significance and advantages of our method with synthetic and real data examples. We focus on the application to text data which is high-dimensional and non-Gaussian by nature and discuss the potential advantages of our methodology in achieving dimension reduction

    A literature review of (sparse) exponential family PCA

    Get PDF
    This is a brief overview of the methodology around exponential family PCA. We revisit classic PCA methodology and we focus on exponential family PCA due to it's applicability on a number of distributions and hence a wide variety of problems. We discuss the applicability of these methods to text data analysis due to the high-dimensional and sparse nature of these data

    Contribuciones al Biplot Logístico Binario

    Get PDF
    [ES] Con los avances tecnológicos también se ha generado un crecimiento masivo en la cantidad y variedad de datos, esto brinda la oportunidad de tener una comprensión más profunda pero también introduce grandes desafíos estadísticos. Esto ha llevado a que se generen nuevas líneas de investigación que combinan los métodos estadísticos con los desarrollos en informática, y así implementar nuevas herramientas que permitan modelar y comprender conjuntos de datos complejos. Los métodos de ordenación y reducción de la dimensionalidad son utilizados con frecuencia porque permiten simplificar los análisis con la mínima pérdida de información. En este contexto, los métodos biplot son una variedad de técnicas multivariantes que permiten reducir y visualizar de forma simultánea la información de un conjunto de datos, y han contribuido al avance de la ciencia por más de cinco décadas. Los aportes realizados en los métodos biplot han permitido que las técnicas puedan ser aplicadas en diferentes áreas del conocimiento, facilitando la toma de decisiones. Inicialmente el biplot fue propuesto como una extensión del análisis de componentes principales basado en la descomposición en valores singulares y luego fue extendido para visualizar los resultados de otros métodos. Uno de estos se denomina biplot logístico, que es un tipo de biplot lineal para datos binarios que permite modelar la relación entre las variables observadas y las dimensiones del biplot a través de una curva de respuesta logística. Este trabajo presenta contribuciones para los casos donde la matriz de información es binaria, proponiendo métodos que faciliten el análisis para grandes volúmenes de información, haciendo un aporte novedoso al combinar el biplot logístico con los métodos de optimización aplicados en el contexto de machine learning y utilizando los desarrollos informáticos disponibles en la actualidad. En este proyecto se investiga y se propone una metodología basada en validación cruzada que es adaptada para el biplot logístico, con el fin de contar con un método que permita identificar el número de dimensiones que son apropiadas para ajustar el modelo. De este procedimiento se obtiene un error de entrenamiento y un error de validación que pueden ser ilustrados en una gráfica y así visualizar el valor apropiado para el número de dimensiones que debe ser elegido. De otra parte, con el fin de contribuir al proceso de análisis multivariante para matrices de datos binarias de tipo big data, se incorporan nuevas formulaciones que permiten obtener funciones de pérdida adecuadas para ajustar el biplot logístico cuando se tiene un alto volumen de datos. Para ello se realizan diferentes desarrollos teóricos que son postulados y demostrados en algunos teoremas. A partir de las funciones que permiten sustituir el problema de optimización por otro más simple, se realiza el desarrollo teórico para adaptar diferentes algoritmos que permiten estimar los parámetros del modelo. Asimismo, se explora un enfoque a partir de algoritmos basados en el gradiente conjugado. Para comparar el rendimiento de los algoritmos se usa un procedimiento de simulación que permite medir la capacidad que tienen los diferentes métodos para identificar el número de dimensiones del modelo y la habilidad que tienen para recuperar la matriz canónica de parámetros en escenarios con matrices balanceadas y en otros donde la matriz de datos está desequilibrada. Partiendo de que la matriz de datos binaria puede estar incompleta, se incorpora una metodología que permite dar un tratamiento a los datos faltantes. Esta se desarrolla desde una nueva perspectiva que está basada en el método de proyección de datos propuesto por Pearson para un análisis de componentes principales. En este trabajo se realiza el desarrollo teórico que permite llegar a un problema de minimización y un algoritmo apropiado para obtener una solución al problema, con la ventaja de que las entradas faltantes en la matriz binaria también se van optimizando mientras se realiza el ajuste del modelo. Este enfoque además permite obtener la matriz de marcadores fila como una función de los marcadores columna, permitiendo la proyección de filas suplementarias sin tener que realizar nuevamente el proceso de optimización. vi Con el fin de ilustrar su uso práctico y la interpretación de los resultados, los métodos propuestos son aplicados usando conjuntos de datos reales en diferentes contextos. Finalmente, para dar un soporte práctico a los investigadores de las diferentes áreas del conocimiento, los métodos propuestos y desarrollados teóricamente, son puestos a disposición en un paquete escrito en lenguaje R, denominado BiplotML, el cual cuenta con toda la documentación de ayuda y puede ser instalado desde el repositorio de CRAN

    Dimension reduction for exponential family data with applications to text data

    Get PDF
    In this manuscript, we will address the problem of dimension reduction for data modelled by an exponential family distribution, with a particular focus on text data modelled by a Poisson-count model. We are motivated to develop new methods for such data by links between principal component analysis and the Gaussian log-likelihood, which suggests both a simple way to extend PCA to the exponential family (of which the Gaussian distribution is a member), and the unsuitability of PCA when the data is appropriately modelled by a distribution which is not well-approximated by the Gaussian distribution. We will present three novel methods for exponential family dimension reduction. The first is “Poisson Inverse Regression”, a supervised method from the family of inverse regression methods. We will demonstrate that this method provides a sufficient dimension reduction. That is, the transformed data is statistically sufficient with respect to the response. The second is Sparse Generalised Principal Component Analysis, which extends the method of Generalised Principal Component Analysis put forward by Landgraf and Lee (2015b). This method is unsupervised, as is motivated by a modification of the PCA objective function to accommodate other exponential family distributions. We demonstrate that this method performs as-well or better than other state-of-the-art methods. This work has been published as Smallman, Artemiou, et al. (2018). The third is Sparse Simple Exponential/Poisson Principal Component Analysis. This method extends Simple Exponential Principal Component Analysis, put forward by Li and Tao (2013), enforcing sparsity in the equivalent of the loadings matrix. This method is also unsupervised, and we demonstrate its state-of-the-art performance. This work was done jointly with William Underwood from Oxford University, and is published in Smallman, Underwood, et al. (2019). Finally, we present a new framework for analysing and synthesising dimension reduction methods, which we call “Quasi-Likelihood PCA”. This is based on tensor stimating equations, which we also present as a new development. We apply this method to analyse several methods in the literature
    corecore