5 research outputs found
A Geneaology of Correspondence Analysis: Part 2 - The Variants
In 2012, a comprehensive historical and genealogical discussion of correspondence analysis was published in Australian and New Zealand Journal of Statistics. That genealogy consisted of more than 270 key books and articles and focused on an historical development of the correspondence analysis,a statistical tool which provides the analyst with a visual inspection of the association between two or more categorical variables. In this new genealogy, we provide a brief overview of over 30 variants of correspondence analysis that now exist outside of the traditional approaches used to analysethe association between two or more categorical variables. It comprises of a bibliography of a more than 300 books and articles that were not included in the 2012 bibliography and highlights the growth in the development ofcorrespondence analysis across all areas of research
Contribuciones al Biplot LogÃstico Binario
[ES] Con los avances tecnológicos también se ha generado un crecimiento masivo en la cantidad y
variedad de datos, esto brinda la oportunidad de tener una comprensión más profunda
pero también introduce grandes desafÃos estadÃsticos. Esto ha llevado a que se generen
nuevas lÃneas de investigación que combinan los métodos estadÃsticos con los desarrollos en
informática, y asà implementar nuevas herramientas que permitan modelar y comprender
conjuntos de datos complejos.
Los métodos de ordenación y reducción de la dimensionalidad son utilizados con frecuencia
porque permiten simplificar los análisis con la mÃnima pérdida de información. En este
contexto, los métodos biplot son una variedad de técnicas multivariantes que permiten
reducir y visualizar de forma simultánea la información de un conjunto de datos, y han
contribuido al avance de la ciencia por más de cinco décadas. Los aportes realizados en los
métodos biplot han permitido que las técnicas puedan ser aplicadas en diferentes áreas del
conocimiento, facilitando la toma de decisiones.
Inicialmente el biplot fue propuesto como una extensión del análisis de componentes
principales basado en la descomposición en valores singulares y luego fue extendido para
visualizar los resultados de otros métodos. Uno de estos se denomina biplot logÃstico,
que es un tipo de biplot lineal para datos binarios que permite modelar la relación entre
las variables observadas y las dimensiones del biplot a través de una curva de respuesta
logÃstica.
Este trabajo presenta contribuciones para los casos donde la matriz de información es binaria,
proponiendo métodos que faciliten el análisis para grandes volúmenes de información,
haciendo un aporte novedoso al combinar el biplot logÃstico con los métodos de optimización
aplicados en el contexto de machine learning y utilizando los desarrollos informáticos
disponibles en la actualidad.
En este proyecto se investiga y se propone una metodologÃa basada en validación cruzada
que es adaptada para el biplot logÃstico, con el fin de contar con un método que permita
identificar el número de dimensiones que son apropiadas para ajustar el modelo. De este
procedimiento se obtiene un error de entrenamiento y un error de validación que pueden ser
ilustrados en una gráfica y asà visualizar el valor apropiado para el número de dimensiones
que debe ser elegido.
De otra parte, con el fin de contribuir al proceso de análisis multivariante para matrices de
datos binarias de tipo big data, se incorporan nuevas formulaciones que permiten obtener
funciones de pérdida adecuadas para ajustar el biplot logÃstico cuando se tiene un alto
volumen de datos. Para ello se realizan diferentes desarrollos teóricos que son postulados
y demostrados en algunos teoremas. A partir de las funciones que permiten sustituir el
problema de optimización por otro más simple, se realiza el desarrollo teórico para adaptar
diferentes algoritmos que permiten estimar los parámetros del modelo. Asimismo, se explora
un enfoque a partir de algoritmos basados en el gradiente conjugado. Para comparar el
rendimiento de los algoritmos se usa un procedimiento de simulación que permite medir
la capacidad que tienen los diferentes métodos para identificar el número de dimensiones
del modelo y la habilidad que tienen para recuperar la matriz canónica de parámetros en
escenarios con matrices balanceadas y en otros donde la matriz de datos está desequilibrada.
Partiendo de que la matriz de datos binaria puede estar incompleta, se incorpora una
metodologÃa que permite dar un tratamiento a los datos faltantes. Esta se desarrolla desde
una nueva perspectiva que está basada en el método de proyección de datos propuesto por
Pearson para un análisis de componentes principales. En este trabajo se realiza el desarrollo
teórico que permite llegar a un problema de minimización y un algoritmo apropiado
para obtener una solución al problema, con la ventaja de que las entradas faltantes en
la matriz binaria también se van optimizando mientras se realiza el ajuste del modelo.
Este enfoque además permite obtener la matriz de marcadores fila como una función de
los marcadores columna, permitiendo la proyección de filas suplementarias sin tener que
realizar nuevamente el proceso de optimización.
vi
Con el fin de ilustrar su uso práctico y la interpretación de los resultados, los métodos propuestos
son aplicados usando conjuntos de datos reales en diferentes contextos. Finalmente,
para dar un soporte práctico a los investigadores de las diferentes áreas del conocimiento, los
métodos propuestos y desarrollados teóricamente, son puestos a disposición en un paquete
escrito en lenguaje R, denominado BiplotML, el cual cuenta con toda la documentación de
ayuda y puede ser instalado desde el repositorio de CRAN