Search CORE

79 research outputs found

Estimación de modelos de regresión por mínimos cuadrados penalizados

Author: Alcalá Nalvaiz José Tomás
Pardos Cardiel Berta
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2017
Field of study

Las técnicas de regresión por mínimos cuadrados pertenecen a la estadística básica en cuanto a predicción de modelos se refiere. Sin embargo, cuando nos encontramos con un conjunto de datos de grandes dimensiones son necesarios métodos más específicos. Uno de ellos es el caso de mínimos cuadrados penalizados, que será el objetivo principal de este trabajo. La razón es que en el momento que se tiene un gran número de datos, pueden aparecer problemas de colinealidad entre variables o que el número de variables sea mayor al número de datos obtenidos, entre otros. Si se tienen variables que están muy relacionadas entre sí, es frecuente que el modelo estimado presente sobreajuste y que en este se incluyan todas las variables predictoras con coeficientes muy poco interpretables en la realidad. Por esto y otras razones que veremos, es importante aplicar técnicas de regularización

Repositorio Universidad de Zaragoza

Elementos matemáticos en la construcción de árboles filogenéticos

Author: Alcalá Nalvaiz José Tomás
Morales Rodríguez Ignacio
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2015
Field of study

Desde sus orígenes la insaciable curiosidad del ser humano ha llevado al desarrollo acelerado de la filogenética, rama de la biología que se encarga de determinar las relaciones evolutivas entre individuos a través de matrices de ADN y morfología. Esta reconstrucción filogenética es el final de un extenso proceso. Este trabajo se centrará en dos partes muy específicas de la filogenética, analizando todos sus elementos matemáticos: la reconstrucción filogenética y los modelos evolutivos. En el primer capítulo se exponen las definiciones, propiedades básicas sobre árboles filogenéticos así como combinatoria básica de estos grafos. Se distinguen dos distancias fundamentales: la distancia ultramétrica, una distancia que permite aplicar el algoritmo UPGMA para la reconstrucción del árbol que relaciona las especies y por otro lado, la distancia aditiva, que tiene asociado un algoritmo mucho más general pero más complejo, el algoritmo Neighbour-Joining. Sin olvidar, que también existen métodos algebraicos que pueden reconstruir dicho árbol como es mínimos cuadrados. Una vez obtenido el árbol que relaciona a las especies, en el segundo capítulo se asocia a estas especies sus secuencias de ADN. Primero, se introduce un método para medir la compatibilidad de estas secuencias con el árbol que las relaciona, mediante el algoritmo Fitch-Hartigan. A partir de cadenas de Markov en tiempo contínuo, se ajusta el modelo evolutivo que mejor refleje el proceso de mutación en el árbol, empezando por un modelo básico y extendiéndolo a un modelo general en el que se permite modificar la variabilidad de los nucleótidos en la secuencia y la velocidad a la que éstos mutan. Además mediante máxima verosimilitud se expone un método de comparación entre los distintos modelos evolutivos. Finalmente, en el capítulo tres se aplican todos los conceptos descritos en los capítulos anteriores a dos conjuntos de datos, uno compuesto de secuencias de ADN de catorce mamíferos y el otro conjunto compuesto de rasgos fenotípicos de una especie de pájaros del género Geospiza

Repositorio Universidad de Zaragoza

Introducción a la Regresión Cuantil. Estimación y extensión a modelos no paramétricos

Author: Alcalá Nalvaiz José Tomás
Martín Escura Ana
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2019
Field of study

La regresión cuantil fue introducida por Roger Koenker y Gib Basset (1978) buscando extender las ideas de estimación de función cuantil condicional. Estos modelos constan de una distribución condicional de la variable respuesta expresada en función de las covariables observadas. Los métodos de regresión cuantil son competitivos con el método de mínimos cuadrados en lo que se refiere al esfuerzo computacional gracias al descubrimiento del método simplex y al desarrollo en la programación lineal. La localización de los cuantiles asegura un tipo de robustez carente en muchos procedimientos estadísticos habituales, como, por ejemplo, los basados en minimizar una suma de residuos al cuadrado. La regresión cuantil está llegando a ser cada vez más útil en áreas como la Econometría, Finanzas, Biomedicina, búsqueda de patrones y en Estudios Ambientales. En el primer capítulo se realiza una introducción de los conceptos básicos de la regresión cuantil, como el término cuantil y la función de pérdida de un cuantil. Además, se muestra cómo el cuantil es solución de un problema de optimización y se da su distribución asintótica. Finalmente se comparan distintos métodos de estimación. En el segundo capítulo se hace una introducción a la regresión cuantil no paramétrica, donde se muestra que el estimador lineal local depende de la función kernel y el parámetro de suavizado h. Por último se dan diversos selectores de este parámetro h, como son el método plug-in o el de validación cruzada. El último capítulo es una aplicación en R de los modelos descritos en dos conjuntos de datos con varias funciones del paquete `quantreg'

Repositorio Universidad de Zaragoza

Introducción a las curvas ROC para clasificadores binarios

Author: Alcalá Nalvaiz José Tomás
Palacio Lacasta Jorge
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2021
Field of study

La curva ROC (receiver operating characteristic) es una representación gráfica la cuál mide la capacidad diagnóstica de un clasificador binario al variar su umbral de decisión. Su uso está muy extendido en diversos campos como por ejemplo, en la medicina o en el aprendizaje automático supervisado. Dicha curva se puede representar como una expresión directa entre funciones de distribución de variables aleatorias por lo que se pueden aplicar técnicas estadísticas para estimarla. El objetivo de este trabajo es revisar las principales propiedades matemáticas de la curva poblacional, así como describir los principales métodos estadísticos para estimarla. Por último, consideramos la presencia de covariables y analizamos cómo incorporar esta información adicional en las curvas ROC. Terminamos con una aplicación a datos reales utilizando las últimas bibliotecas de R relacionadas con este tema.<br /

Repositorio Universidad de Zaragoza

Test de hipótesis múltiples y métodos de ajuste del p-valor

Author: Alcalá Nalvaiz José Tomás
Pérez Rubio Juan
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2023
Field of study

Un test de hipótesis es un procedimiento para juzgar si una propiedad que suponemos de una población es compatible con lo observado en una muestra de dicha población. Los test de hipótesis nos sirven para contrastar dos hipótesis: una hipótesis nula y una hipótesis alternativa. Un test de hipótesis nos da un procedimiento para rechazar o no la hipótesis nula, en base a los datos que tengamos.Durante las últimas décadas, se está generando un gran volumen de datos en distintos campos de estudio. Las necesidades de disciplinas como la genómica o la biología han motivado el desarrollo de la teoría de test de hipótesis múltiples, que consisten en contrastar una gran cantidad de hipótesis al mismo tiempo. Por ejemplo, comprender la base genética de una enfermedad consiste en determinar qué genes están relacionados con el desarrollo de la enfermedad. Para ello, tenemos que hacer un gran número de test de hipótesis a la vez, uno por cada gen. En cada test contrastamos si el gen está relacionado con el desarrollo de la enfermedad o no. Un contraste de hipótesis múltiples nos da un proceso para decidir el conjunto de hipótesis nulas que debemos rechazar.<br /

Repositorio Universidad de Zaragoza

Identificación de patrones y algoritmos de consolidación en bases de datos de posicionamiento

Author: Alcalá Nalvaiz José Tomás
Barbero Iriarte Pilar
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2015
Field of study

Hoy en día, muchos dispositivos cuentan con un sistema de geolocalización GPS que nos permite conocer la localización de un sujeto en tiempo real. Con el fin de obtener la mayor información posible en todo momento, estas posiciones recogidas se guardan en una base de datos que puede ser temporal o permanente. En el caso de ser permanente, nos encontraremos con el problema de que la base de datos puede crecer hasta un límite desmesurado en el que dispositivo que recoge y almacena esta información llene su memoria, impidiendo almacenar posiciones nuevas. En este momento, es necesario tomar la decisión de borrar parte de las posiciones almacenadas, según algún criterio. La dificultad en este momento es elegir el criterio con el cual eliminaremos este exceso de datos, por ejemplo, borrando posiciones repetidas o posiciones que no aporten la suficiente eficiencia en relación al espacio que ocupan en memoria. Esto introduce el concepto de función de consolidación o compactación, es decir una función que elimine un exceso de datos permitiéndonos conservar el máximo de información posible. El objetivo de este trabajo es analizar distintas técnicas para la consolidación de posiciones GPS, algunas ya existentes y otras a desarrollar

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio Universidad de Zaragoza

Introducción a la detección de anomalías por métodos de aprendizaje máquina

Author: Alcalá Nalvaiz José Tomás
Salvador Gonzalo Hugo
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2022
Field of study

La detección de anomalías es un paso clave en cualquier proceso de análisis de datos. Se trata, en particular, de un proceso de limpieza de datos cuyo uso se aplica en numerosos campos como la medicina, la ciberseguridad, la estadística o el fraude financiero entre muchos otros. El objetivo de este trabajo es el de introducir al lector en los principales conceptos relacionados con el proceso de detección de anomalías, así como las propiedades de dos métodos utilizados para este proceso y la descripción de sus aplicaciones en conjuntos de datos reales.<br /

Repositorio Universidad de Zaragoza

Métodos de reducción de la dimensionalidad: ACP vs t-SNE

Author: Alcalá Nalvaiz José Tomás
Quílez Miguel María
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2022
Field of study

Se presentan y comparan dos técnicas de visualización y reducción de la dimensionalidad: una lineal, componentes principales, y otra no lineal, t-Distributed Stochastic Neighbor Embedding. El Análisis de Componentes Principales se encarga de construir nuevas variables que sintetizan la información de las iniciales manteniendo su variabilidad. La técnica t-SNE proporciona una visualización dando a cada punto del espacio de dimensión alta una ubicación en el espacio de baja dimensión. Esta técnica es una mejora del Stochastic Neighbor Embedding debido a su menor coste de computación y a su solución ante el "crowding problem". Se presentan una serie de visualizaciones de ambas técnicas en dos conjuntos de datos diferentes.<br /

Repositorio Universidad de Zaragoza

Algoritmo EM. Aplicaciones y extensiones

Author: Alcalá Nalvaiz José Tomás
Usarralde Casas Burgo
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2017
Field of study

El algoritmo de Esperanza-Maximización (EM) es uno de los métodos fundamentales de la estimación máximo verosímil en modelos probabilísticos con variables no observables. Desde su reformulación en 1977, se ha aplicado en una gran variedad de áreas. Se terminará con una aplicación a problemas de clasificación con datos incompletos, programando algoritmo en R

Repositorio Universidad de Zaragoza

Aprendizaje por Refuerzo. Elementos básicos y algoritmos

Author: Alcalá Nalvaiz José Tomás
Lascorz Lozano Lorién
Publication venue: 'Universidad de Zaragoza'
Publication date: 01/01/2018
Field of study

El aprendizaje por refuerzo es un área del estudio informático y matemático que engloba sistemas y algoritmos de aprendizaje sobre ordenadores. En particular, esta teoría es capaz de resolver los problemas deseados sin la necesidad del conocimiento estricto y completo de todos los parámetros del problema. Esta característica es muy conveniente ya que en muchos de los problemas reales, se desconocen estos parámetros o no se controlan con exactitud. Estos sistemas de aprendizaje proporcionan al ordenador la capacidad de aprender de los datos y no sólo de ejecutar unas funciones para las que están programadas

Repositorio Universidad de Zaragoza