79 research outputs found

    Estimación de modelos de regresión por mínimos cuadrados penalizados

    Get PDF
    Las técnicas de regresión por mínimos cuadrados pertenecen a la estadística básica en cuanto a predicción de modelos se refiere. Sin embargo, cuando nos encontramos con un conjunto de datos de grandes dimensiones son necesarios métodos más específicos. Uno de ellos es el caso de mínimos cuadrados penalizados, que será el objetivo principal de este trabajo. La razón es que en el momento que se tiene un gran número de datos, pueden aparecer problemas de colinealidad entre variables o que el número de variables sea mayor al número de datos obtenidos, entre otros. Si se tienen variables que están muy relacionadas entre sí, es frecuente que el modelo estimado presente sobreajuste y que en este se incluyan todas las variables predictoras con coeficientes muy poco interpretables en la realidad. Por esto y otras razones que veremos, es importante aplicar técnicas de regularización

    Elementos matemáticos en la construcción de árboles filogenéticos

    Get PDF
    Desde sus orígenes la insaciable curiosidad del ser humano ha llevado al desarrollo acelerado de la filogenética, rama de la biología que se encarga de determinar las relaciones evolutivas entre individuos a través de matrices de ADN y morfología. Esta reconstrucción filogenética es el final de un extenso proceso. Este trabajo se centrará en dos partes muy específicas de la filogenética, analizando todos sus elementos matemáticos: la reconstrucción filogenética y los modelos evolutivos. En el primer capítulo se exponen las definiciones, propiedades básicas sobre árboles filogenéticos así como combinatoria básica de estos grafos. Se distinguen dos distancias fundamentales: la distancia ultramétrica, una distancia que permite aplicar el algoritmo UPGMA para la reconstrucción del árbol que relaciona las especies y por otro lado, la distancia aditiva, que tiene asociado un algoritmo mucho más general pero más complejo, el algoritmo Neighbour-Joining. Sin olvidar, que también existen métodos algebraicos que pueden reconstruir dicho árbol como es mínimos cuadrados. Una vez obtenido el árbol que relaciona a las especies, en el segundo capítulo se asocia a estas especies sus secuencias de ADN. Primero, se introduce un método para medir la compatibilidad de estas secuencias con el árbol que las relaciona, mediante el algoritmo Fitch-Hartigan. A partir de cadenas de Markov en tiempo contínuo, se ajusta el modelo evolutivo que mejor refleje el proceso de mutación en el árbol, empezando por un modelo básico y extendiéndolo a un modelo general en el que se permite modificar la variabilidad de los nucleótidos en la secuencia y la velocidad a la que éstos mutan. Además mediante máxima verosimilitud se expone un método de comparación entre los distintos modelos evolutivos. Finalmente, en el capítulo tres se aplican todos los conceptos descritos en los capítulos anteriores a dos conjuntos de datos, uno compuesto de secuencias de ADN de catorce mamíferos y el otro conjunto compuesto de rasgos fenotípicos de una especie de pájaros del género Geospiza

    Introducción a la Regresión Cuantil. Estimación y extensión a modelos no paramétricos

    Get PDF
    La regresión cuantil fue introducida por Roger Koenker y Gib Basset (1978) buscando extender las ideas de estimación de función cuantil condicional. Estos modelos constan de una distribución condicional de la variable respuesta expresada en función de las covariables observadas. Los métodos de regresión cuantil son competitivos con el método de mínimos cuadrados en lo que se refiere al esfuerzo computacional gracias al descubrimiento del método simplex y al desarrollo en la programación lineal. La localización de los cuantiles asegura un tipo de robustez carente en muchos procedimientos estadísticos habituales, como, por ejemplo, los basados en minimizar una suma de residuos al cuadrado. La regresión cuantil está llegando a ser cada vez más útil en áreas como la Econometría, Finanzas, Biomedicina, búsqueda de patrones y en Estudios Ambientales. En el primer capítulo se realiza una introducción de los conceptos básicos de la regresión cuantil, como el término cuantil y la función de pérdida de un cuantil. Además, se muestra cómo el cuantil es solución de un problema de optimización y se da su distribución asintótica. Finalmente se comparan distintos métodos de estimación. En el segundo capítulo se hace una introducción a la regresión cuantil no paramétrica, donde se muestra que el estimador lineal local depende de la función kernel y el parámetro de suavizado h. Por último se dan diversos selectores de este parámetro h, como son el método plug-in o el de validación cruzada. El último capítulo es una aplicación en R de los modelos descritos en dos conjuntos de datos con varias funciones del paquete `quantreg'

    Introducción a las curvas ROC para clasificadores binarios

    Get PDF
    La curva ROC (receiver operating characteristic) es una representación gráfica la cuál mide la capacidad diagnóstica de un clasificador binario al variar su umbral de decisión. Su uso está muy extendido en diversos campos como por ejemplo, en la medicina o en el aprendizaje automático supervisado. Dicha curva se puede representar como una expresión directa entre funciones de distribución de variables aleatorias por lo que se pueden aplicar técnicas estadísticas para estimarla. El objetivo de este trabajo es revisar las principales propiedades matemáticas de la curva poblacional, así como describir los principales métodos estadísticos para estimarla. Por último, consideramos la presencia de covariables y analizamos cómo incorporar esta información adicional en las curvas ROC. Terminamos con una aplicación a datos reales utilizando las últimas bibliotecas de R relacionadas con este tema.<br /

    Test de hipótesis múltiples y métodos de ajuste del p-valor

    Get PDF
    Un test de hipótesis es un procedimiento para juzgar si una propiedad que suponemos de una población es compatible con lo observado en una muestra de dicha población. Los test de hipótesis nos sirven para contrastar dos hipótesis: una hipótesis nula y una hipótesis alternativa. Un test de hipótesis nos da un procedimiento para rechazar o no la hipótesis nula, en base a los datos que tengamos.Durante las últimas décadas, se está generando un gran volumen de datos en distintos campos de estudio. Las necesidades de disciplinas como la genómica o la biología han motivado el desarrollo de la teoría de test de hipótesis múltiples, que consisten en contrastar una gran cantidad de hipótesis al mismo tiempo. Por ejemplo, comprender la base genética de una enfermedad consiste en determinar qué genes están relacionados con el desarrollo de la enfermedad. Para ello, tenemos que hacer un gran número de test de hipótesis a la vez, uno por cada gen. En cada test contrastamos si el gen está relacionado con el desarrollo de la enfermedad o no. Un contraste de hipótesis múltiples nos da un proceso para decidir el conjunto de hipótesis nulas que debemos rechazar.<br /

    Identificación de patrones y algoritmos de consolidación en bases de datos de posicionamiento

    Get PDF
    Hoy en día, muchos dispositivos cuentan con un sistema de geolocalización GPS que nos permite conocer la localización de un sujeto en tiempo real. Con el fin de obtener la mayor información posible en todo momento, estas posiciones recogidas se guardan en una base de datos que puede ser temporal o permanente. En el caso de ser permanente, nos encontraremos con el problema de que la base de datos puede crecer hasta un límite desmesurado en el que dispositivo que recoge y almacena esta información llene su memoria, impidiendo almacenar posiciones nuevas. En este momento, es necesario tomar la decisión de borrar parte de las posiciones almacenadas, según algún criterio. La dificultad en este momento es elegir el criterio con el cual eliminaremos este exceso de datos, por ejemplo, borrando posiciones repetidas o posiciones que no aporten la suficiente eficiencia en relación al espacio que ocupan en memoria. Esto introduce el concepto de función de consolidación o compactación, es decir una función que elimine un exceso de datos permitiéndonos conservar el máximo de información posible. El objetivo de este trabajo es analizar distintas técnicas para la consolidación de posiciones GPS, algunas ya existentes y otras a desarrollar

    Introducción a la detección de anomalías por métodos de aprendizaje máquina

    Get PDF
    La detección de anomalías es un paso clave en cualquier proceso de análisis de datos. Se trata, en particular, de un proceso de limpieza de datos cuyo uso se aplica en numerosos campos como la medicina, la ciberseguridad, la estadística o el fraude financiero entre muchos otros. El objetivo de este trabajo es el de introducir al lector en los principales conceptos relacionados con el proceso de detección de anomalías, así como las propiedades de dos métodos utilizados para este proceso y la descripción de sus aplicaciones en conjuntos de datos reales.<br /

    Métodos de reducción de la dimensionalidad: ACP vs t-SNE

    Get PDF
    Se presentan y comparan dos técnicas de visualización y reducción de la dimensionalidad: una lineal, componentes principales, y otra no lineal, t-Distributed Stochastic Neighbor Embedding. El Análisis de Componentes Principales se encarga de construir nuevas variables que sintetizan la información de las iniciales manteniendo su variabilidad. La técnica t-SNE proporciona una visualización dando a cada punto del espacio de dimensión alta una ubicación en el espacio de baja dimensión. Esta técnica es una mejora del Stochastic Neighbor Embedding debido a su menor coste de computación y a su solución ante el "crowding problem". Se presentan una serie de visualizaciones de ambas técnicas en dos conjuntos de datos diferentes.<br /

    Algoritmo EM. Aplicaciones y extensiones

    Get PDF
    El algoritmo de Esperanza-Maximización (EM) es uno de los métodos fundamentales de la estimación máximo verosímil en modelos probabilísticos con variables no observables. Desde su reformulación en 1977, se ha aplicado en una gran variedad de áreas. Se terminará con una aplicación a problemas de clasificación con datos incompletos, programando algoritmo en R

    Aprendizaje por Refuerzo. Elementos básicos y algoritmos

    Get PDF
    El aprendizaje por refuerzo es un área del estudio informático y matemático que engloba sistemas y algoritmos de aprendizaje sobre ordenadores. En particular, esta teoría es capaz de resolver los problemas deseados sin la necesidad del conocimiento estricto y completo de todos los parámetros del problema. Esta característica es muy conveniente ya que en muchos de los problemas reales, se desconocen estos parámetros o no se controlan con exactitud. Estos sistemas de aprendizaje proporcionan al ordenador la capacidad de aprender de los datos y no sólo de ejecutar unas funciones para las que están programadas
    corecore