2 research outputs found

    Métodos de kernel escalables utilizando álgebra lineal numérica aleatorizada

    Get PDF
    Documento de tesis de maestriailustraciones, tablasLos métodos de kernel corresponden a un grupo de algoritmos de aprendizaje maquinal que hacen uso de una función de kernel para representar implicitamente datos en un espacio de alta dimensionalidad, donde sistemas de optimización lineal guíen a relaciones no lineales en el espacio original de los datos y por lo tanto encontrando patrones complejos dento de los datos. La mayor desventaja que tienen estos métodos es su pobre capacidad de escalamiento, pues muchos algoritmos basados en kernel requiren calcular una matriz de orden cuadrática respecto al numero de ejemplos en los datos, esta limitación ha provocado que los metodos de kernel sean evitados en configuraciones de datos a gran escala y utilicen en su lugar tecnicas como el aprendizaje profundo. Sin embargo, los metodos de kernel todavía son relevantes para entender mejor los métodos de aprendizaje profundo y ademas pueden mejorarlos haciendo uso de estrategias híbridas que combinen lo mejor de ambos mundos. El principal objetivo de esta tesis es explorar maneras eficientes de utilizar métodos de kernel sin una gran pérdida en precisión. Para realizar esto, diferentes enfoque son presentados y formulados, dentro de los cuales, nosotros proponemos la estrategía de aprendizaje utilizando budget, la cual es presentada en detalle desde una perspectiva teórica, incluyendo un procedimiento novedoso para la selección del budget, esta estrategia muestra en la evaluación experimental un rendimiento competitivo y mejoras respecto al método estandar de aprendizaje utilizando budget, especialmente cuando se seleccionan aproximaciones mas pequeñas, las cuales son las mas útiles en ambientes de gran escala. (Texto tomado de la fuente)Kernel methods are a set of machine learning algorithms that make use of a kernel function in order to represent data in an implicit high dimensional space, where linear optimization systems lead to non-linear relationships in the data original space and therefore finding complex patterns in the data. The main disadvantage of these methods is their poor scalability, as most kernel based algorithms need to calculate a matrix of quadratic order regarding the number of data samples. This limitation has caused kernel methods to be avoided for large scale datasets and use approaches such as deep learning instead. However, kernel methods are still relevant to better understand deep learning methods and can improve them through hybrid settings that combine the best of both worlds. The main goal of this thesis is to explore efficient ways to use kernel methods without a big loss in accuracy performance. In order to do this, different approaches are presented and formulated, from which, we propose the learning-on-a-budget strategy, which is presented in detail from a theoretical perspective, including a novel procedure of budget selection. This strategy shows, in the experimental evaluation competitive performance and improvements to the standard learning-on-a-budget method, especially when selecting smaller approximations, which are the most useful in large scale environments.MaestríaMagíster en Ingeniería - Ingeniería de Sistemas y ComputaciónCiencias de la computació

    Online Kernel Matrix Factorization

    Get PDF
    Abstract. The problem of effciently applying a kernel-induced feature space factorization to a large-scale data sets is addressed in this thesis. Kernel matrix factorization methods have showed good performances solving machine learning and data analysis problems. However, the present growth of the amount of information available implies the problems can not be solved with conventional methods, due their high time and memory requirements. To solve this problem, a new kernel matrix factorization method is proposed called online kernel matrix factorization (OKMF). This method overcomes the time and memory limitations with two strategies. The first is imposing a budget restriction, i.e., restricting the number of samples needed to represent the feature space base. The second is using stochastic gradient descent to compute the factorization, allowing OKMF to scale linearly in time to large-scale data sets. Experimental results show OKMF is competitive with other kernel methods and is capable to scale to a large-scale data sets.El problema de aplicar una factorización de un espacio de características inducido por kernel es abordado en esta tesis. Los métodos de factorización de kernel han mostrado buen rendimiento solucionando problemas de aprendizaje de máquina y problemas de análisis de datos. Sin embargo, el presente crecimiento de la cantidad de información disponible implica que los problemas no pueden ser resueltos con métodos convencionales, debido a sus grandes requerimientos de tiempo y memoria. Con el fin de resolver este problema, un nuevo método de factorización de kernel es propuesto, llamado online kernel matrix factorization (OKMF). Este método solventa los problemas de tiempo y memoria usando dos estrategias. La primera es imponer una restricción de presupuesto, esto es, restringir el número de ejemplos necesarios para representar la base del espacio de características. La segunda es usar gradiente descendente estocástico para calcular la factorización, permitiendo a OKMF escalar linealmente en tiempo a grandes conjuntos de datos. Resultados experimentales muestran que OKMF es competitivo con otros métodos de kernel y es capaz de escalar a grandes conjuntos de datos.Maestrí
    corecore