1 research outputs found
Novel feature selection methods for high dimensional data
[Resumen] La selección de caracterÃsticas se define como el proceso de detectar las caracterÃsticas relevantes y descartar las irrelevantes, con el objetivo de obtener un subconjunto de caracterÃsticas más pequeño que describa adecuadamente el problema dado con una degradación mÃnima o incluso con una mejora del rendimiento. Con la llegada de los
conjuntos de alta dimensión -tanto en muestras como en caracterÃsticas-, se ha vuelto indispensable la identifÃcación adecuada de las caracterÃsticas relevantes en escenarios del mundo real. En este contexto, los diferentes métodos disponibles se encuentran con un nuevo reto en cuanto a aplicabilidad y escalabilidad. Además, es necesario desarrollar nuevos métodos que tengan en cuenta estas particularidades de la alta dimensión. Esta tesis está dedicada a la investigación en selección de caracterÃsticas y a su aplicación a datos reales de alta dimensión.
La primera parte de este trabajo trata del análisis de los métodos de selección de
caracterÃsticas existentes, para comprobar su idoneidad frente a diferentes retos y para
poder proporcionar nuevos resultados a los investigadores de selección de caracterÃsticas.
Para esto, se han aplicado las técnicas más populares a problemas reales, con
el objetivo de obtener no sólo mejoras en rendimiento sino también para permitir su
aplicación en tiempo real. Además de la eficiencia, la escalabilidad también es un aspecto crÃtico en aplicaciones de gran escala. La eficacia de los métodos de selección de caracterÃsticas puede verse significativamente degradada, si no totalmente inaplicable, cuando el tamaño de los datos se incrementa continuamente. Por este motivo, la escalabilidad de los métodos de selección de caracterÃsticas también debe ser analizada.
Tras llevar a cabo un análisis en profundidad de los métodos de selección de caracterÃsticas existentes, la segunda parte de esta tesis se centra en el desarrollo de nuevas técnicas. Debido a que la mayorÃa de métodos de selección existentes necesitan que los datos sean discretos, la primera aproximación propuesta consiste en la combinación de un discretizador, un filtro y un clasificador, obteniendo resultados prometedores en escenarios
diferentes. En un intento de introducir diversidad, la segunda propuesta trata
de usar un conjunto de filtros en lugar de uno sólo, con el objetivo de liberar al usuario de tener que decidir que técnica es la más adecuada para un problema dado. La tercera técnica propuesta en esta tesis no solo considera la relevancia de las caracterÃsticas sino también su coste asociado -económico o en cuanto a tiempo de ejecución-, por lo que
se presenta una metodologÃa general para selección de caracterÃsticas basada en coste.
Por último, se proponen varias estrategias para distribuir y paralelizar la selección de caracterÃsticas, ya que transformar un problema de gran escala en varios problemas
de pequeña escala puede llevar a mejoras en el tiempo de procesado y, en algunas
ocasiones, en precisión de clasificación