958 research outputs found
Representatividad Muestral en la Incertidumbre Sim\'etrica Multivariada para la Selecci\'on de Atributos
In this work, we analyze the behavior of the multivariate symmetric
uncertainty (MSU) measure through the use of statistical simulation techniques
under various mixes of informative and non-informative randomly generated
features. Experiments show how the number of attributes, their cardinalities,
and the sample size affect the MSU. In this thesis, through observation of
results, it is proposed an heuristic condition that preserves good quality in
the MSU under different combinations of these three factors, providing a new
useful criterion to help drive the process of dimension reduction.
--
En el presente trabajo hemos analizado el comportamiento de una versi\'on
multivariada de la incertidumbre sim\'etrica a trav\'es de t\'ecnicas de
simulaci\'on estad\'isticas sobre varias combinaciones de atributos
informativos y no-informativos generados de forma aleatoria. Los experimentos
muestran como el n\'umero de atributos, sus cardinalidades y el tama\~no
muestral afectan al MSU como medida. En esta tesis, mediante la observaci\'on
de resultados hemos propuesto una condici\'on que preserva una buena calidad en
el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual
provee un nuevo y valioso criterio para llevar a cabo el proceso de reducci\'on
de dimensionalidad.Comment: 52 pages, in Spanish. Advisors: Miguel Garc\'ia-Torres, Santiago
G\'omez-Guerrero, Christian E. Schaerer Serr
Understanding a Version of Multivariate Symmetric Uncertainty to assist in Feature Selection
In this paper, we analyze the behavior of the multivariate symmetric
uncertainty (MSU) measure through the use of statistical simulation techniques
under various mixes of informative and non-informative randomly generated
features. Experiments show how the number of attributes, their cardinalities,
and the sample size affect the MSU. We discovered a condition that preserves
good quality in the MSU under different combinations of these three factors,
providing a new useful criterion to help drive the process of dimension
reduction
Feature Selection: A perspective on inter-attribute cooperation
High-dimensional datasets depict a challenge for learning tasks in data
mining and machine learning. Feature selection is an effective technique in
dealing with dimensionality reduction. It is often an essential data processing
step prior to applying a learning algorithm. Over the decades, filter feature
selection methods have evolved from simple univariate relevance ranking
algorithms to more sophisticated relevance-redundancy trade-offs and to
multivariate dependencies-based approaches in recent years. This tendency to
capture multivariate dependence aims at obtaining unique information about the
class from the intercooperation among features. This paper presents a
comprehensive survey of the state-of-the-art work on filter feature selection
methods assisted by feature intercooperation, and summarizes the contributions
of different approaches found in the literature. Furthermore, current issues
and challenges are introduced to identify promising future research and
development.Comment: 17 pages, 2 figure
Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn
En el presente, el cáncer de mama es uno de los cánceres más frecuentes y es la segunda causa de muerte en mujeres en todo el mundo. Asimismo, cada vez es más difícil ignorar el constante e intenso aumento de la importancia de los enfoques de minería de datos en los diagnósticos médicos. En este sentido, central a toda la disciplina de la minería de datos, encontramos la clasificación como la tarea preponderante en el proceso de toma de decisiones para los médicos. A día de hoy, una gran cantidad de clasificadores se han propuesto en la literatura.
Sin embargo, teniendo en cuenta la cantidad de personas afectadas por el cáncer, merece la pena seguir desarrollando técnicas que puedan contribuir en mejores formas de diagnóstico. En lo que a este estudio concierne, se ha considerado introducir un ensamblado de clasificadores, propuesto en razón al balance entre sus factores individuales de sesgo y varianza. Demostrando la correctitud de la metodología adoptada para la conjunción ad hoc de los clasificadores, los resultados empíricos de este estudio proporcionan evidencia de una mejor clasificación de los tumores como maligno o benigno, en cuanto a precisión se refiere.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic
Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn
En el presente, el cáncer de mama es uno de los cánceres más frecuentes y es la segunda causa de muerte en mujeres en todo el mundo. Asimismo, cada vez es más difícil ignorar el constante e intenso aumento de la importancia de los enfoques de minería de datos en los diagnósticos médicos. En este sentido, central a toda la disciplina de la minería de datos, encontramos la clasificación como la tarea preponderante en el proceso de toma de decisiones para los médicos. A día de hoy, una gran cantidad de clasificadores se han propuesto en la literatura.
Sin embargo, teniendo en cuenta la cantidad de personas afectadas por el cáncer, merece la pena seguir desarrollando técnicas que puedan contribuir en mejores formas de diagnóstico. En lo que a este estudio concierne, se ha considerado introducir un ensamblado de clasificadores, propuesto en razón al balance entre sus factores individuales de sesgo y varianza. Demostrando la correctitud de la metodología adoptada para la conjunción ad hoc de los clasificadores, los resultados empíricos de este estudio proporcionan evidencia de una mejor clasificación de los tumores como maligno o benigno, en cuanto a precisión se refiere.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic
Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell
Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic
Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell
Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic
Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell
Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic
Descubriendo reglas de asociación en bases de datos del sector retail usando R
A día de hoy, la alta competitividad en los negocios del tipo retail les exige buscar nuevas estrategias para garantizar su supervivencia.
A estos efectos, las organizaciones han comprendido que los datos residentes en sus bases de datos transaccionales pueden ser utilizados como materia prima para impulsar el crecimiento del negocio, si es que los mismos pueden explotarse con propiedad. Este trabajo de investigación tiene como objetivo principal aplicar técnicas de Minería de Datos para el descubrimiento de reglas de asociación, tomando como período de estudio datos transaccionales netamente comerciales, en un intervalo de 10 años de una entidad retail de electrodomésticos y muebles. Se describe la fase de selección y preparación de los datos así como también su costo en horas/hombre. En la fase de modelado se ha corrido los algoritmos Apriori y Eclat implementados en el paquete arules de la herramienta R donde tanto las asociaciones resultantes como el tiempo de ejecución fueron comparados entre ambos algoritmos. Los resultados demuestran patrones relevantes en el comportamiento de compra de los clientes como ser aquellos que relacionan artículos y precio de accesorios.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI
Descubriendo reglas de asociación en bases de datos del sector retail usando R
A día de hoy, la alta competitividad en los negocios del tipo retail les exige buscar nuevas estrategias para garantizar su supervivencia.
A estos efectos, las organizaciones han comprendido que los datos residentes en sus bases de datos transaccionales pueden ser utilizados como materia prima para impulsar el crecimiento del negocio, si es que los mismos pueden explotarse con propiedad. Este trabajo de investigación tiene como objetivo principal aplicar técnicas de Minería de Datos para el descubrimiento de reglas de asociación, tomando como período de estudio datos transaccionales netamente comerciales, en un intervalo de 10 años de una entidad retail de electrodomésticos y muebles. Se describe la fase de selección y preparación de los datos así como también su costo en horas/hombre. En la fase de modelado se ha corrido los algoritmos Apriori y Eclat implementados en el paquete arules de la herramienta R donde tanto las asociaciones resultantes como el tiempo de ejecución fueron comparados entre ambos algoritmos. Los resultados demuestran patrones relevantes en el comportamiento de compra de los clientes como ser aquellos que relacionan artículos y precio de accesorios.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI
- …