Search CORE

958 research outputs found

Representatividad Muestral en la Incertidumbre Sim\'etrica Multivariada para la Selecci\'on de Atributos

Author: Sosa-Cabrera Gustavo
Publication venue
Publication date: 27/03/2024
Field of study

In this work, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. In this thesis, through observation of results, it is proposed an heuristic condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction. -- En el presente trabajo hemos analizado el comportamiento de una versi\'on multivariada de la incertidumbre sim\'etrica a trav\'es de t\'ecnicas de simulaci\'on estad\'isticas sobre varias combinaciones de atributos informativos y no-informativos generados de forma aleatoria. Los experimentos muestran como el n\'umero de atributos, sus cardinalidades y el tama\~no muestral afectan al MSU como medida. En esta tesis, mediante la observaci\'on de resultados hemos propuesto una condici\'on que preserva una buena calidad en el MSU bajo diferentes combinaciones de los tres factores mencionados, lo cual provee un nuevo y valioso criterio para llevar a cabo el proceso de reducci\'on de dimensionalidad.Comment: 52 pages, in Spanish. Advisors: Miguel Garc\'ia-Torres, Santiago G\'omez-Guerrero, Christian E. Schaerer Serr

arXiv.org e-Print Archive

Understanding a Version of Multivariate Symmetric Uncertainty to assist in Feature Selection

Author: Divina Federico
García-Torres Miguel
Gómez Santiago
Schaerer Christian
Sosa-Cabrera Gustavo
Publication venue
Publication date: 25/09/2017
Field of study

In this paper, we analyze the behavior of the multivariate symmetric uncertainty (MSU) measure through the use of statistical simulation techniques under various mixes of informative and non-informative randomly generated features. Experiments show how the number of attributes, their cardinalities, and the sample size affect the MSU. We discovered a condition that preserves good quality in the MSU under different combinations of these three factors, providing a new useful criterion to help drive the process of dimension reduction

arXiv.org e-Print Archive

Feature Selection: A perspective on inter-attribute cooperation

Author: García-Torres Miguel
Gómez-Guerrero Santiago
Schaerer Christian E.
Sosa-Cabrera Gustavo
Publication venue
Publication date: 28/06/2023
Field of study

High-dimensional datasets depict a challenge for learning tasks in data mining and machine learning. Feature selection is an effective technique in dealing with dimensionality reduction. It is often an essential data processing step prior to applying a learning algorithm. Over the decades, filter feature selection methods have evolved from simple univariate relevance ranking algorithms to more sophisticated relevance-redundancy trade-offs and to multivariate dependencies-based approaches in recent years. This tendency to capture multivariate dependence aims at obtaining unique information about the class from the intercooperation among features. This paper presents a comprehensive survey of the state-of-the-art work on filter feature selection methods assisted by feature intercooperation, and summarizes the contributions of different approaches found in the literature. Furthermore, current issues and challenges are introduced to identify promising future research and development.Comment: 17 pages, 2 figure

arXiv.org e-Print Archive

Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn

Author: García Díaz María E.
Maciel Cardozo Andrés
Sosa Cabrera Gustavo
Publication venue
Publication date: 01/10/2019
Field of study

En el presente, el cáncer de mama es uno de los cánceres más frecuentes y es la segunda causa de muerte en mujeres en todo el mundo. Asimismo, cada vez es más difícil ignorar el constante e intenso aumento de la importancia de los enfoques de minería de datos en los diagnósticos médicos. En este sentido, central a toda la disciplina de la minería de datos, encontramos la clasificación como la tarea preponderante en el proceso de toma de decisiones para los médicos. A día de hoy, una gran cantidad de clasificadores se han propuesto en la literatura. Sin embargo, teniendo en cuenta la cantidad de personas afectadas por el cáncer, merece la pena seguir desarrollando técnicas que puedan contribuir en mejores formas de diagnóstico. En lo que a este estudio concierne, se ha considerado introducir un ensamblado de clasificadores, propuesto en razón al balance entre sus factores individuales de sesgo y varianza. Demostrando la correctitud de la metodología adoptada para la conjunción ad hoc de los clasificadores, los resultados empíricos de este estudio proporcionan evidencia de una mejor clasificación de los tumores como maligno o benigno, en cuanto a precisión se refiere.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn

Author: García Díaz María E.
Maciel Cardozo Andrés
Sosa Cabrera Gustavo
Publication venue
Publication date: 01/10/2019
Field of study

Servicio de Difusión de la Creación Intelectual

Genericidad de funciones: el quid para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

Author: García Díaz María Elena
González Pedro
Gómez Felix
Salinas Derlis
Sosa Cabrera Gustavo
Publication venue
Publication date: 17/03/2020
Field of study

Hoy en día, una inconmensurable cantidad de programas informáticos se encuentran en ejecución generando información propia de su comportamiento, estos tipos de historial son amplia y generalmente conocidos como Logs. Sin embargo, a pesar de los avances en la inferencia funcional inductiva para trabajar con los datos, hasta el momento se ha prestado escasa atención a la automatización del procesamiento analítico de estos tipos de registros de eventos. En este sentido, puesto que la alta expresividad de los Lenguajes de Programación Declarativos es una noción ampliamente aceptada, en este trabajo se aborda las implicancias prácticas de la Programación Funcional Inductiva aplicado en el dominio específico de los Logs para su inferencia asistida ex professo.XVI Workshop Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

Genericidad de funciones: el quid para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

Author: García Díaz María Elena
González Pedro
Gómez Felix
Salinas Derlis
Sosa Cabrera Gustavo
Publication venue
Publication date: 01/10/2019
Field of study

Servicio de Difusión de la Creación Intelectual

Genericidad de funciones: el quid para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

Author: García Díaz María Elena
González Pedro
Gómez Felix
Salinas Derlis
Sosa Cabrera Gustavo
Publication venue
Publication date: 01/10/2019
Field of study

Descubriendo reglas de asociación en bases de datos del sector retail usando R

Author: Báez Acuña Juan Manuel
García María Elena
Paredes Cabañas Clara Anuncia
Sosa Cabrera Gustavo
Publication venue
Publication date: 01/10/2018
Field of study

A día de hoy, la alta competitividad en los negocios del tipo retail les exige buscar nuevas estrategias para garantizar su supervivencia. A estos efectos, las organizaciones han comprendido que los datos residentes en sus bases de datos transaccionales pueden ser utilizados como materia prima para impulsar el crecimiento del negocio, si es que los mismos pueden explotarse con propiedad. Este trabajo de investigación tiene como objetivo principal aplicar técnicas de Minería de Datos para el descubrimiento de reglas de asociación, tomando como período de estudio datos transaccionales netamente comerciales, en un intervalo de 10 años de una entidad retail de electrodomésticos y muebles. Se describe la fase de selección y preparación de los datos así como también su costo en horas/hombre. En la fase de modelado se ha corrido los algoritmos Apriori y Eclat implementados en el paquete arules de la herramienta R donde tanto las asociaciones resultantes como el tiempo de ejecución fueron comparados entre ambos algoritmos. Los resultados demuestran patrones relevantes en el comportamiento de compra de los clientes como ser aquellos que relacionan artículos y precio de accesorios.XV Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

Descubriendo reglas de asociación en bases de datos del sector retail usando R

Author: Báez Acuña Juan Manuel
García María Elena
Paredes Cabañas Clara Anuncia
Sosa Cabrera Gustavo
Publication venue
Publication date: 01/10/2018
Field of study

Servicio de Difusión de la Creación Intelectual

Representatividad Muestral en la Incertidumbre Sim\'etrica Multivariada para la Selecci\'on de Atributos

Understanding a Version of Multivariate Symmetric Uncertainty to assist in Feature Selection

Feature Selection: A perspective on inter-attribute cooperation

Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn

Ensamblado ad hoc de clasificadores para la detección de cáncer de mama usando Scikit-learn

Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

Genericidad de funciones: el <i>quid</i> para la incorporación de dominios en un Sistema Funcional Inductivo basado en Haskell

Descubriendo reglas de asociación en bases de datos del sector retail usando R

Descubriendo reglas de asociación en bases de datos del sector retail usando R