La investigación que se presenta en este proyecto, tiene como
objetivo fundamental: establecer una metodología formal para
la generación automática de descripciones conceptuales de
clases construidas en dominios de naturaleza continua, reales y
complejos, llamados Dominios poco Estructurados.
Si bien, la metodología tiene como punto de partida el
estudio del boxplot múltiple, la formalización del procedimiento de
interpretación visual pasa por determinar los valores de
cada variable donde se producen cambios en la distribución y
construir la tabla de frecuencias condicionadas a dichos
intervalos. Ello da lugar a una representación difusa de los
grados de pertenencia de los valores de la variable a las
distintas clases; lo que constituye un cómodo soporte para
caracterizar e interpretar automáticamente las descripciones
conceptuales de las clases.
La metodología aporta un sistema de caracterización de
clases, desde un punto de vista semántico, en comparación con
otros métodos de cluster, cuando se aplica sobre datos
provenientes de un Dominio poco Estructurado; además, de
una nueva aproximación para discretizar el espacio de atributos
cuantitativos en términos de intervalos de longitud variable
como base de la metodología, y contribuciones a la
validación de una clasificación, en cuanto a su
representación y calidad, en el sentido de que una
clasificación es válida si probamos que las clases obtenidas
tienen sentido o utilidad y a la generación
automática de clases resultantes como base del proceso
predicción y/o diagnóstico.
La metodología representa una nueva forma para extraer
conocimiento útil y comprensible por el usuario usando una
combinación de herramientas estadísticas (boxplot múltiple,
análisis de datos), inteligencia artificial (aprendizaje
automático, sistemas basados en el conocimiento) y lógica
difusa (modelos y razonamiento difusos). Como caso de estudio se
ha aplicado a una base de datos de una depuradora de aguas
residuales que se describe en el capítulo 4 usando atributos
cuantitativos,
los resultados que se han obtenidos son prometedores, constituyendo un
primer paso para establecer una metodología formal en la obtención
automática de interpretaciones conceptuales de clases, sobre la
base de atributos cuantitativos para describir los objetos
(días en este caso de estudio).
Finalmente, nuestro trabajo cumple todas las fases del proceso
KDD (Knowledge Discovery in Databases)
descritas por Fayyad et al., enfatizando la fase de generación
automática
de interpretación, en nuestro caso, de las clases resultantes
de una partición de referencia.Postprint (published version