41 research outputs found

    A solution to the materialized view selection problem in data warehousing

    Get PDF
    One of the most important decisions in the physical designing of a data warehouse is the selection of materialized views and indexes to be created. The problem is to select an appropriate set of views and indexes to storage that minimizes the total query response time, as long as the cost of maintaining them, given a constraint of some resource like storage space, is kept as low as possible.In this work, we have developed a new algorithm for the general problem of se-lection of views considering indexes, as an extension to a well-known algorithm. We present a heuristic for selection of views and indexes to optimize total que-ry response under a materialization time constraint. Finally, we present an ex-perimental comparison of our proposal with the considered state-of-art ap-proach.XI Workshop Bases de Datos y Minería de DatosRed de Universidades con Carreras de Informática (RedUNCI

    A solution to the materialized view selection problem in data warehousing

    Get PDF
    One of the most important decisions in the physical designing of a data warehouse is the selection of materialized views and indexes to be created. The problem is to select an appropriate set of views and indexes to storage that minimizes the total query response time, as long as the cost of maintaining them, given a constraint of some resource like storage space, is kept as low as possible.In this work, we have developed a new algorithm for the general problem of se-lection of views considering indexes, as an extension to a well-known algorithm. We present a heuristic for selection of views and indexes to optimize total que-ry response under a materialization time constraint. Finally, we present an ex-perimental comparison of our proposal with the considered state-of-art ap-proach.XI Workshop Bases de Datos y Minería de DatosRed de Universidades con Carreras de Informática (RedUNCI

    Induction trees for automatic word classification

    Get PDF
    This work studies induction tree application for certain word category detection by simple morpho-syntactical descriptors that are proposed here. The classification power for these new descriptors with and without stemming is also studied. Finally, results show that classification prediction power is good when stem is coordinated with a short list of descriptors.En este trabajo estudia el uso de árboles de inducción para la detección de ciertos tipos de palabras usando algunos descriptores morfosintáctico propuestos. También se estudia el poder de clasificación de estos nuevos descriptores con y sin extracción de raíces de palabras (stemming). Finalmente, se muestra en los resultados que el poder de predicción de la clasificación es bueno cuando se combinan stemming con algunos de los descriptores presentados.Red de Universidades con Carreras en Informática (RedUNCI

    Semantic document indexing in ontology-driven organizational memories

    Get PDF
    Effective document retrieval using domain knowledge and semantics is one of the major challenges in Information Retrieval. Over the last years, there has been a growing interest in ontologies as an artifact for human knowledge representation and a critical component in Knowledge Management, Semantic Web, and Business-to-Business applications. We have found that it is not easy to represent certain types of knowledge (skills or procedures) or to transform certain types of knowledge representation (knowledge contained in diagrams) into an appropriate ontological format. To overcome this problem, our proposal is to connect knowledge sources to the domain ontology associated with an Organizational Memory without forcing any transformation in the structure of the source itself. This connection will allow the semantic classification of knowledge sources so that when a user performs a query it is possible to recover the documents that have a higher probability of containing the answer.II Workshop de Ingeniería de Software y Bases de Datos (WISBD)Red de Universidades con Carreras en Informática (RedUNCI

    Un modelo de clustering temporal

    Get PDF
    Clustering consiste en particionar el conjunto de datos en colecciones de objetos de manera que dentro de cada partición los objetos sean “similares” entre sí, y a su vez se “diferencien” de los objetos contenidos en otras particiones. En la literatura han sido propuestos muchos algoritmos para realizar el proceso de clustering, pero la mayoría de ellos tiene un enfoque estático, por lo tanto, estas soluciones no pueden ser aplicadas correctamente para datos más complejos, como colecciones de objetos espacio-temporales. En muchos casos, la información guardada en las bases de datos tiene una naturaleza espacial dinámica: además de tener datos espaciales, a menudo se asocian los mismos con información temporal, como marcas de tiempo (time-stamp) ,manejo de versiones, fechas o rango de fechas. En el presente trabajo se propone un método de Clustering Temporal que realiza el proceso de clustering sólo teniendo en cuenta los atributos espaciales, pero para distintos momentos de tiempo (dato aportado por los atributos temporales). Esto nos permite ver cómo varían los clusters durante el transcurso del tiempo, observar la trayectoria de los objetos, y obtener distintas estadísticas sobre el movimiento de clusters y objetos, que no se podrían obtener aplicando un algoritmo de clustering estándar.Eje: I - Workshop de Ingeniería de Software y Base de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Un modelo de clustering temporal

    Get PDF
    Clustering consiste en particionar el conjunto de datos en colecciones de objetos de manera que dentro de cada partición los objetos sean “similares” entre sí, y a su vez se “diferencien” de los objetos contenidos en otras particiones. En la literatura han sido propuestos muchos algoritmos para realizar el proceso de clustering, pero la mayoría de ellos tiene un enfoque estático, por lo tanto, estas soluciones no pueden ser aplicadas correctamente para datos más complejos, como colecciones de objetos espacio-temporales. En muchos casos, la información guardada en las bases de datos tiene una naturaleza espacial dinámica: además de tener datos espaciales, a menudo se asocian los mismos con información temporal, como marcas de tiempo (time-stamp) ,manejo de versiones, fechas o rango de fechas. En el presente trabajo se propone un método de Clustering Temporal que realiza el proceso de clustering sólo teniendo en cuenta los atributos espaciales, pero para distintos momentos de tiempo (dato aportado por los atributos temporales). Esto nos permite ver cómo varían los clusters durante el transcurso del tiempo, observar la trayectoria de los objetos, y obtener distintas estadísticas sobre el movimiento de clusters y objetos, que no se podrían obtener aplicando un algoritmo de clustering estándar.Eje: I - Workshop de Ingeniería de Software y Base de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Fractalizing social networks

    Get PDF
    Fractals are self-similar structures that exist widely in nature. We are aiming the current work to prove that social networks, although not a naturally generated structure but one created by humans within the World Wide Web, show a fractal behavior as well and as such, will experience a self-similar kind of evolution. In the present work we attempt to find through the study of fractal behavior, how the introduction of a new element in the social network will impact in the existing network structure and in the network growth. Also our main interest is into how the new node will start interacting with the existing communities in order to eventually build its own.X Workshop bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Análisis de sentimientos sobre un corpus en español: experimentación con un caso de estudio

    Get PDF
    En este artículo se presenta la investigación, evaluación y comparación experimental de técnicas de procesamiento de lenguaje natural para análisis de información subjetiva como opiniones, sentimientos y emociones en textos no estructurados en idioma español. Se implemento una herramienta para la extracción de opiniones de documentos con el objetivo de clasificarlos según polaridad de sentimientos (positivos o negativos) utilizando como corpus de datos la base de comentarios de un sitio de crítica gastronómica al que se le aplican distintas técnicas de preprocesamiento. La principal contribución de este artículo es la experimentación y evaluación de tecnificas de clasificación subjetiva de textos para el idioma español en función del tamaño de corpus, tipos de atributos extraídos y preprocesamientos aplicados.Sociedad Argentina de Informática e Investigación Operativ

    Análisis de sentimientos sobre un corpus en español: experimentación con un caso de estudio

    Get PDF
    En este artículo se presenta la investigación, evaluación y comparación experimental de técnicas de procesamiento de lenguaje natural para análisis de información subjetiva como opiniones, sentimientos y emociones en textos no estructurados en idioma español. Se implemento una herramienta para la extracción de opiniones de documentos con el objetivo de clasificarlos según polaridad de sentimientos (positivos o negativos) utilizando como corpus de datos la base de comentarios de un sitio de crítica gastronómica al que se le aplican distintas técnicas de preprocesamiento. La principal contribución de este artículo es la experimentación y evaluación de tecnificas de clasificación subjetiva de textos para el idioma español en función del tamaño de corpus, tipos de atributos extraídos y preprocesamientos aplicados.Sociedad Argentina de Informática e Investigación Operativ

    Data mining utilizando redes neuronales

    Get PDF
    Las Redes Neuronales son ampliamente utilizadas para tareas relacionadas con reconocimiento de patrones y clasificación. Aunque son clasificadores muy precisos, no son comúnmente utilizadas para Data Mining porque producen modelos de aprendizaje inexplicables. El algoritmo TREPAN extrae hipótesis explicables de una Red Neuronal entrenada. Las hipótesis producidas por el algoritmo se representan con un árbol de decisión que aproxima a la red. Los árboles de decisión extraídos por TREPAN no pueden describir predicciones de Redes Neuronales entrenadas para realizar tareas de regresión y, algunas veces, los árboles de decisión extraídos no son lo suficientemente concisos. En el presente trabajo se presentan dos nuevos algoritmos de extracción de reglas que construyen árboles difusos y árboles modelo a partir de una Red Neuronal entrenada, para ser utilizados en aquellos dominios en los que el árbol de decisión no es lo suficientemente conciso, o no describe correctamente el método de clasificación de la Red Neuronal que realiza tareas de regresión. Con estos nuevos métodos es posible comprender el método de clasificación de una Red Neuronal entrenada para un rango de dominios no cubierto por TREPAN.Eje: I - Workshop de Ingeniería de Software y Base de DatosRed de Universidades con Carreras en Informática (RedUNCI
    corecore