14 research outputs found

    Diseño de un workload real para un benchmark de bases de datos orientadas a grafos

    Get PDF
    82 p.Junto al surgimiento de aplicaciones que requieren almacenar y analizar grandes cantidades de información no estructurada y compleja, surgen tambien los sistemas de gestión de bases de datos orientadas a grafos (SGBDG). Estos sistemas se caracterizan porque su enfoque no está en gestionar datos de forma individual y aislada,sino que ponen énfasis en las relaciones existentes entre dichos datos. El surgimiento de los SGBDG trae consigo la necesidad de realizar benchmarking sobre ellos a modo de poder establecer comparaciones. En este contexto, GDBench es un benchmark enfocado a evaluar el rendimiento de sistemas de bases de datos considerando como caso de uso una red social. Sin embargo, la carga de trabajo (workload) de GDBench no representa un escenario real. En efecto, el workload utilizado por GDBench era aleatorio, no considerando una lógica desde el punto de vista del orden en el que eran ejecutadas las operaciones. En esta memoria se presenta el desarrollo de un workload real, basado en el análisis de una red social existente (Facebook), para GDBench. El nuevo workload simula el comportamiento de un conjunto de usuarios interactuando en la red social definida por el esquema de datos de GDBench, combinando un conjunto de 6 consultas interactivas y 6 consultas analíticas. El benchmark resultante fue evaluado sobre cuatro sistemas de bases de datos, considerando aquellas orientadas a grafos (Sparksee y Neo4j), RDF (Apache Jena) y relacional (PostgreSQL). Sobre cada uno de los sistemas de bases de datos se ejecut o el workload aleatorio y el workload real. Al realizar la comparación de resultados, se obtuvo que si bien se produjeron diferencias en los tiempos de ejecución de las consultas que conformaban el workload, éstas no fueron lo su cientemente signi cativas como para alterar los resultados del proceso de benchmarking. Como trabajo futuro se plantea un uso más intensivo del benchmark para evaluar la influencia del workload en el proceso de benchmarking. Palabras claves: SGBDG, BDOG, Benchmarking, Work ow, Workload./ABSTRACT: Along with the emergence of applications that require storing and analyzing large amounts of unstructured and complex information, graph database management systems (GDBMS) also emerge. These systems are characterized because their approach is not to manage data in an individual and isolated way, but rather they emphasize the relations existing between the data. The emergence of GDBMS brings with it the need to perform benchmarking on these systems so that comparisons can be made. In this context, GDBench is a benchmark oriented to evaluate the performance of database systems considering social network as a use case. However, GDBench's workload does not represent a real scenario. In fact, the workload used by GDBench was random, not considering a logic from the point of view of the order in which the operations were executed. In this document we present the development of a real workload, based on the analysis of an existing social network (Facebook). The new workload simulates the behavior of a set of users interacting in the social network de ned by the GDBench data schema, combining a set of 6 interactive queries and 6 analytic queries. The resulting benchmark was evaluated on four database systems, considering those oriented to graphs (Sparksee and Neo4j), RDF (Apache Jena) and relational (PostgreSQL). Over each database system was executed either the random workload and the real workload. When we compared the results we found that there were differences in the execution times of the queries, but the di erences were not signi cant enough to alter the results of the benchmarking process. As future work, we propose a more intensive use of the benchmark to evaluate the influence of workload in the benchmarking process

    Diseño e implementación de métricas de similitud entre frases

    Get PDF
    156 p.Los servicios de traducción automática son sin duda una herramienta útil en la actualidad, puesto que ayudan en la comunicación facilitando la comprensión de ideas expresadas entre dos idiomas. Sin embargo, aún necesitan de mucho refinamiento porque en general cometen bastantes errores. En el caso particular entre Inglés - Español dado que ambos idiomas se basan en reglas gramaticales tan diferentes, las traducciones de un idioma al otro y viceversa se tornan complejas. Los errores no sólo son gramaticales sino que además las traducciones en ocasiones suelen ser literales perdiendo por completo el sentido de la idea que el texto original desea expresar.Esta memoria pretende colaborar con las mejoras a las traducciones automáticas específicamente entre los idiomas Inglés y Español, basándose en la idea de que se puede implementar una buena medida de calculo de similitud entre frases. El objetivo de una medida de este tipo es identificar y calificar frases candidatas a ser la mejor traducción para una frase que se traducen desde el Inglés al Español. Con esto, se pueden ofrecer más opciones de traducción para una idea y por ende, al ampliar la gama de opciones es posible capturar dentro de los resultados el real sentido que a una frase se le quiere impregnar.Para cumplir con lo anterior, en este trabajo se realiza una investigación sobre métodos existentes para medir similitud entre palabras, de los cuales se eligieron tres para su implementación. Luego del estudio de dichas medidas se realizan propuestas originales para medir similitud exclusivamente entre frases y que se complementen con las métricas para palabras. De esto surgen tres medidas bases: Distancia de Edición adaptada, Medida secuencial y Métrica básica, de las cuales sólo las dos primeras se refinan con implementaciones que incorporen funciones para medir similitud entre palabras.Finalmente, se testean las propuestas comprobando que en su conjunto son capaces de recuperar y posicionar bastante bien frases potenciales a ser mejores traducciones que una frase recibida en Español y que supone ha sido traducida desde el Ingles. Palabras claves: Traducción automática, similitud entre frases, noción básica de similitud, Distancia de Edición, Damerau-Levenshtein, WordNet./ABSTRACT:The machine translation services are certainly a useful tool at present, since they help in facilitating communication of ideas expressed understanding between two languages. However, much still needs refinement because generally commit numerous errors. In the particular case among English - Spanish since both languages ??are based on grammar rules so different translations from one language to another and vice versa become complex. Mistakes are not only grammatical but also sometimes translations are usually literal losing all sense of the idea that the original text wishes. This report aims to contribute to improvements specifically to automatic translations between English and Spanish, based on the idea that you can implement a good measure for calculating similarity between sentences. The aim of a measure of this type is to identify and qualify candidates for phrases best translation for a phrase translated from English to Spanish. With this, they can offer more translation options for an idea and thus to extend the range of options you can capture the results in the real sense as a phrase you want to impregnate. To accomplish this, in this paper an investigation of existing methods is performed to measure similarity between words, of which three were chosen for implementation. After studying original proposals such measures are performed to measure similarity between sentences only and that complement the metrics for words. Edit Distance adapted, sequential measurement and basic metrics, of which only the first two are refined implementations that incorporate functions to measure similarity between words this basis three measures arise. Finally, check that the proposals as a whole are able to recover well enough potential and position statements to be better received than a phrase translations in Spanish and has been translated means from English are tested. Keywords: Machine Translation, similarity between sentences, basic notion of similarity, Edit Distance, Damerau-Levenshtein, WordNet. actualidad, puesto que ayudan en la comunicación facilitando la comprensión de ideas expresadas entre dos idiomas. Sin embargo, a necesitan de mucho refinamiento porque en general cometen bastantes errores. En el caso particular entre Inglés -español Español dado que ambos idiomas se basan en reglas gramaticales tan diferentes, las traducciones de un idioma al otro y viceversa se tornan complejas. Los errores no sólo son gramaticales sino que además las traducciones en ocasiones suelen ser literales perdiendo por completo el sentido de la idea que el texto original desea expresar.Esta memoria pretende colaborar con las mejoras a las traducciones automáticas específicamente entre los idiomas Inglés y Español, basándose en la idea de que se puede implementar una buena medida de cálculo de similitud entre frases. El objetivo de una medida de este tipo es identificar y calificar frases candidatas a ser la mejor traducción para una frase que se traducen desde el Inglés al Español. Con esto, se pueden ofrecer más opciones de traducción para una idea y por ende, al ampliar la gama de opciones es posible capturar dentro de los resultados el real sentido que a una frase se le quiere impregnar.Para cumplir con lo anterior, en este trabajo se realiza una investigación sobre métodos existentes para medir similitud entre palabras, de los cuales se eligieron tres para su implementación. Luego del estudio de dichas medidas se realizan propuestas originales para medir similitud exclusivamente entre frases y que se complementen con las métricas para palabras. De esto surgen tres medidas bases: Distancia de Edición adaptada, Medida secuencial y Métrica básica, de las cuales sólo las dos primeras se refinan con implementaciones que incorporen funciones para medir similitud entre palabras. Finalmente, se testean las propuestas comprobando que en su conjunto son capaces de recuperar y posicionar bastante bien frases potenciales a ser mejores traducciones que una frase recibida en Español y que supone ha sido traducida desde el Inglés. Palabras claves: Traducción automatica, similitud entre frases, noción básica de similitud, Distancia de Edición, Damerau-Levenshtein, WordNet./ABSTRACT: The machine translation services are certainly a useful tool at present, since they help in facilitating communication of ideas expressed understanding between two languages. However, much still needs refinement because generally commit numerous errors. In the particular case among English - Spanish since both languages ??are based on grammar rules so different translations from one language to another and vice versa become complex. Mistakes are not only grammatical but also sometimes translations are usually literal losing all sense of the idea that the original text wishes. This report aims to contribute to improvements specifically to automatic translations between English and Spanish, based on the idea that you can implement a good measure for calculating similarity between sentences. The aim of a measure of this type is to identify and qualify candidates for phrases best translation for a phrase translated from English to Spanish. With this, they can offer more translation options for an idea and thus to extend the range of options you can capture the results in the real sense as a phrase you want to impregnate. To accomplish this, in this paper an investigation of existing methods is performed to measure similarity between words, of which three were chosen for implementation. After studying original proposals such measures are performed to measure similarity between sentences only and that complement the metrics for words. Edit Distance adapted, sequential measurement and basic metrics, of which only the first two are refined implementations that incorporate functions to measure similarity between words this basis three measures arise. Finally, check that the proposals as a whole are able to recover well enough potential and position statements to be better received than a phrase translations in Spanish and has been translated means from English are tested. Keywords: Machine Translation, similarity between sentences, basic notion of similarity, Edit Distance, Damerau-Levenshtein, WordNet

    Comparación entre metodología estructurada y metodología orientada a objetos aplicada al análisis y diseño de un sistema de control de fletes

    Get PDF
    81 p.En muchas oportunidades en el diseño de software, se enfrenta al dilema de que metodología utilizar para realizar el diseño de un software, el problema se cree que esta resuelto, ya que la metodología orientada a objetos esta ampliamente aceptada y prácticamente no existe una decisión para escoger que metodología utilizar. Pero el problema nace ahí, ya que el enfoque orientado a objetos no es la única metodología de análisis, diseño y desarrollo de software, existen otras y entre ellas esta la metodología estructurada. Este estudio muestra una comparación entre el diseño orientado a objetos y el diseño estructurado, para poder tener parámetros de comparación entre ambas metodologías aplicadas a un caso practico y comparar empíricamente, los pros y contras de ambos enfoques. Este estudio, considera métricas de diseño para realizar esta comparación. Estas métricas son de acoplamiento, cohesión y puntos de función, que son aplicadas a ambos modelos, para comprobar cual de ellos es de mejor calidad de diseño. Estas métricas fueron elegidas por su facilidad de aplicación a ambos modelos y por su comprobada aceptación para ser aplicadas a ambos diseños. Se considera la comparación entre ambas metodologías porque estas son las Mas utilizadas en el análisis y diseño de software, sobre todo la metodología orientada a objetos, que con el paso de los anos ha sido considerada una metodología madura y ampliamente usada por los analistas y diseñadores de software, de aquí nace la motivación de este estudio, que es comparar ambas metodologías para comprobar cual es mejor para un caso en particular. La elección de un caso en particular nos desencadena el problema de la comparación, que es seleccionar un caso específico para aplicar la comparación de enfoques. En este caso se selecciona el análisis y diseño de un software para control de fletes en transportes para la empresa Transportes Mora Hermanos Limitada. Los resultados son validos para este caso en particular, y como conclusión del estudio se puede indicar, luego de desarrollar ambos modelos de análisis y diseño y aplicar las métricas de software elegidas para la Comparación, que el análisis y diseño orientado a objetos es de mejor calidad que el análisis y diseño estructurado, para este caso en particular. Los objetivos que se plantearon fueron Objetivo General: Realizar una comparación entre metodología estructurada y metodología orientada a objetos en el análisis y diseño de un sistema de control de fletes para la empresa, y como Objetivos Específicos: Analizar la situación actual de la empresa y su sistema informático, realizar un análisis y diseño orientado a objetos para un sistema de control de fletes en transporte, realizar un análisis y diseño estructurado para el mismo sistema, definir métricas a aplicar para evaluar ambos modelos, evaluar y comparar ambas metodologías e implementar un prótido funcional del sistema en base al estudio realizado en base a que existe una tendencia a favor de la metodología orientada a objetos y que es la metodología mas utilizada planteamos nuestra hipótesis a demostrar: Que la metodología orientado a objetos es mejor que la metodología estructurada en comparación, tomado como caso practico el análisis y diseño de un sistema de control de fletes. Todos los objetivos planteados fueron completados con éxito en el estudio, y la hipótesis planteada no se pudo rechazar en relación a los resultados obtenidos. Palabras Claves: Metodologías de Análisis y Diseño de Software - Métricas Comparación - Análisis y Diseño Orientado a Objetos - Análisis y Diseño Estructurado - Sistema de Control de Fletes - Chile. En muchas oportunidades en el diseño de software, se enfrenta al dilema de que metodología utilizar para realizar el diseño de un software, el problema se cree que esta resuelto, ya que la metodología orientada a objetos esta ampliamente aceptada y prácticamente no existe una decisión para escoger que metodología utilizar. Pero el problema nace ahí, ya que el enfoque orientado a objetos no es la única metodología de análisis, diseño y desarrollo de software, existen otras y entre ellas esta la metodología estructurada. Este estudio muestra una comparación entre el diseño orientado a objetos y el diseño estructurado, para poder tener parámetros de comparación entre ambas metodologías aplicadas a un caso practico y comparar empíricamente, los pros y contras de ambos enfoques. Este estudio, considera métricas de diseño para realizar esta comparación. Estas métricas son de acoplamiento, cohesión y puntos de función, que son aplicadas a ambos modelos, para comprobar cual de ellos es de mejor calidad de diseño. Estas métricas fueron elegidas por su facilidad de aplicación a ambos modelos y por su comprobada aceptación para ser aplicadas a ambos diseños. Se considera la comparación entre ambas metodologías porque estas son las Mas utilizadas en el análisis y diseño de software, sobre todo la metodología orientada a objetos, que con el paso de los anos ha sido considerada una metodología madura y ampliamente usada por los analistas y diseñadores de software, de aquí nace la motivación de este estudio, que es comparar ambas metodologías para comprobar cual es mejor para un caso en particular. La elección de un caso en particular nos desencadena el problema de la comparación, que es seleccionar un caso específico para aplicar la comparación de enfoques. En este caso se selecciona el análisis y diseño de un software para control de fletes en transportes para la empresa Transportes Mora Hermanos Limitada. Los resultados son validos para este caso en particular, y como conclusión del estudio se puede indicar, luego de desarrollar ambos modelos de análisis y diseño y aplicar las métricas de software elegidas para la Comparación, que el análisis y diseño orientado a objetos es de mejor calidad que el análisis y diseño estructurado, para este caso en particular. Los objetivos que se plantearon fueron Objetivo General: Realizar una comparación entre metodología estructurada y metodología orientada a objetos en el análisis y diseño de un sistema de control de fletes para la empresa, y como Objetivos Específicos: Analizar la situación actual de la empresa y su sistema informático, realizar un análisis y diseño orientado a objetos para un sistema de control de fletes en transporte, realizar un análisis y diseño estructurado para el mismo sistema, definir métricas a aplicar para evaluar ambos modelos, evaluar y comparar ambas metodologías e implementar un prótido funcional del sistema en base al estudio realizado en base a que existe una tendencia a favor de la metodología orientada a objetos y que es la metodología mas utilizada planteamos nuestra hipótesis a demostrar: Que la metodología orientado a objetos es mejor que la metodología estructurada en comparación, tomado como caso practico el análisis y diseño de un sistema de control de fletes. Todos los objetivos planteados fueron completados con éxito en el estudio, y la hipótesis planteada no se pudo rechazar en relación a los resultados obtenidos. Palabras Claves: Metodologías de Análisis y Diseño de Software - Métricas Comparación - Análisis y Diseño Orientado a Objetos - Análisis y Diseño Estructurado - Sistema de Control de Fletes - Chile. En muchas oportunidades en el diseño de software, se enfrenta al dilema de que metodología utilizar para realizar el diseño de un software, el problema se cree que esta resuelto, ya que la metodología orientada a objetos esta ampliamente aceptada y prácticamente no existe una decisión para escoger que metodología utilizar. Pero el problema nace ahí, ya que el enfoque orientado a objetos no es la única metodología de análisis, diseño y desarrollo de software, existen otras y entre ellas esta la metodología estructurada. Este estudio muestra una comparación entre el diseño orientado a objetos y el diseño estructurado, para poder tener parámetros de comparación entre ambas metodologías aplicadas a un caso practico y comparar empíricamente, los pros y contras de ambos enfoques. Este estudio, considera métricas de diseño para realizar esta comparación. Estas métricas son de acoplamiento, cohesión y puntos de función, que son aplicadas a ambos modelos, para comprobar cual de ellos es de mejor calidad de diseño. Estas métricas fueron elegidas por su facilidad de aplicación a ambos modelos y por su comprobada aceptación para ser aplicadas a ambos diseños. Se considera la comparación entre ambas metodologías porque estas son las Mas utilizadas en el análisis y diseño de software, sobre todo la metodología orientada a objetos, que con el paso de los anos ha sido considerada una metodología madura y ampliamente usada por los analistas y diseñadores de software, de aquí nace la motivación de este estudio, que es comparar ambas metodologías para comprobar cual es mejor para un caso en particular. La elección de un caso en particular nos desencadena el problema de la comparación, que es seleccionar un caso específico para aplicar la comparación de enfoques. En este caso se selecciona el análisis y diseño de un software para control de fletes en transportes para la empresa Transportes Mora Hermanos Limitada. Los resultados son validos para este caso en particular, y como conclusión del estudio se puede indicar, luego de desarrollar ambos modelos de análisis y diseño y aplicar las métricas de Diseño de Software - Métricas Comparación - Análisis y Diseño Orientado a Objetos - Análisis y Diseño Estructurado - Sistema de Control de Fletes - Chile. ABSTRACT Many times in software design, faces the dilemma that the methodology used to perform software design, the problem is believed that this solved, as the object oiented approach is not the only method of analysis, design and software development, there are others among which is the structured methodology. This study shows a comparison between objectoriented design and structured design to have points of comparison between the methodologies applieriented methodology is widely accepted and practically there is no decision to choose which method to use. But the problema arises here because the object ord to an empirical case study and compare the pros and cons of both approaches. This study considers metrics In order to make this comparison design. These metrics are coupling, cohesion and function points, which are applied to both models to check which one is better quality design. These metrics were chosen for their ease of application to both models and their proven acceptance to be applied to both designs. It is considered comparing the two methods because these are the most Commonly used in the analysis and design software, especially object oriented methodology, which over the years has been considered a mature and widely used methodology for analysts and designers software, hence arises the motivation of this study is to compare the two methodologies against what is best for a particular case. The choice of a particular case we trigger the problem of comparison, which is to select a specific case to implement the comparison of approaches. In this case we select the analysis and design software to control removal rates for Transportes Mora Hermanos Limitada. The results are valid for this case in particular, as a conclusion, the study may indicate, after developing two models of analysis and design and implement software metrics chosen for comparison, analysis and object oriented design is better quality analysis and structured design for this particular case

    Búsqueda aproximada en espacios métricos usando agrupamientos basados en distancias cuantizadas

    Get PDF
    90 p.La evolución de la cantidad y calidad de la información que es manipulada va de la mano con el rápido crecimiento que ha presentado el área de la computación.Junto con esto, las bases de datos han tenido que adaptarse para poder dar abasto a todas las necesidades, las cuales no contemplan únicamente el almacenamiento de la información, sino que también deben proveer formas de obtener información según se requeriera. Dentro de las búsquedas que se solicitan a una base de datos comúnmente se encuentran las búsquedas exactas, es decir, dado un identificador único se quiere conseguir información vinculada con éste. Por ejemplo, al realizar una búsqueda de la información de morosidad asociada a una persona a través de su RUT.Por otro lado dada la gran cantidad de características que existen aparece otra necesidad, la cual consiste en obtener los elementos que son los más parecidos a otro. Siguiendo con el ejemplo, buscar el conjunto de personas que tengan las mismas características respecto al pago de deudas como: tiempo de morosidad del pago de cuentas, cantidad de créditos obtenidos, montos adeudados y muchas otras características que son agregadas según la cantidad de información capturada. A este tipo de búsquedas se les llama búsquedas de proximidad, en donde se tiene un elemento de consulta y una función de distancia que indica que tan similares son dos elementos, para obtener el conjunto de elementos más parecidos a la consulta. Actualmente existen métodos para indizar datos no convencionales que entregan una respuesta exacta. Sin embargo el gran problema que estos sufren es la cantidad de memoria RAM que requieren. También existen índices de búsqueda que carecen de este problema, en los que no se asegura que el resultado obtenido sea el correcto, pero si es muy aproximado a éste. El propósito de ésta memoria consiste en el diseño e implementación de un índice nuevo que provecha las características de índices probabilísticos existentes y que busca reducir el esfuerzo de la búsqueda a una porción de la base de datos. Los resultados obtenidos indican que la exactitud del índice propuesto es menor respecto al índice probabilístico del que éste se basa. Pese a esto, los tiempos de reacción obtenidos se mantienen constantes y predecibles, superando en algunos casos a su antecesor

    Diseño, implementación y pruebas de un índice para espacios métricos en memoria secundaria

    Get PDF
    79 p.El almacenamiento en bases de datos ha estado evolucionando constantemente. Los datos tradicionales ya no son tan comunes debido al surgimiento de nuevas tecnologías que generan nuevos tipos de datos: geográficos, robóticos, imágenes, etc.Por una parte, con estos nuevos tipos de datos ya no esposible realizar búsquedas de manera tradicional debido a que muchas veces no se pueden agrupar por alguna característica, y por otra, la gran cantidad de datos generados y su peso en megabytes hacen necesario pensar en métodos de indexación que permitan buscar de manera rápida y que no se limiten por el hardware, que muchas veces presenta problemas a la hora manejar gran cantidad de elementos y/o elementos de gran tamaño.Las consultas por similitud o búsqueda por proximidad se presentan como una solución para realizar este tipo de búsquedas, pero para ello es necesario definir un índice sobre los datos que utilice una función distancia que indique qué tan parecido es un elemento de otro.Actualmente existen variadas técnicas para indexar datos no convencionales tales como los mencionados. Sin embargo, muchos de ellos se encuentran con la limitante del hardware: se ejecuta y crean el índice sobre memoria principal (RAM) y si existe una gran cantidad de elementos o elementos de gran tamaño, al procesar los datos la agotan. Para superar esta limitante de hardware últimamente han surgido métodos de indexación que utilizan la memoria secundaria (disco duro), ya que este dispositivo generalmente ofrece mayor espacio que la memoria RAM. Dos de estos métodos crean el índice de manera dinámica, dejando sólo una pequeña fracción de la información de la estructura en memoria principal. El propósito de esta memoria es crear e implementar otro método de indexación aprovechando los métodos ya existentes y utilizar la memoria secundaria para almacenar los datos, y manteniendo en memoria RAM sólo la estructura del índice y una porción de los datos. Cabe decir que este trabajo es una alternativa a los métodos de indexación dinámica, pues permite la inserción y eliminación de elementos. De los resultados obtenidos en esta memoria es posible decir que la estrategia adoptada para el índice creado es útil al momento de reducir la cantidad de lecturas y escrituras a disco duro

    Implementación de SPARQL Composicional con Consultas Anidadas basadas en SQL.

    Get PDF
    109 p.La Web Semántica es una extensión de la web actual en la cual se busca que la información esté acompañada de significado de manera que sea procesable de manera automática por las máquinas. Para llevar a cabo esta visión, el consorcio de la Web (W3C) propone dos estándares fundamentales: Resource Description Framework (RDF), como modelo de datos para representar información; y SPARQL, como lenguaje estándar para consultar datos RDF Este proyecto consiste en la implementación de SPARQL en su versión Composicional (SPARQL-C), la cual esta basada en la especificación W3C para SPARQL, pero se define a través de una sintaxis (operadores) y semántica (significado de los operadores) formales. Adicionalmente, se estudiaron e implementaron consultas anidadas para SPARQL basadas en las estructuras definidas para SQL. Ambas Implementaciones fueron validadas a través de casos de prueba especificados por la W3C. El resultado de este proyecto cumple con los requerimientos del lenguaje, en concordancia con los casos de prueba definidos por la W3C. Palabras clave: SPARQL, Web Semántica, RDF, Base de datos, Lenguaje de consulta./Abstract:The Semantic Web is an extension of the current Web in which the information is accompanied with some meaning in order to allow an automatic processing by machines. To accomplish this vision, the Web Consortium (W3C) proposed two main standards: the Resource Description Framework (RDF), as the data model for representing information; and SPARQL, as the standard language for querying RDF data. This project is oriented to implement the Compositional version of SPARQL (SPARQL-C), which is based on the W3C specification of SPARQL, but is defined in terms of formal syntax (operators) and semantics. Additionally, we studied and implemented nested queries for SPARQL based on SQL structures. Both implementations were validated through test cases specified by the W3C. The result of this project meets the requirements of the language, in accordance with the test cases defined by the W3C. Keywords: SPARQL, Semantic Web, RDF, Database, Query Language

    Gestión de datos biológicos usando bases de datos RDF

    Get PDF
    164 p.La gestión de datos biológicos es una tarea ardua y complicada debido a la gran cantidad de información que se encuentra disponible y que es necesario explorar. Protein Data Bank (PDB) es una fuente de datos biológica que contiene información sobre proteínas. Actualmente, es muy común usar sistemas de bases de datos relacionales para gestionar datos PDB, sin embargo esto no resulta ser tan apropiado debido principalmente a la organización con estructura de grafo que presentan las proteínas. Esta memoria se enfoca en modelar los datos PDB usando el modelo de datos RDF. Resource Description Framework (RDF) define una manera estandar para modelar datos con estructura de grafo, los cuales pueden ser consultados usando el lenguaje de consulta SPARQL. RDF es un modelo de datos estándar que posibilita el intercambio y la reutilización de metadatos estructurados, sin las ambigúedades producidas por la procedencia de los datos desde distintas fuentes. Debido a esto es que los nombres en RDF deben ser globales, refiriéndose a que no se debe escoger un nombre que alguien más haya podido concebir para referirse a algo diferente. El modelo de datos RDF se basa en escribir recursos, los cuales son identificados por Identificadores Uniformes de Recursos (URIs).De manera específica, este proyecto partió con el estudio del formato de archivos PDB, el cual está compuesto por varias secciones. La información disponible en cada sección fue modelada a través de un diagrama entidad relación para su mejor comprensión. Habiendo comprendido el contenido de un archivo PDB, y guiados por las indicaciones de investigadores del área de bioinformática, se selección un fragmento de datos correspondiente a proteínas, aminoácidos y átomos, los cuales fueron modelados usando el modelo de datos RDF. A continuación se implementó una herramienta que permite generar un archivo de datos RDF desde un archivo de datos PDB. Con la finalidad de evaluar la usabilidad de los datos, se diseñaron algunas consultas de prueba usando el lenguaje SPARQL. En términos de experimentos, un conjunto de proteínas fueron almacenadas en un sistema de bases de datos RDF,y luego se ejecutaron las consultas de prueba con la finalidad de medir el tiempo de respuesta. Finalmente, se implementó una herramienta que provee una interfazsencilla para ejecutar las consultas de prueba.La principal contribución de este trabajo es el manejo de datos biológicos, ya que la manipulación y análisis de los datos es menos compleja, comparado con el método tradicional que hoy en día utilizan los bioinformáticos. Esto permite que la búsqueda de patrones estructurales en las proteínas sea más rápido sin la necesidad de procesar los datos de forma manual y a la vez cuenta con un lenguaje de consulta estructurado llamado SPARQ

    Desarrollo de una interfaz gráfica para consultas SPARQL

    Get PDF
    87 p.RDEF – SPARQL son dos de los elementos más importantes que componen la Web Semántica. RDF define el modelo de datos estándar para representar información en la Web y SPARQL es el lenguaje que permite consultar los datos almacenados en base de datos RDF. El principal objetivo de este trabajo es el desarrollo de una interfaz gráfica que permite diseñar consulta SPARQL de una manera sencilla e intuitiva. El trabajo incluye una revisión de las ventajas y desventajas de las interfaces de consultas SPARQ existentes, además de un breve análisis de consulta, típicas realizadas sobre fuentes de datos RDF. En base a la información encontrada; se combinaron y probaron diversos elementos gráficos con el fin de elaborar una interfaz gráfica que facilite el diseño de consultas SPARQL. El principal resultado de este trabajo es una aplicación Web denominada IGC, la cual emplea elementos gráficos para seleccionar y componer distintos operadores SPARQL a través de una estructura de árbo

    Desarrollo de un benchmark para bases de datos de grafos orientado a consultas de caminos

    Get PDF
    154 p.A continuación se muestra el desarrollo de un benchmark para bases datos de grafos, el cual se enfoca en la evaluación de consultas de camino. La principal contribución de este trabajo es el estudio y definición de un método que permite una selección adecuada de datos de entrada para la generación de las instancias de consulta ejecutadas por el benchmark. Esto permite que los resultados de desempeño entregados por el benchmark sean comparables, es decir, que los tiempos de ejecución sean similares. De manera específica, primero se estudian diversas consultas de camino, esto con la finalidad de comprender el motivo de su complejidad. Luego, se definen y evalúan de manera empírica diversos métodos de selección de datos de entrada, esto con el objetivo de identificar el método más adecuado. El método seleccionado es comparado con un método tradicional basado en una selección aleatoria de datos de prueba. El método propuesto fue usado para extender un benchmark existente, lo cual implicó una modificación del generador de datos, el generador de operaciones y el evaluador de operaciones. Finalmente, el nuevo benchmark fue evaluado en dos sistemas de gestión de bases de datos de grafos

    Uso del método de compresión Re-Pair para disminuir el espacio requerido por los índices utilizados en espacios métricos basados en permutaciones

    Get PDF
    78 p.En bases de datos de objetos provenientes de un espacio métrico, las consultas de elementos se hacen por medio del método de búsqueda por proximidad o similitud entre los elementos. Para esto es necesario la indexación de estas bases de datos. El índice basado en permutaciones (IBP) resulta muy eficaz, con respecto a otros algoritmos de búsqueda por proximidad, para resolver este tipo de consultas. Pero en la práctica, los IBPs requieren utilizar una excesiva cantidad de espacio en memoria principal. Por consiguiente, el objetivo principal de esta memoria es comprimir estos índices aplicando el método de compresión Re-Pair. La comprención con Re-Pair consiste en reemplazar los pares de símbolos que más se repiten en las perforaciones con nuevos s´ımbolos simples. Para lograr esto, se implementa un algoritmo recursivo con estructuras de datos tales como Heaps Binarios y Tablas de Hash, con el fin de lograr una eficiente compresión, dado que por lo general se tienen que revisar millones de símbolos. El método propuesto se compara con la alternativa de compactar los IBPs. Esto consiste en guardar la representación binaria de cada IBP en una variable de máquina. La concatenación de la secuencia de bits formada representa un número considerado como índice compacto. Las pruebas experimentales se realizan con bases de datos vectoriales de baja y alta dimensionalidad. En donde se mide y compara el rendimiento y el grado compresión de los algoritmos. Re-Pair resulta ser muy efectivo para dimensionalidades bajas (en efecto, comprime hasta en un 92% en dimensió) El peor escenario evaluado, que corresponde a dimensión 1024, el IBP se comprime a un 46% del espacio original, mientras que el algoritmo compacto lo reduce a un 25%, pero tiene la desventaja que la descompactación del IBP es mucho más lenta que su descompresión. Para terminar, es necesario se˜nalar que reducir el espacio utilizado por el IBP en sí es bueno porque permite trabajar con volúmenes de datos más grandes sin tener que usar espacio en disco como memoria virtual. Hay que recordar que esto último mermaría considerablemente en el rendimiento de las consultas por el costo que emplearía el sistema operativo al realizar la paginación de memoria principal y virtual. Palabras claves: Espacio Métrico, Índice basado en Permutaciones, Re-Pair./ ABSTRACT: In object database from a metric space, queries made through elements of the search method by proximity or similarity between elements. This requires indexing such databases. The permutation-based index (IBP) is very e↵ective, with respect to other proximity search algorithms to solve such queries. But in practice, use IBPs require an excessive amount of space in main memory. Therefore, the main objective of this document is to compress these indexes using the compression methodRe-Pair. Compression with Re-Pair is to replace pairs of symbols that are repeated in permutations with new simple symbols. To accomplish this, a recursive algorithm is implemented using data structures such as Hash Tables and Heaps Binary, in order to achieve efficient compression, since they usually have to review million symbols. The proposed method is compared with the alternative of compact IBPs. This is to save the binary representation of each IBP variable machine. Concatenating the bit string formed represents an number considered compact index. Experimental testing with vector data bases low and high dimensionality. Where it is measured and compared to performance and degree of compression algorithms. Re-Pair is very e↵ective for low dimensionality (in fact compressed to 92% in dimension). The worst scenario evaluated, corresponding to dimension 1024, IBP is compressed to 46 % of the original space while the compact algorithm reduces to 25 %, but has the disadvantage that the de-compaction IBP is much slower its decompression. Finally, it should be noted that reducing the space used by the IBP itself is good because it allows you to work with bigger data volumes without using disk space as virtual memory. Remember that the latter significantly undermine the performance of queries for the cost that it would use the operating system to paging the main memory and virtual memory. Keywords: Metric Space, Permutation based Index, Re-Pair
    corecore