Search CORE

26 research outputs found

Recuperación eficiente de datos para el refinamiento de traducciones automáticas, utilizando la web como base de conocimiento

Author: Paredes Moraleda Rodrigo (Prof. Guía)
Yáñez Alarcón Danilo Alfonso
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2011
Field of study

82 p.La refinación de las traducciones automáticas pretende corregir ciertas ambigüedades que ocurren con los algoritmos que actualmente se usan en los motores de traducción, de modo de obtener textos cuya comprensión por parte del usuario final sea mejor. Nuestra propuesta se basa en tomar como fuente de conocimiento la Web, entorno donde en cada momento se esta publicando nueva información (revistas, libros, tesis, papers, investigaciones, noticias etc.), en diferentes lugares del mundo. En este estudio se considera que la unidad mínima de traducción es una frase. La maquina comunicacional considerada para llevar acabo el proceso de refinamiento considera tres etapas a saber: (1) La captura de información textual de la Web (que deja como resultado una base de datos que crece constantemente); (2) El indexamiento de la información recopilada; y posteriormente ,(3) algoritmos de búsqueda por similaridad que permiten encontrar la frase mas adecuada al contenido(contexto) del texto traducido. Esta memoria se enfoca principalmente en el indexamiento de frases y la resolución eficiente de diversos tipos de consultas para recuperaci´on de frases utilizando diferentes estructuras de datos y algoritmos que servir´an de apoyo al momento de tomar la decisi´on de las frases m´as apropiadas a fin de mejorar la calidad de la traducci´on. Esta memoria esta inmersa en un proyecto m´as complejo en que se estudian y proponen t´ecnicas que permite refinar las traducciones autom´aticas, previamente realizadas por motores de traducci´on al idioma espa˜nol, por ejemplo: Google Translate,Yahoo! Babel Fish, Systran entre otros. Dicha memoria se enfoca principalmente en la recuperaci´on eficiente de informacion textual como medio de apoyo (reflejada en un m´odulo de la aplicación) al proceso de refinamiento de traducciones automáticas, indexando y estructurando la informaci´on que ha sido obtenida de la Web. Palabras Clave: Recuperacion de Informacion, Indexaci´on, Indices invertidos, Lenguajes de consulta./ABSTRACT: Automatic translation refining aims to correct some ambiguities that occur when using algorithms that are currently operating on translation engines, so as to obtain texts than are more understandable by the end user. Our proposal is based on taking the Web as a knowledge source where every time new information (magazines,books, theses, papers, research, news, and so on) is being published in different parts of the world. In this study we consider that the minimum unit of translation is a phrase. The whole machinery required to carry out the refining process considers three stages, namely, (1) to capture textual information from the Web (this stage produces a phrase database that is constantly growing); (2) to index the information collected; and (3) similarity search algorithms that find the most appropriate phrase according to the content (context) of the translated text. In this study we consider that the minimum unit of translation is a phrase. While the whole project studies and proposes techniques that allow to refine automatic translations previously translated by a engine translations (for instance, Google Translate,Yahoo! Babel Fish, Systran) into Spanish; this work focuses primarily on the efficient retrieval of textual information as a mean of supporting the process of refining machine translations, indexing and structuring the information that has been obtained from the Web

DSpace Universidad de Talca

Diseño y Desarrollo de un Índice Basado en Hiperplanos para Búsqueda en Espacios Métricos

Author: Andrade Andrade José María
Paredes Moraleda Rodrigo (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2014
Field of study

109 p.La constante evolución de los datos en los últimos tiempos ha provocado que organizar la información con los métodos tradicionales se vuelva muy dificultoso. Es por esto que la investigación en esta área ha crecido bastante. Uno de los problemas más importantes al momento de administrar bases de datos con los métodos tradicionales, es que existen algunos conjuntos de datos donde la búsqueda exacta no tiene mayor sentido. En estos casos es necesario considerar la búsqueda por proximidad o similitud. Para enfrentar este nuevo problema los datos se pueden modelar como un espacio métrico (EM), que se de ne como el par (X; d), en que X denota el universo de objetos válidos y d una función de distancia (no negativa) entre cualquier par de objetos, que generalmente es costosa de calcular. Es por esta última razón que los EM se indexan con estructuras que permiten reducir el número de cálculos de distancia al momento de realizar búsquedas por similitud. Existen índices que permiten resolver consultas por similitud de forma exacta. Sin embargo, hay varios espacios métricos de interés práctico donde el rendimiento de estos índices decae. En estos casos existen alternativas no exactas, como por ejemplo el índice basado en permutantes (IBP). Este índice permite cambiar el espacio del problema a uno en donde es más barato calcular la distancia y de esta forma de finir un orden de revisión promisorio al momento de resolver las búsquedas. En esta memoria se proponen dos índices no exactos que utilizan una estrategia basada en el particionado por hiperplanos. En ellos cada elemento se representa con una firma binaria que es una secuencia de bits que se calcula a partir de los elementos que constituyen los hiperplanos. Similar al caso del IBP, al representar los elementos con firmas binarias se puede definir un orden promisorio de revisión. Una característica importante de este trabajo es la utilización de poco espacio de memoria. Para evaluar los índices propuestos, se realiza una comparación de rendimiento a mismo espacio de memoria utilizada con respecto al IBP. Los resultados obtenidos para el primer índice muestran un mejor comportamiento al momento de realizar búsquedas. Por su parte, aún cuando el segundo índice no logró superar a los permutantes es importante continuar con su investigación, ya que podría ser útil para categorizar a los elementos

DSpace Universidad de Talca

Construcción de grafos de k vecinos en espacios métricos de alta dimensionalidad

Author: Paredes Moraleda Rodrigo (Prof. Guía)
Sazo Rojas Alejandro Antonio
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2012
Field of study

101 p.Sea U un conjunto de elementos y d una función de distancia entre ellos. Sean NNk(u) los k elementos con la distancia más pequeña en U/U n fug de acuerdo a la función d. El grafo de k vecinos más cercanos (kNNG por sus siglas en inglés) es un grafo dirigido con peso G(U;E) que conecta a cada uno de los elementos con sus k vecinos más cercanos, es decir, E = f(u; v); 8u 2 U; v 2 NNk(u)g. La construcción del kNNG es una generalización directa del problema de todos los vecinos más cercanos (ANN por sus siglas en inglés), así que ANN corresponde al problema de construir el 1NNG. Los kNNGs son una parte central en muchas aplicaciones: detección de clusters y datos aislados, diseño VLSI (Very Large Scale Integration) y otras simulaciones de procesos físicos, reconocimiento de patrones, sistemas de consulta o recomendación de documentos, entre otros. Hay muchos algoritmos de construcción de kNNGs que asumen que los nodos son puntos en RD y d es la distancia Euclidiana o alguna distancia de la familia de distancias de Minkowski. Sin embargo, ese no siempre es el caso en muchas aplicaciones de los kNNGs. En esta memoria se proponen dos algoritmos que usan un índice llamado Lista de Clusters (tanto la implementación radicional, a menudo llamada LC como también la versión dinámica, a menudo llamada RLC), el cual es un índice métrico basado en particiones compactas. Se presentan resultados analíticos y experimentales para evaluar el comportamiento de los algoritmos y se comparan los resultados obtenidos con el algoritmo de construcción básico. El éxito de la Lista de Clusters (LC=RLC) en dimensiones altas radica en el hecho que cambia tiempo de construcción por tiempo de consulta. Esto se ve reflejado en los resultados experimentales. En efecto, la evaluación experimental muestra que los algoritmos tienen costos de la forma c1n1:12 para espacios métricos de baja y media dimensionalidad y c1n1:41 para espacios métricos de alta dimensionalidad. Palabras claves: kNNGs, espacios métricos./ABSTRACT: Let U be a set of elements and d a distance function among them. Let NNk(u) be the k elements in U n fug having the smallest distance to u according to the function d. The k-Nearest Neighbor Graph (kNNG) is a weighted directed graph G(U;E) connecting each element to its k-nearest neighbors, thus E = f(u; v); 8u 2 U; v 2 NNk(u)g. Building the kNNG is a direct generalization of the all-nearest- neighbor problem, so ANN corresponds to the 1NNG construction problem. kNNGs are central in many applications: cluster and outlier detection, VLSI design, spin glass and other physical process simulations, pattern recognition, query or document recommendation systems, and others. There are many kNNG construction algorithms which assume that nodes are points in RD and d is the Euclidean or some Lp Minkowski distance. However, this is not the case in several kNNG applications. In this work we propose two algorithms that use an index called List of Clusters (the traditional one, often called just LC for short and the dinamic version, often called just RLC for short), which is a metric space index based on compact partitions. We present analytical and experimental results to evaluate their behavior and compare our results with the basic construction algorithm.The key to success of the List of Clusters (LC=RLC) in high dimensions is that it trades construction time for query time. This can be appreciated in the experimental evaluation. As a matter of fact, our experimental results show that our algorithms have costs of the form c1n1:12 distance computations for low and medium dimensionality spaces, and c1n1:41 for high dimensionality spaces. keywords: kNNGs, metric spaces

DSpace Universidad de Talca

Desarrollo de un Framework enfocado en la localización de dispositivos en tiempo real en ambientes de interiores mediante la utilización de Tecnología Bluetooth

Author: Estay Cerda Elías Hernán
Ingram Benjamín Randall (Prof. Informante)
Paredes Moraleda Rodrigo (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2013
Field of study

72 p.En el mundo actual, las tecnologías ubicuas forman parte de nuestra vida cotidiana debido al uso masivo de dispositivos móviles, como los smartphones, que en su gran mayoría tienen incorporada la tecnología inalámbrica de baja frecuencia Bluetooth. Bluetooth es de manera innata una tecnología ubicua debido a transparencia y facilidad con la que se pueden crear redes personales entre distintos tipos de dispositivos que dispongan de ella y estén en modo visible, abriendo la posibilidad de aprovechar esta característica para obtener valiosa información de los usuarios que portan los dispositivos. Como obtener retroalimentación de las personas sin interactuar directamente con ellas?, Como saber cuál es el mejor lugar para colocar publicidad? Estas preguntas son muy importantes para el mundo empresarial debido al alto valor de la información para fines comerciales. Para resolver estas interrogantes, esta memoria se enfoca en proveer un mecanismo que sea capaz de registrar el comportamiento de dispositivos Bluetooth con respecto a su desplazamiento espacial en un contexto físico apropiado (como salas de eventos o departamentos de una tienda) involucrando el concepto de localización en tiempo real para poder obtener datos que permitan inferir patrones de comportamiento o desplazamiento de las personas que los portan

DSpace Universidad de Talca

Diseño e implementación de métricas de similitud entre frases

Author: Angles Rojas Renzo (Prof. Informante)
Araya Mora Valeria Alejandra
Paredes Moraleda Rodrigo (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2014
Field of study

156 p.Los servicios de traducción automática son sin duda una herramienta útil en la actualidad, puesto que ayudan en la comunicación facilitando la comprensión de ideas expresadas entre dos idiomas. Sin embargo, aún necesitan de mucho refinamiento porque en general cometen bastantes errores. En el caso particular entre Inglés - Español dado que ambos idiomas se basan en reglas gramaticales tan diferentes, las traducciones de un idioma al otro y viceversa se tornan complejas. Los errores no sólo son gramaticales sino que además las traducciones en ocasiones suelen ser literales perdiendo por completo el sentido de la idea que el texto original desea expresar.Esta memoria pretende colaborar con las mejoras a las traducciones automáticas específicamente entre los idiomas Inglés y Español, basándose en la idea de que se puede implementar una buena medida de calculo de similitud entre frases. El objetivo de una medida de este tipo es identificar y calificar frases candidatas a ser la mejor traducción para una frase que se traducen desde el Inglés al Español. Con esto, se pueden ofrecer más opciones de traducción para una idea y por ende, al ampliar la gama de opciones es posible capturar dentro de los resultados el real sentido que a una frase se le quiere impregnar.Para cumplir con lo anterior, en este trabajo se realiza una investigación sobre métodos existentes para medir similitud entre palabras, de los cuales se eligieron tres para su implementación. Luego del estudio de dichas medidas se realizan propuestas originales para medir similitud exclusivamente entre frases y que se complementen con las métricas para palabras. De esto surgen tres medidas bases: Distancia de Edición adaptada, Medida secuencial y Métrica básica, de las cuales sólo las dos primeras se refinan con implementaciones que incorporen funciones para medir similitud entre palabras.Finalmente, se testean las propuestas comprobando que en su conjunto son capaces de recuperar y posicionar bastante bien frases potenciales a ser mejores traducciones que una frase recibida en Español y que supone ha sido traducida desde el Ingles. Palabras claves: Traducción automática, similitud entre frases, noción básica de similitud, Distancia de Edición, Damerau-Levenshtein, WordNet./ABSTRACT:The machine translation services are certainly a useful tool at present, since they help in facilitating communication of ideas expressed understanding between two languages. However, much still needs refinement because generally commit numerous errors. In the particular case among English - Spanish since both languages ??are based on grammar rules so different translations from one language to another and vice versa become complex. Mistakes are not only grammatical but also sometimes translations are usually literal losing all sense of the idea that the original text wishes. This report aims to contribute to improvements specifically to automatic translations between English and Spanish, based on the idea that you can implement a good measure for calculating similarity between sentences. The aim of a measure of this type is to identify and qualify candidates for phrases best translation for a phrase translated from English to Spanish. With this, they can offer more translation options for an idea and thus to extend the range of options you can capture the results in the real sense as a phrase you want to impregnate. To accomplish this, in this paper an investigation of existing methods is performed to measure similarity between words, of which three were chosen for implementation. After studying original proposals such measures are performed to measure similarity between sentences only and that complement the metrics for words. Edit Distance adapted, sequential measurement and basic metrics, of which only the first two are refined implementations that incorporate functions to measure similarity between words this basis three measures arise. Finally, check that the proposals as a whole are able to recover well enough potential and position statements to be better received than a phrase translations in Spanish and has been translated means from English are tested. Keywords: Machine Translation, similarity between sentences, basic notion of similarity, Edit Distance, Damerau-Levenshtein, WordNet. actualidad, puesto que ayudan en la comunicación facilitando la comprensión de ideas expresadas entre dos idiomas. Sin embargo, a necesitan de mucho refinamiento porque en general cometen bastantes errores. En el caso particular entre Inglés -español Español dado que ambos idiomas se basan en reglas gramaticales tan diferentes, las traducciones de un idioma al otro y viceversa se tornan complejas. Los errores no sólo son gramaticales sino que además las traducciones en ocasiones suelen ser literales perdiendo por completo el sentido de la idea que el texto original desea expresar.Esta memoria pretende colaborar con las mejoras a las traducciones automáticas específicamente entre los idiomas Inglés y Español, basándose en la idea de que se puede implementar una buena medida de cálculo de similitud entre frases. El objetivo de una medida de este tipo es identificar y calificar frases candidatas a ser la mejor traducción para una frase que se traducen desde el Inglés al Español. Con esto, se pueden ofrecer más opciones de traducción para una idea y por ende, al ampliar la gama de opciones es posible capturar dentro de los resultados el real sentido que a una frase se le quiere impregnar.Para cumplir con lo anterior, en este trabajo se realiza una investigación sobre métodos existentes para medir similitud entre palabras, de los cuales se eligieron tres para su implementación. Luego del estudio de dichas medidas se realizan propuestas originales para medir similitud exclusivamente entre frases y que se complementen con las métricas para palabras. De esto surgen tres medidas bases: Distancia de Edición adaptada, Medida secuencial y Métrica básica, de las cuales sólo las dos primeras se refinan con implementaciones que incorporen funciones para medir similitud entre palabras. Finalmente, se testean las propuestas comprobando que en su conjunto son capaces de recuperar y posicionar bastante bien frases potenciales a ser mejores traducciones que una frase recibida en Español y que supone ha sido traducida desde el Inglés. Palabras claves: Traducción automatica, similitud entre frases, noción básica de similitud, Distancia de Edición, Damerau-Levenshtein, WordNet./ABSTRACT: The machine translation services are certainly a useful tool at present, since they help in facilitating communication of ideas expressed understanding between two languages. However, much still needs refinement because generally commit numerous errors. In the particular case among English - Spanish since both languages ??are based on grammar rules so different translations from one language to another and vice versa become complex. Mistakes are not only grammatical but also sometimes translations are usually literal losing all sense of the idea that the original text wishes. This report aims to contribute to improvements specifically to automatic translations between English and Spanish, based on the idea that you can implement a good measure for calculating similarity between sentences. The aim of a measure of this type is to identify and qualify candidates for phrases best translation for a phrase translated from English to Spanish. With this, they can offer more translation options for an idea and thus to extend the range of options you can capture the results in the real sense as a phrase you want to impregnate. To accomplish this, in this paper an investigation of existing methods is performed to measure similarity between words, of which three were chosen for implementation. After studying original proposals such measures are performed to measure similarity between sentences only and that complement the metrics for words. Edit Distance adapted, sequential measurement and basic metrics, of which only the first two are refined implementations that incorporate functions to measure similarity between words this basis three measures arise. Finally, check that the proposals as a whole are able to recover well enough potential and position statements to be better received than a phrase translations in Spanish and has been translated means from English are tested. Keywords: Machine Translation, similarity between sentences, basic notion of similarity, Edit Distance, Damerau-Levenshtein, WordNet

DSpace Universidad de Talca

API de reconocimiento de microexpresiones faciales utilizando algoritmos de Fisherface y Support Vector Machine

Author: Mardones Baeza Gonzalo Andrés
Paredes Moraleda Rodrigo (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2017
Field of study

88 p.El reconocimiento facial y de microexpresiones se ha convertido en los últimos años en una área de investigación activa, que abarca diversas disciplinas tales como procesamiento de imágenes, reconocimiento de patrones, visión por computadora y redes neuronales. El objetivo del reconocimiento facial es el siguiente: dada una imagen de una cara “desconocida”, o imagen de test, encontrar una imagen de la misma cara en un conjunto de imágenes “conocidas” o imágenes de entrenamiento. Apple, Google, Facebook, entre otras empresas utilizan estos algoritmos para ayudar a sus usuarios en procesos de reconocimiento y etiquetado de fotos. Hoy en día el método tradicional de reconocimiento facial que presenta mejores resultados es Fisherface, ya que demuestra un desempeño superior tanto para imágenes con variación de iluminación como de pose. Machine Learning es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. Support Vector Machine (SVM) es una algoritmo de aprendizaje supervisado que está relacionado con dar solución a los problemas de clasificación y regresión. Esta memoria desarrollada en el lenguaje de programación Python, implementa una API reconocimiento facial que utiliza el algoritmo de Fisherface y el clasificador de SVM para la clasificación de microexpresiones oculares que permita validar en modo no presencial a la persona que se encuentra en una imagen y además pueda detectar si se encuentra con las cejas arriba o en estado normal. Para determinar el correcto funcionamiento de la API, se realizan pruebas de exactitud en los modelos de reconocimiento facial y de microexpresiones oculares. La variable que define la precisión del modelo de reconocimiento facial se llama confianza. Los resultados obtenidos determinan que si la confianza se encuentra bajo el valor 500, indica que la imagen consultada corresponde a la persona buscada. Asimismo los registros de las personas poseen imágenes con variaciones de iluminación y poses. Las pruebas de coste utilizando un kernel lineal del clasificador SVM, dio por resultado que el modelo de microexpresiones oculares posee una precisión del 92,2% utilizando una base de datos de 1,106 imágenes

DSpace Universidad de Talca

Gestión y Desarrollo de un Sistema de Información Radiológica

Author: Espinoza Vidal Sonia Elízabeth
Paredes Moraleda Rodrigo (Prof. Guía)
Rojas Valdés Pablo (Prof. Informante)
Velozo Inostroza Carlos (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2012
Field of study

124 p.La información es un recurso de gran importancia para cualquier actividad. En particular, en medicina es un recurso vital, pues está directamente relacionada con la vida de las personas. El historial médico de un paciente influye en la toma de decisiones al momento de evaluar su estado de salud; he aquí la importancia de poder reunir dichos datos de forma organizada para acceder a ellos con prontitud y precisión.Hoy en día, registrar la información en papel sigue siendo una práctica utilizada por algunos centros médicos. En efecto, la mayoría de ellos sólo utiliza pequeños sistemas enfocados principalmente en la gestión, manteniendo la ficha del paciente en papel, lo que implica más tiempo en la recepción, atención y diagnóstico. Por otro lado, estan los grandes centros médicos y hospitales capaces de invertir millones de pesos en grandes sistemas de información médica; los cuales abarcan la parte administrativa,de gestiçon y además reúnen la información del paciente generando un historial digital.Uno de los aspectos específicos que aborda la informática médica es la administración de centros medicos enfocados en alguna especialidad, tales como kinesiología, laboratorios, radiología, entre otros. En esta memoria se presenta la gestión y el desarrollo de un sistema de información radiológico, tambien conocido como RIS (por sus siglas en inglés Radiology Information System), el cual satisface las necesidades referentes al manejo de la información en los recintos radiológicos de salud. El sistema abarca todo el procedimiento de un centro radiológico, desde que el paciente agenda la hora de atención hasta retirar el informe creado por el radiólogo;considerando elementos de la gestión tales como reportes del proceso, los ingresos y número de pacientes por día, entre otros. Además maneja detalles como el uso de plantillas para los informes, manejo de garantías en el módulo de pago, gestión de tareas y gestión permisos de usuario. Por último, esta es una plataforma tecnológica que ayuda a disminuir la brecha digital ya que está enfocada a satisfacer las necesidades de centros médicos pequeños y medianos de nuestro país

DSpace Universidad de Talca

Diseño de un workload real para un benchmark de bases de datos orientadas a grafos

Author: Angles Rojas Renzo (Prof. Guía)
Bardeen Matthew (Prof. Informante)
Orellana Galaz Mauricio
Paredes Moraleda Rodrigo (Prof. Informante)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2017
Field of study

82 p.Junto al surgimiento de aplicaciones que requieren almacenar y analizar grandes cantidades de información no estructurada y compleja, surgen tambien los sistemas de gestión de bases de datos orientadas a grafos (SGBDG). Estos sistemas se caracterizan porque su enfoque no está en gestionar datos de forma individual y aislada,sino que ponen énfasis en las relaciones existentes entre dichos datos. El surgimiento de los SGBDG trae consigo la necesidad de realizar benchmarking sobre ellos a modo de poder establecer comparaciones. En este contexto, GDBench es un benchmark enfocado a evaluar el rendimiento de sistemas de bases de datos considerando como caso de uso una red social. Sin embargo, la carga de trabajo (workload) de GDBench no representa un escenario real. En efecto, el workload utilizado por GDBench era aleatorio, no considerando una lógica desde el punto de vista del orden en el que eran ejecutadas las operaciones. En esta memoria se presenta el desarrollo de un workload real, basado en el análisis de una red social existente (Facebook), para GDBench. El nuevo workload simula el comportamiento de un conjunto de usuarios interactuando en la red social definida por el esquema de datos de GDBench, combinando un conjunto de 6 consultas interactivas y 6 consultas analíticas. El benchmark resultante fue evaluado sobre cuatro sistemas de bases de datos, considerando aquellas orientadas a grafos (Sparksee y Neo4j), RDF (Apache Jena) y relacional (PostgreSQL). Sobre cada uno de los sistemas de bases de datos se ejecut o el workload aleatorio y el workload real. Al realizar la comparación de resultados, se obtuvo que si bien se produjeron diferencias en los tiempos de ejecución de las consultas que conformaban el workload, éstas no fueron lo su cientemente signi cativas como para alterar los resultados del proceso de benchmarking. Como trabajo futuro se plantea un uso más intensivo del benchmark para evaluar la influencia del workload en el proceso de benchmarking. Palabras claves: SGBDG, BDOG, Benchmarking, Work ow, Workload./ABSTRACT: Along with the emergence of applications that require storing and analyzing large amounts of unstructured and complex information, graph database management systems (GDBMS) also emerge. These systems are characterized because their approach is not to manage data in an individual and isolated way, but rather they emphasize the relations existing between the data. The emergence of GDBMS brings with it the need to perform benchmarking on these systems so that comparisons can be made. In this context, GDBench is a benchmark oriented to evaluate the performance of database systems considering social network as a use case. However, GDBench's workload does not represent a real scenario. In fact, the workload used by GDBench was random, not considering a logic from the point of view of the order in which the operations were executed. In this document we present the development of a real workload, based on the analysis of an existing social network (Facebook). The new workload simulates the behavior of a set of users interacting in the social network de ned by the GDBench data schema, combining a set of 6 interactive queries and 6 analytic queries. The resulting benchmark was evaluated on four database systems, considering those oriented to graphs (Sparksee and Neo4j), RDF (Apache Jena) and relational (PostgreSQL). Over each database system was executed either the random workload and the real workload. When we compared the results we found that there were differences in the execution times of the queries, but the di erences were not signi cant enough to alter the results of the benchmarking process. As future work, we propose a more intensive use of the benchmark to evaluate the influence of workload in the benchmarking process

DSpace Universidad de Talca

Heurísticas para el problema del vendedor viajero robusto con incertidumbre intervalar

Author: Candia Véjar Alfredo (Prof. Guía)
Espinoza González Daniel (Prof. Guía)
Mardones Saavedra Julio Alfredo
Paredes Moraleda Rodrigo (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Facultad de Ingeniería
Publication date: 01/01/2011
Field of study

141 p.Esta tesis aborda el Problema del Vendedor Viajero Robusto con incertidumbre intervalar en los costos, utilizando el criterio de Min-Max Regret.Varios algoritmos son implementados, inclusive uno exacto mediante Descomposición de Benders, pero sólo con propósitos comparativos. En relación a las heurísticas, se desarrolla una nueva llamada n-HU que extrae un número determinado de tours en base al costo robusto considerando el escenario del peor caso, entregando el mejor tour en términos del regret. Se proponen metaheurísticas basadas en Búsqueda Local con diferentes opciones que aprovechan de mejor forma la estructura particular del problema.Se realiza una comparación desde un punto de vista experimental, mostrando un buen desempeño relativo, pues se mejoran los resultados existentes y se hace más evidente la influencia de la complejidad del problema base (TSP) sobre el desempeño de las heurísticas.Palabras clave: Incertidumbre, Min-Max Regret, Problema del Vendedor Viajero./ABSTRACT:This thesis addresses The Robust Traveling Salesman Problem with interval uncertainty in data costs, using the Min-Max Regret criterion. Several algorithms are implemented, including an exact one by Benders Decomposition, but only for comparative purposes. Regarding heuristics, a new approach is developed, it is called n-HU, and extracts a specific number of tours based on robust cost considering the worst case scenario, returning the best tour in terms of regret. Metaheuristics based on Local Search are also implemented with different options to better exploit the structure of the problem. A comparison is made from an experimental point of view; showing a relative good performance, because actual results are improved and it makes evident in a clearer way the influence of the base problem complexity on the heuristics performance. Keywords: Uncertainty, Min-Max Regret, Traveling Salesman Problem

DSpace Universidad de Talca

Diseño de una interfaz gráfica para búsqueda de patrones estructurales en el Protein Data Bank

Author: Astudillo Hernández César Alejandro (Prof. Informante)
Cisterna Vásquez Diego Alejandro Andrés
Paredes Moraleda Rodrigo (Prof. Guía)
Publication venue: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Publication date: 01/01/2017
Field of study

114 p.La estructura que posee la materia define sus propiedades y funciones. En las últimas décadas, gracias a los avances de la ciencia y la tecnología, investigadores han utilizado variadas técnicas para determinar la estructura de macromoléculas tales como proteínas, ADN y ARN. La información conseguida es útil para describir las interacciones que se dan entre moléculas, y así poder entender las estructuras y funciones que permiten muchos procesos biológicos importantes. El volumen de información de macromoléculas que se maneja hoy en día es muy grande. Por esto se han creado bancos de datos que intentan unificar y mantener accesible la información a nivel global. Este es el caso del Protein Data Bank (PDB). Sin embargo, poder analizar los datos almacenados es una tarea difícil, que solo se lleva a cabo mediante herramientas de software especializadas. La mayor a de las herramientas disponibles actualmente poseen interfaces estándar y se limitan a realizar búsquedas a través de formularios, con los cuales no se pueden elaborar consultas avanzadas que entreguen datos realmente trabajados. Para efectuar una consulta compleja, las herramientas ofrecen confeccionarlas y ejecutarlas directamente, por ejemplo, en código SQL o a través de lenguajes de programación. Este proyecto se enfoca en entregar una solución práctica para un problema específico, la búsqueda de patrones estructurales a nivel de interacción entre un ligando y los aminoácidos que lo rodean, en su sitio de unión en las macromoléculas. La solución consiste en el diseño de una interfaz gráfica que permita dar forma a un patrón estructural basado en elementos de grafo, y que luego tal patrón sea transformado en una consulta SQL para buscar coincidencias dentro de una base de datos relacional que contiene la información de PDB. Respecto a las contribuciones, en este proyecto se implementó un prototipo funcional que satisface las necesidades originadas por el problema abordado, el prototipo fue validado, y evaluado positivamente por un grupo de usuarios cualificados. Además, en el proceso se desarrolló un método que permite transformar asociaciones de pares de componentes gráficos en consultas SQL, y que al unirlas pueden representar patrones estructurales de alta complejidad. Por último, el aporte a la comunidad científica es facilitar el estudio de estructuras por medio de una interfaz comprensible y fácil de usar, que revoluciona el modo de interacción habitual.Palabras clave : Patrones estructurales , Interacciones proteína-ligado , Interfaz gráfi ca de usuario ,Sitio de unión, PD

DSpace Universidad de Talca