Search CORE

8 research outputs found

SHRuB: searching through heuristics for the better query-execution plan

Author: Bêdo Marcos Vinícius Naves
Olmes-Carvalho Luiz
Pierro Gabriel Vicente de
Traina Junior Caetano
Publication venue: Curitiba
Publication date
Field of study

An important aspect to be considered for systems aiming at integrating similarity-queries into RDBMS is how to represent and optimize query-plans that involve traditional and complex predicates. Toward developing facilities for such integration, we developed a technique to extract a canonical queryplan command tree from an similarity-extended SQL expression. The SHRuB tool, presented in this paper, is able to interactively represent a query parsetree. We developed a catalog model which allows estimating the execution cost as well as provides hints for optimizing the query-plan by adopting a three stage heuristic. Through a case study and initial experiments, we have demonstrated that the tool is able to find a local-minimum query-execution plan. Moreover, SHRuB can be plugged on existing frameworks that support similarity queries or employed as a course-ware aid for database teaching.FAPESPCNPqCAPE

Universidade de São Paulo

Diversity in similarity joins

Author: Carvalho Luiz Olmes
Oliveira Willian Dener de
Santos Lúcio Fernandes Dutra
Traina Junior Caetano
Traina Agma Juci Machado
Publication venue: Cham
Publication date
Field of study

With the increasing ability of current applications to produce and consume more complex data, such as images and geographic information, the similarity join has attracted considerable attention. However, this operator does not consider the relationship among the elements in the answer, generating results with many pairs similar among themselves, which does not add value to the final answer. Result diversification methods are intended to retrieve elements similar enough to satisfy the similarity conditions, but also considering the diversity among the elements in the answer, producing a more heterogeneous result with smaller cardinality, which improves the meaning of the answer. Still, diversity have been studied only when applied to unary operations. In this paper, we introduce the concept of diverse similarity joins: a similarity join operator that ensures a smaller, more diversified and useful answers. The experiments performed on real and synthetic datasets show that our proposal allows exploiting diversity in similarity joins without diminish their performance whereas providing elements that cover the same data space distribution of the non-diverse answers.FAPESPCNPQCAPESRescuer (EU Commission Grant 614154 and CNPQ/MCTI Grant 490084/2013-3)International Conference on Similarity Search and Applications - SISAP (8. 2015 Glasgow

Object-Injection: Um Framework de Indexação e Persistência.

Author: CARVALHO Luiz Olmes
Publication venue
Publication date: 16/12/2015
Field of study

O modelo orientado a objetos tem se tornado o padrão para desenvolvimento de sistemas de informação. Isto faz com que sejam criadas cada vez mais classes de negócio, que são instanciadas inúmeras vezes e geram uma superpopulação de objetos. Em muitos cenários, esses objetos devem mudar seu estado de transiente para tornar-se persistentes. Essa necessidade por persistência de objetos faz com que surjam diversas soluções não padronizadas pelo Object Data Management Group (ODMG). Algumas dessas soluções utilizam frameworks para realizar o mapeamento de objetos para relações em Sistemas Gerenciadores de Banco de Dados (SGBD). Tais frameworks, vinculados à camada de aplicação do usuário, delegam-na a responsabilidade de definir quais objetos ou classes usuárias serão persistidas. Entretanto, são raros os frameworks de persistência orientados a objetos que lidam com a criação de índices, usando estruturas como a Árvore B, Árvore M e Árvore R. Este trabalho apresenta um framework NoODMG para indexação e persistência de objetos. A persistência de objetos é realizada usando índices primários e a indexação de chaves através de índices secundários. A principal característica do framework proposto é permitir que os objetos sejam injetados em quaisquer estruturas de dados, que podem estar armazenadas em quaisquer dispositivos. Este framework está dividido em quatro módulos baseados em padrões de projeto. De acordo com os experimentos, suas abstrações alcançaram melhorias significativas de desempenho em relação à outras alternativas. Além disso, seu mecanismo de persistência não necessita de SGBDs Relacionais

Repositório UNIFEI

Object-Injection: Um Framework de Indexação e Persistência.

Author: CARVALHO Luiz Olmes
Publication venue
Publication date: 16/12/2015
Field of study

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositório UNIFEI

Physical binary operators for similarity queries in RDBMS

Author: Carvalho Luiz Olmes
Publication venue: 'Universidade de Sao Paulo, Agencia USP de Gestao da Informacao Academica (AGUIA)'
Publication date: 26/03/2018
Field of study

O operador de Junção é um operador importante da Álgebra Relacional que combina os pares de tuplas que atendem a uma dada condição de comparação entre os valores dos atributos de duas relações. Quando a comparação avalia a similaridade entre pares de valores, o operador é chamado Junção por Similaridade. Esse operador tem aplicações em diversos contextos, tais como o suporte de tarefas de mineração e análise de dados em geral, e a detecção de quase-duplicatas, limpeza de dados e casamento de cadeias de caracteres em especial. Dentre os operadores de junção por similaridade existentes, a Junção por Abrangência (range join) é a mais explorada na literatura. Contudo, ela apresenta limitações, tal como a dificuldade para se encontrar um limiar de similaridade adequado. Nesse contexto, a Junção por k-vizinhos mais próximos (knearest neighbor join kNN join) é considerada mais intuitiva, e portanto mais útil que o range join. Entretanto, executar um kNN join é computacionalmente mais caro, o que demanda por abordagens baseadas na técnica de laço aninhado, e as técnicas existentes para a otimização do algoritmo são restritas a um domínio de dados em particular. Visando agilizar e generalizar a execução do kNN join, a primeira contribuição desta tese foi o desenvolvimento do algoritmo QuickNearest, baseado na técnica de divisão e conquista, que é independente do domínio dos dados, independente da função de distância utilizada, e que computa kNNjoins de maneira muito eficiente. Os experimentos realizados apontam que o QuickNearest chega a ser 4 ordens de magnitude mais rápido que os métodos atuais. Além disso, o uso de operadores de junção por similaridade em ambientes relacionais é problemático, principalmente por dois motivos: (i)emgeral o resultado tem cardinalidade muito maior do que o realmente necessário ou esperado pela maioria das aplicações de análise de dados; e (ii) as consultas que os utilizam envolvem também operações de ordenação, embora a ordem seja um conceito não associado à teoria relacional. A segunda contribuição da tese aborda esses dois problemas, tratando os operadores de junção por similaridade existentes como casos particulares de um conjunto mais amplo de operadores binários, para o qual foi definido o conceito de Wide-joins. Os operadores wide-joins recuperam os pares mais similares em geral e incorporam a ordenação como uma operação interna ao processamento, de forma compatível com a teoria relacional e que permite restringir a cardinalidade dos resultados a tuplas de maior interesse para as aplicações. Os experimentos realizados mostram que os wide-joins são rápidos o suficiente para serem usados em aplicações reais, retornam resultados de qualidade melhor do que os métodos concorrentes e são mais adequados para execução num ambiente relacional do que os operadores de junção por similaridade tradicionais.Joins are important Relational Algebra operators. They pair tuples from two relations that meet a given comparison condition between the attribute values. When the evaluation compares the similarity among the values, the operator is called a Similarity Join. This operator has application to a variety of contexts, such as supporting data mining tasks and data analysis in general, and near-duplicate detection, data cleaning and string matching in particular. Among the existing types of similarity joins, the range join is the most explored one in the literature. However, it has several shortcomings, such as the diculty to find adequate similarity thresholds. In such context, the k-nearest neighbors join (kNN join) is considered more intuitive, and therefore more useful than the range join. However, the kNN join execution is computationally well more expensive, thus demanding implementations either based on nested loop techniques, which are generic, or on optimizing techniques but that are specific data given domains. In order to accelerate and generalize kNN join execution, the first contribution of this thesis was the development of the QuickNearest algorithm, based on the divide and conquest approach that is independent of the data domain, independent of the distance function used, and that computes kNN joins very eciently. Experiments performed with the QuickNearest algorithm show that it is up to four orders of magnitude faster than current methods. Nevertheless, using similarity join operators in relational environments remains generally troublesome, due to two main reasons: (i) the result often has a cardinality much larger than what is actually needed or expected by most of the data analysis applications; and (ii) queries that use them almost always also require sorting operations, but order concept is not present in the relational theory. The second contribution of the thesis addresses these two problems through the definition of the concept of Wide-joins, which turns the existing similarity join operators just as particular cases of a more powerful set of binary operators. Awide-join operator retrieves the pairs most similar in general and already incorporates ordering as an internal operation to its processing, what makes it fully compatible with the relational theory. The concept also provides powerful ways to restrict the result cardinality just to tuples really meaningful for the applications. In fact, the experiments have also shown that wide-joins are fast enough to be useful for real applications, they return results of better quality than competing methods, and are more suitable for execution in a relational environment than the traditional similarity join operators

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Biblioteca Digital de Teses e Dissertações

MedInject: a general-purpose information retrieval framework applied in a medical context

Author: Carvalho Luiz Olmes
Seraphim Enzo
Seraphim Thatyana F. P.
Traina Junior Caetano
Traina Agma Juci Machado
Publication venue: New York
Publication date
Field of study

The continuous improvement of medical software and instrumentation have contributed to generate large amounts of medical image data. Thus, plenty of Content-Based Image Retrieval systems have emerged in order to index and retrieve images according to similarity criteria. Some of those systems are applied in very specific domains, such as mammography, lung or spine exams. Others, however, are general-purpose applications that can be adopted in a medical environment. In such context, we realized those specific systems could benefit from the facilities brought by generic frameworks and propose our solution. This article presents a novel information retrieval core framework that performs both indexing and similarity search operations over medical image data sets. The framework follows a modular architecture based on Design Patterns and can be easily extended, allowing to other system developers to take advantages of its functions by using the provided interfaces. We performed extensive experiments evaluating several of its properties and target abstractions using medical real data, and show that it allows the implementation to achieve proper similarity retrieval and significant performance improvements in relation to the existing alternatives.CAPESCNPQFAPEMIGFAPES