7 research outputs found

    Indexing Metric Spaces for Exact Similarity Search

    Full text link
    With the continued digitalization of societal processes, we are seeing an explosion in available data. This is referred to as big data. In a research setting, three aspects of the data are often viewed as the main sources of challenges when attempting to enable value creation from big data: volume, velocity and variety. Many studies address volume or velocity, while much fewer studies concern the variety. Metric space is ideal for addressing variety because it can accommodate any type of data as long as its associated distance notion satisfies the triangle inequality. To accelerate search in metric space, a collection of indexing techniques for metric data have been proposed. However, existing surveys each offers only a narrow coverage, and no comprehensive empirical study of those techniques exists. We offer a survey of all the existing metric indexes that can support exact similarity search, by i) summarizing all the existing partitioning, pruning and validation techniques used for metric indexes, ii) providing the time and storage complexity analysis on the index construction, and iii) report on a comprehensive empirical comparison of their similarity query processing performance. Here, empirical comparisons are used to evaluate the index performance during search as it is hard to see the complexity analysis differences on the similarity query processing and the query performance depends on the pruning and validation abilities related to the data distribution. This article aims at revealing different strengths and weaknesses of different indexing techniques in order to offer guidance on selecting an appropriate indexing technique for a given setting, and directing the future research for metric indexes

    A Survey on Spatial Indexing

    Get PDF
    Spatial information processing has been a centre of attention of research in the previous decade. In spatial databases, data related with spatial coordinates and extents are retrieved based on spatial proximity. A large number of spatial indexes have been proposed to make ease of efficient indexing of spatial objects in large databases and spatial data retrieval. The goal of this paper is to review the advance techniques of the access methods. This paper tries to classify the existing multidimensional access methods, according to the types of indexing, and their performance over spatial queries. K-d trees out performs quad tress without requiring additional memory usage

    Uma proposta para execução de consultas complexas em uma grande base de dados de imagens horizontalmente fragmentada

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014.Sistemas de recuperação de informação têm se tornado cada vez mais populares e eficientes. Porém, a recuperação de objetos complexos (e.g., imagens, vídeos, séries temporais) ainda apresenta enormes desafios, principalmente quando envolve similaridade de conteúdo. O problema se torna ainda mais intrincado se as condições de busca incluem predicados convencionais conectados logicamente à predicados baseados em similaridade. A otimização de tais consultas é um problema em aberto hoje em dia. Este trabalho valida uma proposta para melhorar o desempenho de consultas que podem ser expressas por conjunções de predicados convencionais e baseados em similaridade. Tal proposta utiliza fragmentação de dados, segundo predicados diversos e compatíveis com predicados utilizados em consultas. A validação da proposta é feita sobre uma grande base de dados chamada CoPhIR a respeito de imagens, com dados convencionais a elas relacionados. Esta base é manipulada em um sistema de banco de dados relacional com extensões para o tratamento de predicados baseados em similaridade, caracterizada segundo a distribuição do seu conteúdo, fragmentada e indexada, com métodos de acesso convencionais e métricos. Verificou-se um melhor desempenho na execução de algumas consultas com cláusulas conjuntivas para filtragem de dados utilizando os fragmentos propostos do que sobre a base completa.Abstract : Information retrieval systems are growing in popularity and efficiency. However, the retrieval of complex data (e.g., images, video, temporal series) presents huge challenges yet, particularly when it involves content similarity. The problem becomes even more intricate if the search condition includes conventional predicates logically connected to similarity-based predicates. The optimization of such queries is an open problem nowadays. This work validates a proposal for improving the performance of queries that can be expressed by conjunctions of conventional predicates and similarity-based predicates. This proposal employs data fragmentation, according to diverse predicates, that are compatible with the predicates used in queries. The validation of this proposal is done on a large image database, named CoPhIR with conventional data associated with the images. This database is handled in a relational database system with extensions for coping with similarity-based predicates, characterized according to contents distribution, fragmented and indexed, for efficient access with conventional methods and metric methods. The result of the experiments shows that for some queries with conjunctive filtering clauses were executed more efficiently on fragments than by accessing the complete database

    Estruturas de dados métricas genéricas em memória secundária

    Get PDF
    Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial para obtenção do grau de Mestre em Engenharia InformáticaÀ medida que a complexidade dos tipos de dados modernos foi crescendo, os espaços métricos tornaram-se num paradigma popular para pesquisas por similaridade. Devido aos formatos complexos dos dados (e.g. vídeos, imagens ou sons) e também à elevada quantidade de informação, é crucial poupar tempo neste tipo de pesquisas, evitando que se analisem todos os objectos da base de dados cada vez que uma procura é efectuada. O tempo dispendido está directamente relacionado com o número de cálculos de distância entre dois objectos e com o número de acessos a disco. Sendo assim, o principal objectivo de qualquer estrutura de dados métrica implementada em memória secundária é minimizar essas duas quantidades. Neste trabalho é apresentada a Recursive Lists of Clusters 2 (RLC2), uma estrutura de dados métrica genérica, dinâmica e implementada em memória secundária. Esta estrutura é uma variante de outra estrutura de dados, a Recursive Lists of Clusters (RLC) [Mam07]. Adicionalmente, estudam-se várias estruturas de dados inseridas no mesmo âmbito que a RLC2 e apresentam-se os resultados de uma bateria de testes que comparam os seus desempenhos. Nos testes efectuados, a RLC2 revelou-se muito eficiente nas pesquisas por proximidade e muito competitiva nas inserções de objectos

    Exploração do uso de short-term memory na construção de métodos de acesso métricos dinâmicos sobre a perspectiva de diferentes políticas de divisão de nós

    Get PDF
    This work proposes the development of a new approach using a structure called shortterm memory for the construction of dynamic MAMs derived from Slim-Tree. The goal is to minimize the overlap of nodes in the structure and, consequently, to optimize similarity queries. The strategy is based on postponing the indexing process to allow inserting, in the same index entry, new objects with closer distances. In addition, different node split policies were employed, which allowed to measure the impacts of these in what refers to the quality of the resulting structures, mainly with respect to the degree of overlap. The proposed new methods were evaluated by real and synthetic datasets and compared with the original MAM Slim-tree. The results of the experiments were significant with respect to the quality of the resulting trees, which consequently impacted on better efficiency in similarity query operations, significantly reducing the number of distance calculations, the number of disk page accesses and the execution time of k-nearest neighbors.Dissertação (Mestrado)Este trabalho propõe o desenvolvimento de uma nova abordagem utilizando uma estrutura denominada short-term memory, para a construção de Métodos de Acesso Métricos dinâmicos derivados da Slim-Tree. Deste modo, o objetivo é minimizar a sobreposição das estruturas e, consequentemente, otimizar as operações de consulta por similaridade. A estratégia para alcançar este objetivo, fundamenta-se em adiar o processo da indexação para contabilizar no índice novos objetos com distâncias próximas. Além disso, foram empregadas distintas políticas de divisão de nós, o que permitiu mensurar os impactos destas no que refere-se a qualidade das estruturas resultantes, principalmente com relação ao grau de sobreposição. Os novos métodos propostos foram avaliados por conjunto de dados reais e sintéticos e comparados com MAM Slim-tree original. Os resultados dos experimentos foram significativos com relação à qualidade das árvores resultantes o que, consequentemente, impactou em melhor eficiência nas operações de consulta por similaridade, ao reduzir significativamente o número de cálculos de distância, a quantidade de acessos a páginas de disco e, consequentemente, o tempo de execução de consultas aos k-vizinhos mais próximos

    Parametrização da estrutura de dados métrica RLC

    Get PDF
    Dissertação para obtenção do Grau de Mestre em Engenharia InformáticaEm muitas aplicações, existe a necessidade de pesquisar objectos semelhantes ou próximos de um objecto dado. Exemplos desses objectos incluem imagens médicas ou de rostos, sequências de proteínas ou de ADN, palavras de uma língua ou trajectórias de furacões. As pesquisas por proximidade podem ser formalizadas no contexto de espaços métricos, onde a semelhança entre dois elementos do domínio é medida através da função de distância. Como, em geral, as bases de dados possuem muitos elementos e o cálculo da distância entre dois objectos é uma operação cara, foram desenvolvidas estruturas de dados que tentam minimizar o número de distâncias calculadas durante as pesquisas deste tipo, designadas por estruturas de dados métricas. Nesta tese, faz-se um levantamento dos espaços métricos mais frequentemente usados nos testes de desempenho das estruturas de dados métricas. Depois, descreve-se a evolução da estrutura de dados métrica Recursive Lists of Clusters (RLC), caracterizando-se as suas variantes. O desempenho da RLC, tal como o de qualquer estrutura de dados métrica parametrizada, depende fortemente dos valores dos seus parâmetros. O problema é que os valores mais adequados a cada espaço métrico têm sido encontrados por observação de resultados experimentais, tornando o processo de parametrização pouco fiável e muito moroso. Para atacar esta questão, propõe-se uma nova variante da RLC cujos valores dos parâmetros dependem de valores extraídos do espaço métrico. Os resultados experimentais, que envolvem quinze espaços métricos de diferentes domínios, mostram que a nova variante é mais eficiente do que a anterior
    corecore