3 research outputs found

    Algorithms and Data Structures for In-Memory Text Search Engines

    Get PDF

    Técnicas de compresión e estruturas de indexación compactas para texto en linguaxe natural e contidos dixitais: aplicacións prácticas

    Get PDF
    [Resumo] A aplicación dos resultados da investigación ao desenvolvemento software permite crear sistemas innovadores que resolven problemas, organizan procesos ou ofrecen servizos á sociedade dun modo máis eficaz e eficiente. Na primeira parte desta tese preséntanse dúas novas técnicas da área de investigación en compresión e indexación de texto en linguaxe natural. Dunha banda, un autoíndice de palabras que permite obter unha representación comprimida do texto empregando tan só un 35–40% do seu tamaño orixinal, á vez que realizar buscas moi eficientes dentro del. Doutra banda, un compresor orientado a frases que permite reducir un texto até ocupar un 25–30% do seu tamaño orixinal, ofrecendo unha descompresión moi rápida e a posibilidade de realizar buscas eficientes no texto comprimido. Na segunda parte preséntanse distintas solucións tecnolóxicas que desenvolvemos e integramos en sistemas reais en produción para resolver diferentes aspectos relacionados co consumo de contidos dixitais, como a súa creación e distribución protexida, e como estas fan uso de diferentes resultados da investigación en compresión e indexación para mellorar a eficiencia no almacenamento, acceso, procesado e transmisión dos contidos de natureza textual.[Resumen] La aplicación de los resultados de la investigación al desarrollo software permite crear sistemas innovadores que resuelven problemas, organizan procesos o que ofrecen servicios a la sociedad de una forma más eficaz y eficiente. En la primera parte de esta tesis se presentan dos nuevas técnicas del área de investigación en compresión e indexación de texto en lenguaje natural. Por una parte, un autoíndice que permite obtener una representación comprimida del texto utilizando tan solo un 35–40% de su tamaño original, a la vez que realizar búsquedas muy eficientes dentro de él. Por otra parte, un compresor orientado a frases que permite reducir un texto hasta ocupar un 25–30% de su tamaño original, ofreciendo una descompresión muy rápida y la posibilidad de realizar búsquedas eficientes en el texto comprimido. En la segunda parte se presentan distintas soluciones tecnológicas que hemos desarrollado e integrado en sistemas reales en producción para resolver diferentes aspectos relacionados con el consumo de contenidos digitales, como su creación y distribución protegida, y cómo estas hacen uso de diferentes resultados de la investigación en compresión e indexación para mejorar la eficiencia en el almacenamiento, acceso, procesado y transmisión de los contenidos de naturaleza textual.[Abstract] The application of research results to software development allows creating innovative systems that solve problems, organize processes or provide services for the society in a more effective and efficient manner. In the first part of this thesis, we present two new techniques in the research area of compression and indexing of natural language texts. On the one hand, a self-index that obtains a compressed representation of the text using just 35–40% of its original size, while enabling very efficient searches. On the other hand, a phrasebased compressor that reduces the text to 25–30% of its original size, providing very fast decompression and the capability of performing efficient searches over the compressed text. In the second part, we present several technological solutions that we have developed and integrated into real production systems to solve various aspects related to the consumption of digital contents, such as their creation and protected distribution, and how they make use of different techniques that are product of the research in the field of compression and indexing to improve the efficiency of storing, accessing, processing and transmitting textual contents

    Self-Indexing Natural Language

    No full text
    Self-indexing is a concept developed for indexing arbitrary strings. It has been enormously successful to reduce the size of the large indexes typically used on strings, namely suffix trees and arrays. Selfindexes represent a string in a space close to its compressed size and provide indexed searching on it. On natural language, a compressed inverted index over the compressed text already provides a reasonable alternative, in space and time, for indexed searching of words and phrases. In this paper we explore the possibility of regarding natural language text as a string of words and applying a self-index to it. There are several challenges involved, such as dealing with a very large alphabet and detaching searchable content from non-searchable presentation aspects in the text. As a result, we show that the self-index requires space very close to that of the best word-based compressors, and that it obtains better search time than inverted indexes (using the same overall space) when searching for phrases
    corecore