[Resumo]
A aplicación dos resultados da investigación ao desenvolvemento software permite
crear sistemas innovadores que resolven problemas, organizan procesos ou ofrecen
servizos á sociedade dun modo máis eficaz e eficiente.
Na primeira parte desta tese preséntanse dúas novas técnicas da área de
investigación en compresión e indexación de texto en linguaxe natural. Dunha
banda, un autoíndice de palabras que permite obter unha representación comprimida
do texto empregando tan só un 35–40% do seu tamaño orixinal, á vez que realizar
buscas moi eficientes dentro del. Doutra banda, un compresor orientado a frases que
permite reducir un texto até ocupar un 25–30% do seu tamaño orixinal, ofrecendo
unha descompresión moi rápida e a posibilidade de realizar buscas eficientes no texto
comprimido.
Na segunda parte preséntanse distintas solucións tecnolóxicas que desenvolvemos
e integramos en sistemas reais en produción para resolver diferentes aspectos
relacionados co consumo de contidos dixitais, como a súa creación e distribución
protexida, e como estas fan uso de diferentes resultados da investigación en
compresión e indexación para mellorar a eficiencia no almacenamento, acceso,
procesado e transmisión dos contidos de natureza textual.[Resumen]
La aplicación de los resultados de la investigación al desarrollo software permite
crear sistemas innovadores que resuelven problemas, organizan procesos o que ofrecen
servicios a la sociedad de una forma más eficaz y eficiente.
En la primera parte de esta tesis se presentan dos nuevas técnicas del área de
investigación en compresión e indexación de texto en lenguaje natural. Por una
parte, un autoíndice que permite obtener una representación comprimida del texto
utilizando tan solo un 35–40% de su tamaño original, a la vez que realizar búsquedas
muy eficientes dentro de él. Por otra parte, un compresor orientado a frases que
permite reducir un texto hasta ocupar un 25–30% de su tamaño original, ofreciendo
una descompresión muy rápida y la posibilidad de realizar búsquedas eficientes en el
texto comprimido.
En la segunda parte se presentan distintas soluciones tecnológicas que hemos
desarrollado e integrado en sistemas reales en producción para resolver diferentes
aspectos relacionados con el consumo de contenidos digitales, como su creación
y distribución protegida, y cómo estas hacen uso de diferentes resultados de
la investigación en compresión e indexación para mejorar la eficiencia en el
almacenamiento, acceso, procesado y transmisión de los contenidos de naturaleza
textual.[Abstract]
The application of research results to software development allows creating
innovative systems that solve problems, organize processes or provide services for
the society in a more effective and efficient manner.
In the first part of this thesis, we present two new techniques in the research
area of compression and indexing of natural language texts. On the one hand, a
self-index that obtains a compressed representation of the text using just 35–40% of
its original size, while enabling very efficient searches. On the other hand, a phrasebased
compressor that reduces the text to 25–30% of its original size, providing
very fast decompression and the capability of performing efficient searches over the
compressed text.
In the second part, we present several technological solutions that we have
developed and integrated into real production systems to solve various aspects
related to the consumption of digital contents, such as their creation and protected
distribution, and how they make use of different techniques that are product of the
research in the field of compression and indexing to improve the efficiency of storing,
accessing, processing and transmitting textual contents