Uno de los principales problemas al que nos enfrentamos al indexar una base de datos de texto es que el índice ocupa mas espacio que el texto a indexar, pudiendo alcanzar de 4 a 20 veces el tamaño del mismo. Una alternativa para reducir el espacio ocupado por el índice es buscar una representación compacta del mismo. Pero en grandes colecciones de texto, el índice aun comprimido suele ser demasiado grande como para residir en memoria principal. En estos casos, la cantidad de accesos a discos realizados durante el procesamiento de una consulta resulta crítica para la performance del índice. Nuestro ámbito de investigación es el estudio de índices comprimidos y en memoria secundaria para búsquedas en texto.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

Esquivel, Susana Cecilia

Herrera, Norma Edith

Ruano, Carina

Ruano, Darío

Servicio de Difusión de la Creación Intelectual

Indexando Bases de Datos de TextoNorma Herrera, Carina Ruano, Darío Ruano, Susana EsquivelDepartamento de Informática Universidad Nacional de San Luis, Argentina {nherrera, cmruano, dmruano, esquivel} @unsl.edu.arResumen 2. IntroducciónUno de los principales problemas al que nos enfretamos al indexar una base de datos de texto es que el índice ocupa mas espacio que el texto a indexar, pudiendo alcanzar de 4 a 20 veces el tamano del mismo. Una alternativa para reducir el espacio ocupado por el índice es buscar una representacion compacta del mismo. Pero en grandes colecciones de texto, el índice aun comprimido suele ser demasi­ado grande como para residir en memoria principal. En estos casos, la cantidad de accesos a discos realizados durante el proce­samiento de una consulta resulta crítica para la performance del índice. Nuestro ambito de investigación es el estudio de índices comprimidos y en memoria secundaria para busquedas en texto.1. ContextoEl presente trabajo se desarrolla en el ámbito de la línea Tecnicas de Indexacion para Datos no Estructurados del Proyecto Tecnologías Avanzadas de Bases de Datos (22/F014), cuyo objetivo es realizar investigación basica en problemas relacionados al manejo y recu- peracion eficiente de informacion no tradi­cional.Un base de datos de texto es un sistema que mantiene una coleccion grande de texto, y provee acceso rápido y seguro al mismo. Sin perdida de generalidad, asumiremos que la base de datos de texto es un unico texto T  = t i , . . .  , tn posiblemente almacenado en varios archivos. Asumiremos que T  esta for­mado por símbolos de un alfabeto £  de tamaüo a, donde tn = $ £  es un símbolo menor enorden lexicográfico que cualquier otro símbo­lo de £ , denotaremos con Ti,j a la secuencia t i , . . . ,  t j , con 1 <  i < j  < n. Un sufijo de T  es cualquier string de la forma Ti>n = t i , . . .  , t n y un prefijo de T  es cualquier string de la for­ma T i,i = t i , . .. , t i con i = 1..n. Un patron de busqueda P  = p i .. .pm es cualquier string sobre el alfabeto £ .Construir un índice sobre T  tiene sentido cuando T  es grande, cuando las busquedas son mas frecuentes que las modificaciones (de manera tal que los costos de construccion se vean amortizados) y cuando hay suficiente es­pacio como para contener el índice. Un índice debe dar soporte a dos operaciones basicas: count, que consiste en contar el numero de ocurrencias de un patron P  en un texto T  y lócate, que consiste en ubicar todas las posi­ciones del texto T  donde el patron de busqueda P  ocurre.Entre los índices mas populares para texto encontramos el arreglo de sufijos, el trie desufijos y el arbol de sufijos. Estos índices se construyen basandose en la observacion de que un patron P  ocurre en el texto si es prefijo de algun sufijo del texto.Arreglo de sufijos: un arreglo de sufijosA[1,n] es una permutacion de los numeros1,2, . . . , n  tal que TA[i],n P TA[i+i],n , donde pes la relacion de orden lexicográfico [11]. Bus­car un patron P  en T  equivale a buscar todos los sufijos de los cuales P  es prefijo, los cuales estarán en posiciones consecutivas de A.Trie de Sufijos: un trie de sufijos es un Trieconstruido sobre el conjunto de todos los su­fijos del texto, en el cual cada hoja mantiene el índice del sufijo que esa hoja representa [14]. El trie de sufijos resuelve eficientemente busquedas de patrones en un texto basandose en la observacion anterior y utilizando la efi­ciencia del Trie para resolver busquedas de prefijos en un conjunto de string.yArbol de sufijos: un arbol de sufijos es unPat-Tree [3] construido sobre el conjunto de todos los sufijos de T  codificados sobre alfa­beto binario. Cada nodo interno mantiene el numero de bit del patron que corresponde uti­lizar en ese punto para direccionar la busque- da y las hojas contienen una posicion del texto que representa al sufijo que se inicia en dicha posicion [14].Mientras que en bases de datos tradicionales los índices ocupan menos espacio que el con­junto de datos indexado, en las bases de datos de texto el índice ocupa mas espacio que el texto, pudiendo necesitar de 4 a 20 veces el tamano del mismo [3,11]. Una alternativa para reducir el espacio ocupado por el índice es bus­car una representacion compacta del mismo, manteniendo las facilidades de navegacion so­bre la estructura. Pero en grandes colecciones de texto, el índice aun comprimido suele ser demasiado grande como para residir en memo­ria principal. Es por ello que el desarrollo deFigura 1: Representacion de una secuencia de codigos de longitud variable usando DAC.índices comprimidos en memoria secundaria es un tema de creciente interes.3. Líneas de InvestigaciónNuestra principal línea de trabajo es el es­tudio de algoritmos de indexacioín sobre bases de datos no estructurados, centraíndonos prin­cipalmente en el diseño de índices para bases de datos textuales. Describimos a continuacion las líneas de investigacion que actualmente es­tamos desarrollando.3.1. Codigos DACDentro de la tematica de compresion de datos, un problema central es la asignacion de codigos de longitud variable a los símbolos de alfabeto del texto que se esta comprimiendo. Los metodos de compresion estadísticos, como por ejemplo Huffman, asignan codigos mas corto a los símbolos mas frecuentes y codigos mas largos a los menos frecuentes. El principal problema de estos metodos es que no permiten acceder eficientemente al i-esimo símbolo en la secuencia codificada. La solucion típica a este problema implica un overhead en tiempo y espacio que ocasiona perder parte del espacio ganado al comprimir.El Directly Addressable Variable-Length Code (DAC), presentado en [1], es una tecni­ca que permite acceso aleatorio y eficiente a cada codigo en una secuencia de codigos de longitud variable.Dada una secuencia de codigos de longitud variable C = Ci , C2, . . .  , C k , se divide cada codigo Ci en bloques de b bits. Luego se crea un arreglo A i conteniendo la concatenacion de los primeros bloques de cada símbolo, y un mapa de bits (bitmap) B i de k bits, donde el i-esimo bit esta en 1 si el codigo Ci esta for­mado por mas de un bloque. Se continua con la creacion de un arreglo A 2 conteniendo la concatenacion de los segundos bloques de ca­da símbolo y un bitmap B 2 con 1 en aquellos bits correspondientes a los codigos con mas de dos bloques. Se continua así hasta alcan­zar la maxima cantidad de bloques. La figura 1 muestra un ejemplo para una secuencia C  for­mada por 5 codigos de longitud variable, Ci ,j representa el j -esimo bloque del i-esimo codi­go de la secuencia.3.2. Trie de SufijosUn trie de sufijos es un índice que permite resolver eficientemente las operaciones count y locate pero que necesita en espacio 10 ve­ces el tamano del texto indexado. Por esta razon es importante contar con una tecnica de paginacion que permita mantener el índice en memoria secundaria pero resolviendo eficien­temente las busquedas sobre el texto indexado. Para lograr esto, como primer paso debemos contar con una representacion que sea adecua­da para memoria secundaria, es decir, una rep- resentacion que secuencialice la estructura del arbol.La representacion habitual de un trie con­siste en mantener en cada nodo los punteros a sus hijos, junto con el rotulo correspondi­ente a cada uno de ellos. Existen distintas vari­antes de representacion que consisten en orga­nizar estos punteros a los hijos sobre una listasecuencial, sobre una lista vinculada o sobre una tabla de hashing [8]. Una de las propuestas de representacion que mejor desempeño tiene en memoria principal es la de Kurtz, quien basandose en la idea de la representacion so­bre una lista vinculada, propuso que cada nodo mantenga un apuntador al primer hijo y alma­cenar los nodos hermanos en posiciones con­secutivas de memoria. Esto permite durante una busqueda, realizar una busqueda binaria sobre los rotulos para decidir por cual hijo seguir.Nuestra propuesta de representacion de un trie de sufijos surge como una extension de la propuesta hecha en [2, 6] a arboles r-arios. Dicha representacion permitira por una lado reducir el espacio necesario para almacenar el índice, dado que no existirán los punteros a los hijos, y por otro facilitara un posterior proceso de paginado.El objetivo principal es lograr una repre- sentacion del trie de sufijos que permita un posterior proceso de paginacion en disco. El proceso de paginacion de un índice consiste en dividir el mismo en partes, cada una de las cuales se aloja en una pagina de disco. Luego el proceso de busqueda consiste en ir cargando en memoria principal una parte, re­alizar la busqueda en memoria principal sobre esa parte, para luego cargar la siguiente y pro­seguir la busqueda.Cuando un índice se maneja en disco, el cos­to de busqueda queda determinado por la can­tidad de accesos a disco realizadas [13]. Aun así, es importante no descuidar las operaciones que se hacen en memoria principal a fin de lograr un funcionamiento eficiente del índice. Es por esta razon que es necesario evaluar el desempeño en memoria principal de la repre- sentacion que hemos propuesto.Hemos implementado y evaluado expe­rimentalmente la representacion de Kurtz y nuestra propuesta de representacion secuen- cial. Los resultados obtenidos nos han permi­tido concluir que la representacion secuenciallogra mejorar en espacio a la representacion de Kurtz pero no así en tiempo. Sin embargo la representacion secuencial tiene la ventaja de permitir un posterior paginado del índice.Actualmente estamos implementando la tecnica de compresion Directly Addressable Variable-Length Code (DAC) [1], para reducir aun mas el espacio ocupado por la repre- sentacion secuencial. El objetivo es analizar la reduccion de espacio lograda y el impacto que tiene en los tiempos de count y locate. Posterior a ello, implementaremos una tecnica de paginacion, redisenando los algoritmos de creacion y busqueda para esta nueva version del trie.3.3. Locally Compressed SAEl Locally Compressed Suffix Array (LC- SA) [4] es una tecnica para compresion de arreglos de sufijos. Un arreglo de sufijos A  construido sobre un texto T  de longitud n  es compresible si T  lo es. La entropía de or­den k de T  (Hk) se refleja en A  forman­do secuencias largas A[i, i  +  l], denominadas pseudo-repeticiones que aparecen en otro lu­gar A[ j , j  +  l] con todos los valores incremen­tados en uno, es decir: A[j  +  s] = A[i +  s] +  1 con 0 <  s < l.Si particionamos A  en pseudo-repeticiones de tamano maximal, el numero de partes que obtendríamos sería a lo mas nH k +  a k, para algun k [12]. Esta propiedad ha sido usada por varios autores para comprimir un arreglo de sufijos A  [9, 10]. El LCSA es un tecnica para compresion de arreglos de sufijos que consiste en convertir las pseudo-repeticiones en repeti­ciones reales, que luego son factorizadas usan­do Re-Pair [7].El resultado de este algoritmo de compre- sion es el diccionario de reglas R  mas una se­cuencia de símbolos C  (símbolos originales y nuevos) que es el texto T  ya comprimido. No­tar que podemos representar R  en un vector de pares de manera tal que la regla s ^  abeste representada en R[s — a] =  a : b.Cualquier segmento de C  puede ser rapi­da y facilmente descomprimido de la siguiente manera: para descomprimir C [i] primero veri­ficamos el valor de C [i]. Si C [i] <  a, entonces es un símbolo original de T , por lo tanto no corresponde hacer nada mas. Caso contrario obtenemos los símbolos que corresponden a C [i] en R[C [i] — a] y los expandimos recursi­vamente. Esto permite reproducir u caracteres de T  en O(u) unidades de tiempo.El Compact Pat Tree (CPT) consiste en rep­resentar un arbol de sufijos en memoria secun­daria y en forma compacta.En [6] hemos presentado una modificacion en el diseño del CPT que permite mantener la representacion del arreglo de sufijos subya­cente en el CPT separada de la representacion del arbol propiamente dicho. Esto nos permite reducir el espacio total requerido por el índice comprimiendo dicho arreglo de sufijos. Para ello estamos trabajando en la incorporacion de la tecnica LCSA en el CPT.Como primer paso se deben disenar los algoritmos de construccion en memoria se­cundaria. Para lograr algoritmos eficientes en memoria secundaria es necesario que los mis­mos tengan alta localidad de referencia. El al­goritmo de construccion de LCSA tiene una muy baja localidad de referencia dado que recorre A usando la funcion T, donde T[i] = j si A[j] = A[i] +1.El algoritmo de construccion del LCSA en memoria secundaria fue propuesto en [5]. Allí se presenta el diseno de dicho algoritmo y el desarrollo de complejidad del mismo, pero sin realizar la implementacion y la evaluacion empírica del algoritmo. No hay aun resultados experimentales sobre como se comporta esta implementacion, por lo cual es posible que aun requiera de ajustes para lograr un rendimiento aceptable. En este momento hemos finalizado la implementacion del algoritmo de construc- cion del LCSA en memoria secundaria encon­trándonos en la etapa de evaluacion empíricadel mismo.4. Resultados EsperadosSe espera obtener índices en memoria se­cundaria eficientes, tanto en espacio como en tiempo, para el procesamiento de consultas en bases de datos textuales. Los mismos serán evaluados tanto analíticamente como empíri­camente.5. Recursos HumanosEl trabajo desarrollado en esta línea forma parte del desarrollo de un Trabajo Final de la Licenciatura, dos Tesis de Maestría y una Tesis de Doctorado, todas ellas en el ambito de Cien­cias de la Computación en la Universidad Na­cional de San Luis.Referencias[1] Nieves R. Brisaboa, Susana Ladra, and Gonzalo Navarro. Directly addressable variable-length codes. In SPIRE, pages 122-130, 2009.[2] D. Clark and I. Munro. Efficient suffix tree on secondary storage. In Proc. 7th ACM-SIAM Symposium on Discrete A l­gorithms, pages 383-391,1996.[3] G. H. Gonnet, R. Baeza-Yates, and T  Snider. New indices fo r  text: PAT trees and PAT arrays, pages 66-82. Prentice Hall, New Jersey, 1992.[4] R. Gonzalez and G. Navarro. Com­pressed text indexes with fast locate. In Proc. 18th Annual Symposium on Combi­natorial Pattern Matching (CPM), LNCS 4580, pages 216-227,2007.[5] R. Gonzalez and G. Navarro. A com­pressed text index on secondary memory.Journal o f Combinatorial Mathematics and Combinatorial Computing, 71:127­154, 2009.[6] N. Herrera and G. Navarro. Arboles de sufijos comprimidos en memoria se­cundaria. In Proc. XXXV Latin Amer­ican Conference on Informatics (CLEI), Pelotas, Brazil, 2009.[7] N. Jesper Larsson and Alistair Moffat. Offline dictionary-based compression. In DCC ’99: Proceedings o f the Conference on Data Compression, page 296, Wash­ington, DC, USA, 1999. IEEE Computer Society.[8] A. Thomo M. Barsky *, U. Stege. A sur­vey of practical algorithms for suffix tree construction in external memory. In Soft­ware: Practice and Experience, 2010.[9] V. Makinen. Compact suffix array: a space-efficient full-text index. Fundam. In/,56(1,2):191-210, 2002.[10] V. Makinen and G. Navarro. Succinct suffix arrays based on run-length encod­ing. Nordic J. o f Computing, 12(1):40- 66, 2005.[11] U. Manber and G. Myers. Suffix ar­rays: A new method for on-line string searches. SIAM Journal o f Computing, 22(5):935-948, 1993.[12] G. Navarro and V. Makinen. Compressed full-text indexes. ACM Computing Sur­veys, 39(1):2, 2007.[13] J. Vitter. External memory algorithms and data structures: Dealing with mas­sive data. ACM Computing Surveys, 33(2):209-271, 2001.[14] P. Weiner. Linear pattern matching al­gorithm. In Proc. 14th IEEE Symposium Switching Theory and Automata Theory, pages 1-11, 1973.

Indexando bases de datos de texto

El Servicio de Difusión de la Creación Intelectual

Indexando Bases de Datos de Texto
Norma Herrera, Carina Ruano, Darío Ruano, Susana Esquivel
Departamento de Informática 
Universidad Nacional de San Luis, Argentina 
{nherrera, cmruano, dmruano, esquivel} @unsl.edu.ar
Resumen 2. Introducción
Uno de los principales problemas al que nos 
enfretamos al indexar una base de datos de 
texto es que el índice ocupa mas espacio que 
el texto a indexar, pudiendo alcanzar de 4 a 20 
veces el tamano del mismo. Una alternativa 
para reducir el espacio ocupado por el índice 
es buscar una representacion compacta del 
mismo. Pero en grandes colecciones de texto, 
el índice aun comprimido suele ser demasi­
ado grande como para residir en memoria 
principal. En estos casos, la cantidad de 
accesos a discos realizados durante el proce­
samiento de una consulta resulta crítica para 
la performance del índice. Nuestro ambito 
de investigación es el estudio de índices 
comprimidos y en memoria secundaria para 
busquedas en texto.
1. Contexto
El presente trabajo se desarrolla en el ámbito 
de la línea Tecnicas de Indexacion para Datos 
no Estructurados del Proyecto Tecnologías 
Avanzadas de Bases de Datos (22/F014), cuyo 
objetivo es realizar investigación basica en 
problemas relacionados al manejo y recu- 
peracion eficiente de informacion no tradi­
cional.
Un base de datos de texto es un sistema 
que mantiene una coleccion grande de texto, 
y provee acceso rápido y seguro al mismo. 
Sin perdida de generalidad, asumiremos que 
la base de datos de texto es un unico texto 
T  = t i , . . .  , tn posiblemente almacenado en 
varios archivos. Asumiremos que T  esta for­
mado por símbolos de un alfabeto £  de tamaüo 
a, donde tn = $ £  es un símbolo menor en
orden lexicográfico que cualquier otro símbo­
lo de £ , denotaremos con Ti,j a la secuencia 
t i , . . . ,  t j , con 1 <  i < j  < n. Un sufijo de T  
es cualquier string de la forma Ti>n = t i , . . .  , t n 
y un prefijo de T  es cualquier string de la for­
ma T i,i = t i , . .. , t i con i = 1..n. Un patron 
de busqueda P  = p i .. .pm es cualquier string 
sobre el alfabeto £ .
Construir un índice sobre T  tiene sentido 
cuando T  es grande, cuando las busquedas 
son mas frecuentes que las modificaciones (de 
manera tal que los costos de construccion se 
vean amortizados) y cuando hay suficiente es­
pacio como para contener el índice. Un índice 
debe dar soporte a dos operaciones basicas: 
count, que consiste en contar el numero de 
ocurrencias de un patron P  en un texto T  y 
lócate, que consiste en ubicar todas las posi­
ciones del texto T  donde el patron de busqueda 
P  ocurre.
Entre los índices mas populares para texto 
encontramos el arreglo de sufijos, el trie de
sufijos y el arbol de sufijos. Estos índices se 
construyen basandose en la observacion de que 
un patron P  ocurre en el texto si es prefijo de 
algun sufijo del texto.
Arreglo de sufijos: un arreglo de sufijos
A[1,n] es una permutacion de los numeros
1,2, . . . , n  tal que TA[i],n P TA[i+i],n , donde p
es la relacion de orden lexicográfico [11]. Bus­
car un patron P  en T  equivale a buscar todos 
los sufijos de los cuales P  es prefijo, los cuales 
estarán en posiciones consecutivas de A.
Trie de Sufijos: un trie de sufijos es un Trie
construido sobre el conjunto de todos los su­
fijos del texto, en el cual cada hoja mantiene 
el índice del sufijo que esa hoja representa 
[14]. El trie de sufijos resuelve eficientemente 
busquedas de patrones en un texto basandose 
en la observacion anterior y utilizando la efi­
ciencia del Trie para resolver busquedas de 
prefijos en un conjunto de string.
y
Arbol de sufijos: un arbol de sufijos es un
Pat-Tree [3] construido sobre el conjunto de 
todos los sufijos de T  codificados sobre alfa­
beto binario. Cada nodo interno mantiene el 
numero de bit del patron que corresponde uti­
lizar en ese punto para direccionar la busque- 
da y las hojas contienen una posicion del texto 
que representa al sufijo que se inicia en dicha 
posicion [14].
Mientras que en bases de datos tradicionales 
los índices ocupan menos espacio que el con­
junto de datos indexado, en las bases de datos 
de texto el índice ocupa mas espacio que el 
texto, pudiendo necesitar de 4 a 20 veces el 
tamano del mismo [3,11]. Una alternativa para 
reducir el espacio ocupado por el índice es bus­
car una representacion compacta del mismo, 
manteniendo las facilidades de navegacion so­
bre la estructura. Pero en grandes colecciones 
de texto, el índice aun comprimido suele ser 
demasiado grande como para residir en memo­
ria principal. Es por ello que el desarrollo de
Figura 1: Representacion de una secuencia de codigos 
de longitud variable usando DAC.
índices comprimidos en memoria secundaria 
es un tema de creciente interes.
3. Líneas de Investigación
Nuestra principal línea de trabajo es el es­
tudio de algoritmos de indexacioín sobre bases 
de datos no estructurados, centraíndonos prin­
cipalmente en el diseño de índices para bases 
de datos textuales. Describimos a continuacion 
las líneas de investigacion que actualmente es­
tamos desarrollando.
3.1. Codigos DAC
Dentro de la tematica de compresion de 
datos, un problema central es la asignacion de 
codigos de longitud variable a los símbolos de 
alfabeto del texto que se esta comprimiendo. 
Los metodos de compresion estadísticos, como 
por ejemplo Huffman, asignan codigos mas 
corto a los símbolos mas frecuentes y codigos 
mas largos a los menos frecuentes. El principal 
problema de estos metodos es que no permiten 
acceder eficientemente al i-esimo símbolo en 
la secuencia codificada. La solucion típica a 
este problema implica un overhead en tiempo y 
espacio que ocasiona perder parte del espacio 
ganado al comprimir.
El Directly Addressable Variable-Length 
Code (DAC), presentado en [1], es una tecni­
ca que permite acceso aleatorio y eficiente a 
cada codigo en una secuencia de codigos de 
longitud variable.
Dada una secuencia de codigos de longitud 
variable C = Ci , C2, . . .  , C k , se divide cada 
codigo Ci en bloques de b bits. Luego se crea 
un arreglo A i conteniendo la concatenacion de 
los primeros bloques de cada símbolo, y un 
mapa de bits (bitmap) B i de k bits, donde el 
i-esimo bit esta en 1 si el codigo Ci esta for­
mado por mas de un bloque. Se continua con 
la creacion de un arreglo A 2 conteniendo la 
concatenacion de los segundos bloques de ca­
da símbolo y un bitmap B 2 con 1 en aquellos 
bits correspondientes a los codigos con mas 
de dos bloques. Se continua así hasta alcan­
zar la maxima cantidad de bloques. La figura 1 
muestra un ejemplo para una secuencia C  for­
mada por 5 codigos de longitud variable, Ci ,j 
representa el j -esimo bloque del i-esimo codi­
go de la secuencia.
3.2. Trie de Sufijos
Un trie de sufijos es un índice que permite 
resolver eficientemente las operaciones count 
y locate pero que necesita en espacio 10 ve­
ces el tamano del texto indexado. Por esta 
razon es importante contar con una tecnica de 
paginacion que permita mantener el índice en 
memoria secundaria pero resolviendo eficien­
temente las busquedas sobre el texto indexado. 
Para lograr esto, como primer paso debemos 
contar con una representacion que sea adecua­
da para memoria secundaria, es decir, una rep- 
resentacion que secuencialice la estructura del 
arbol.
La representacion habitual de un trie con­
siste en mantener en cada nodo los punteros 
a sus hijos, junto con el rotulo correspondi­
ente a cada uno de ellos. Existen distintas vari­
antes de representacion que consisten en orga­
nizar estos punteros a los hijos sobre una lista
secuencial, sobre una lista vinculada o sobre 
una tabla de hashing [8]. Una de las propuestas 
de representacion que mejor desempeño tiene 
en memoria principal es la de Kurtz, quien 
basandose en la idea de la representacion so­
bre una lista vinculada, propuso que cada nodo 
mantenga un apuntador al primer hijo y alma­
cenar los nodos hermanos en posiciones con­
secutivas de memoria. Esto permite durante 
una busqueda, realizar una busqueda binaria 
sobre los rotulos para decidir por cual hijo 
seguir.
Nuestra propuesta de representacion de un 
trie de sufijos surge como una extension de 
la propuesta hecha en [2, 6] a arboles r-arios. 
Dicha representacion permitira por una lado 
reducir el espacio necesario para almacenar el 
índice, dado que no existirán los punteros a los 
hijos, y por otro facilitara un posterior proceso 
de paginado.
El objetivo principal es lograr una repre- 
sentacion del trie de sufijos que permita un 
posterior proceso de paginacion en disco. El 
proceso de paginacion de un índice consiste 
en dividir el mismo en partes, cada una de 
las cuales se aloja en una pagina de disco. 
Luego el proceso de busqueda consiste en ir 
cargando en memoria principal una parte, re­
alizar la busqueda en memoria principal sobre 
esa parte, para luego cargar la siguiente y pro­
seguir la busqueda.
Cuando un índice se maneja en disco, el cos­
to de busqueda queda determinado por la can­
tidad de accesos a disco realizadas [13]. Aun 
así, es importante no descuidar las operaciones 
que se hacen en memoria principal a fin de 
lograr un funcionamiento eficiente del índice. 
Es por esta razon que es necesario evaluar el 
desempeño en memoria principal de la repre- 
sentacion que hemos propuesto.
Hemos implementado y evaluado expe­
rimentalmente la representacion de Kurtz y 
nuestra propuesta de representacion secuen- 
cial. Los resultados obtenidos nos han permi­
tido concluir que la representacion secuencial
logra mejorar en espacio a la representacion 
de Kurtz pero no así en tiempo. Sin embargo 
la representacion secuencial tiene la ventaja de 
permitir un posterior paginado del índice.
Actualmente estamos implementando la 
tecnica de compresion Directly Addressable 
Variable-Length Code (DAC) [1], para reducir 
aun mas el espacio ocupado por la repre- 
sentacion secuencial. El objetivo es analizar 
la reduccion de espacio lograda y el impacto 
que tiene en los tiempos de count y locate. 
Posterior a ello, implementaremos una tecnica 
de paginacion, redisenando los algoritmos de 
creacion y busqueda para esta nueva version 
del trie.
3.3. Locally Compressed SA
El Locally Compressed Suffix Array (LC- 
SA) [4] es una tecnica para compresion de 
arreglos de sufijos. Un arreglo de sufijos A  
construido sobre un texto T  de longitud n  es 
compresible si T  lo es. La entropía de or­
den k de T  (Hk) se refleja en A  forman­
do secuencias largas A[i, i  +  l], denominadas 
pseudo-repeticiones que aparecen en otro lu­
gar A[ j , j  +  l] con todos los valores incremen­
tados en uno, es decir: A[j  +  s] = A[i +  s] +  
1 con 0 <  s < l.
Si particionamos A  en pseudo-repeticiones 
de tamano maximal, el numero de partes que 
obtendríamos sería a lo mas nH k +  a k, para 
algun k [12]. Esta propiedad ha sido usada por 
varios autores para comprimir un arreglo de 
sufijos A  [9, 10]. El LCSA es un tecnica para 
compresion de arreglos de sufijos que consiste 
en convertir las pseudo-repeticiones en repeti­
ciones reales, que luego son factorizadas usan­
do Re-Pair [7].
El resultado de este algoritmo de compre- 
sion es el diccionario de reglas R  mas una se­
cuencia de símbolos C  (símbolos originales y 
nuevos) que es el texto T  ya comprimido. No­
tar que podemos representar R  en un vector 
de pares de manera tal que la regla s ^  ab
este representada en R[s — a] =  a : b.
Cualquier segmento de C  puede ser rapi­
da y facilmente descomprimido de la siguiente 
manera: para descomprimir C [i] primero veri­
ficamos el valor de C [i]. Si C [i] <  a, entonces 
es un símbolo original de T , por lo tanto no 
corresponde hacer nada mas. Caso contrario 
obtenemos los símbolos que corresponden a 
C [i] en R[C [i] — a] y los expandimos recursi­
vamente. Esto permite reproducir u caracteres 
de T  en O(u) unidades de tiempo.
El Compact Pat Tree (CPT) consiste en rep­
resentar un arbol de sufijos en memoria secun­
daria y en forma compacta.
En [6] hemos presentado una modificacion 
en el diseño del CPT que permite mantener 
la representacion del arreglo de sufijos subya­
cente en el CPT separada de la representacion 
del arbol propiamente dicho. Esto nos permite 
reducir el espacio total requerido por el índice 
comprimiendo dicho arreglo de sufijos. Para 
ello estamos trabajando en la incorporacion de 
la tecnica LCSA en el CPT.
Como primer paso se deben disenar los 
algoritmos de construccion en memoria se­
cundaria. Para lograr algoritmos eficientes en 
memoria secundaria es necesario que los mis­
mos tengan alta localidad de referencia. El al­
goritmo de construccion de LCSA tiene una 
muy baja localidad de referencia dado que 
recorre A usando la funcion T, donde T[i] = 
j si A[j] = A[i] +1.
El algoritmo de construccion del LCSA 
en memoria secundaria fue propuesto en [5]. 
Allí se presenta el diseno de dicho algoritmo y 
el desarrollo de complejidad del mismo, pero 
sin realizar la implementacion y la evaluacion 
empírica del algoritmo. No hay aun resultados 
experimentales sobre como se comporta esta 
implementacion, por lo cual es posible que aun 
requiera de ajustes para lograr un rendimiento 
aceptable. En este momento hemos finalizado 
la implementacion del algoritmo de construc- 
cion del LCSA en memoria secundaria encon­
trándonos en la etapa de evaluacion empírica
del mismo.
4. Resultados Esperados
Se espera obtener índices en memoria se­
cundaria eficientes, tanto en espacio como en 
tiempo, para el procesamiento de consultas en 
bases de datos textuales. Los mismos serán 
evaluados tanto analíticamente como empíri­
camente.
5. Recursos Humanos
El trabajo desarrollado en esta línea forma 
parte del desarrollo de un Trabajo Final de la 
Licenciatura, dos Tesis de Maestría y una Tesis 
de Doctorado, todas ellas en el ambito de Cien­
cias de la Computación en la Universidad Na­
cional de San Luis.
Referencias
[1] Nieves R. Brisaboa, Susana Ladra, and 
Gonzalo Navarro. Directly addressable 
variable-length codes. In SPIRE, pages 
122-130, 2009.
[2] D. Clark and I. Munro. Efficient suffix 
tree on secondary storage. In Proc. 7th 
ACM-SIAM Symposium on Discrete A l­
gorithms, pages 383-391,1996.
[3] G. H. Gonnet, R. Baeza-Yates, and 
T  Snider. New indices fo r  text: PAT trees 
and PAT arrays, pages 66-82. Prentice 
Hall, New Jersey, 1992.
[4] R. Gonzalez and G. Navarro. Com­
pressed text indexes with fast locate. In 
Proc. 18th Annual Symposium on Combi­
natorial Pattern Matching (CPM), LNCS 
4580, pages 216-227,2007.
[5] R. Gonzalez and G. Navarro. A com­
pressed text index on secondary memory.
Journal o f Combinatorial Mathematics 
and Combinatorial Computing, 71:127­
154, 2009.
[6] N. Herrera and G. Navarro. Arboles 
de sufijos comprimidos en memoria se­
cundaria. In Proc. XXXV Latin Amer­
ican Conference on Informatics (CLEI), 
Pelotas, Brazil, 2009.
[7] N. Jesper Larsson and Alistair Moffat. 
Offline dictionary-based compression. In 
DCC ’99: Proceedings o f the Conference 
on Data Compression, page 296, Wash­
ington, DC, USA, 1999. IEEE Computer 
Society.
[8] A. Thomo M. Barsky *, U. Stege. A sur­
vey of practical algorithms for suffix tree 
construction in external memory. In Soft­
ware: Practice and Experience, 2010.
[9] V. Makinen. Compact suffix array: a 
space-efficient full-text index. Fundam. 
In/,56(1,2):191-210, 2002.
[10] V. Makinen and G. Navarro. Succinct 
suffix arrays based on run-length encod­
ing. Nordic J. o f Computing, 12(1):40- 
66, 2005.
[11] U. Manber and G. Myers. Suffix ar­
rays: A new method for on-line string 
searches. SIAM Journal o f Computing, 
22(5):935-948, 1993.
[12] G. Navarro and V. Makinen. Compressed 
full-text indexes. ACM Computing Sur­
veys, 39(1):2, 2007.
[13] J. Vitter. External memory algorithms 
and data structures: Dealing with mas­
sive data. ACM Computing Surveys, 
33(2):209-271, 2001.
[14] P. Weiner. Linear pattern matching al­
gorithm. In Proc. 14th IEEE Symposium 
Switching Theory and Automata Theory, 
pages 1-11, 1973.


Spanish

SEDICI - Repositorio de la UNLP

http://sedici.unlp.edu.ar/bitstream/handle/10915/45609/Documento_completo.pdf?sequence=1

Indexando bases de datos de texto

Abstract

Similar works

Full text

Available Versions

Servicio de Difusión de la Creación Intelectual

El Servicio de Difusión de la Creación Intelectual

SEDICI - Repositorio de la UNLP