29 research outputs found

    Improving Real Time Search Performance using Inverted Index Entries Invalidation Strategies

    Get PDF
    The impressive rise of user-generated content on the web in the hands of sites like Twitter imposes new challenges to search systems. The concept of real-time search emerges, increasing the role that efficient indexing and retrieval algorithms play in this scenario. Thousands of new updates need to be processed in the very moment they are generated and users expect content to be “searchable” within seconds. This lead to the develop of efficient data structures and algorithms that may face this challenge efficiently. In this work, we introduce the concept of index entry invalidator, a strategy responsible for keeping track of the evolution of the underlying vocabulary and selectively invalidate and evict those inverted index entries that do not considerably degrade retrieval effectiveness. Consequently, the index becomes smaller and may increase overall efficiency. We introduce and evaluate two approaches based on Time-to-Live and Sliding Windows criteria. We also study the dynamics of the vocabulary using a real dataset while the evaluation is carry out using a search engine specifically designed for real-time indexing and search.Facultad de Informátic

    Inverted Index Entry Invalidation Strategy for Real Time Search

    Get PDF
    The impressive rise of user-generated content on the web in the hands of sites like Twitter imposes new challenges to search systems. The concept of real-time search emerges, increasing the role that efficient indexing and retrieval algorithms play in this scenario. Thousands of new updates need to be processed in the very moment they are generated and users expect content to be “searchable” within seconds. This lead to the develop of efficient data structures and algorithms that may face this challenge efficiently. In this work, we introduce the concept of index entry invalidator, a strategy responsible for keeping track of the evolu- tion of the underlying vocabulary and selectively invalidóte and evict those inverted index entries that do not considerably degrade retrieval effectiveness. Consequently, the index becomes smaller and may increase overall efficiency. We study the dynamics of the vocabulary using a real dataset and also provide an evaluation of the proposed strategy using a search engine specifically designed for real-time indexing and search.XII Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    Inverted Index Entry Invalidation Strategy for Real Time Search

    Get PDF
    The impressive rise of user-generated content on the web in the hands of sites like Twitter imposes new challenges to search systems. The concept of real-time search emerges, increasing the role that efficient indexing and retrieval algorithms play in this scenario. Thousands of new updates need to be processed in the very moment they are generated and users expect content to be “searchable” within seconds. This lead to the develop of efficient data structures and algorithms that may face this challenge efficiently. In this work, we introduce the concept of index entry invalidator, a strategy responsible for keeping track of the evolu- tion of the underlying vocabulary and selectively invalidóte and evict those inverted index entries that do not considerably degrade retrieval effectiveness. Consequently, the index becomes smaller and may increase overall efficiency. We study the dynamics of the vocabulary using a real dataset and also provide an evaluation of the proposed strategy using a search engine specifically designed for real-time indexing and search.XII Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    Grandes datos y algoritmos eficientes para búsquedas de escala web

    Get PDF
    El acceso a la información en tiempo y forma es un factor esencial en muchos procesos que ocurren en dominios diferentes: la academia, la industria, el entretenimiento, entre otros. En la actualidad, el enfoque más general para acceder a la información en la web es el uso de motores de búsqueda de gran escala. Éstos sistemas enfrentan constantes desafíos debido al crecimiento explosivo de contenido en la web y también de la cantidad de nuevos usuarios. Principalmente, aparecen nuevas necesidades de almacenamiento y procesamiento para satisfacer estrictas restricciones de tiempo: las consultas deben ser respondidas en pequeñas fracciones de tiempo, típicamente, milisegundos. Esta problemática tiene aún muchas preguntas abiertas y – mientras se intentan resolver cuestiones – aparecen nuevos desafíos. Existen necesidades puntuales de los servicios que recolectan y utilizan esta información tal como nuevas estructuras de datos y algoritmos altamente eficientes lo que brinda oportunidades únicas para avances científico/ tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala, entre otras. En este proyecto se estudian, proponen, diseñan y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de grandes datos que permitan aumentar procesos internos de un motor de busqueda con el objetivo de mejorar su performance y escalabilidad.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Grandes datos y algoritmos eficientes para búsquedas de escala web

    Get PDF
    El acceso a la información en tiempo y forma es un factor esencial en muchos procesos que ocurren en dominios diferentes: la academia, la industria, el entretenimiento, entre otros. En la actualidad, el enfoque más general para acceder a la información en la web es el uso de motores de búsqueda de gran escala. Éstos sistemas enfrentan constantes desafíos debido al crecimiento explosivo de contenido en la web y también de la cantidad de nuevos usuarios. Principalmente, aparecen nuevas necesidades de almacenamiento y procesamiento para satisfacer estrictas restricciones de tiempo: las consultas deben ser respondidas en pequeñas fracciones de tiempo, típicamente, milisegundos. Esta problemática tiene aún muchas preguntas abiertas y – mientras se intentan resolver cuestiones – aparecen nuevos desafíos. Existen necesidades puntuales de los servicios que recolectan y utilizan esta información tal como nuevas estructuras de datos y algoritmos altamente eficientes lo que brinda oportunidades únicas para avances científico/ tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala, entre otras. En este proyecto se estudian, proponen, diseñan y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de grandes datos que permitan aumentar procesos internos de un motor de busqueda con el objetivo de mejorar su performance y escalabilidad.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Grandes datos y algoritmos eficientes para búsquedas de escala web

    Get PDF
    El acceso a la información en tiempo y forma es un factor esencial en muchos procesos que ocurren en dominios diferentes: la academia, la industria, el entretenimiento, entre otros. En la actualidad, el enfoque más general para acceder a la información en la web es el uso de motores de búsqueda de gran escala. Éstos sistemas enfrentan constantes desafíos debido al crecimiento explosivo de contenido en la web y también de la cantidad de nuevos usuarios. Principalmente, aparecen nuevas necesidades de almacenamiento y procesamiento para satisfacer estrictas restricciones de tiempo: las consultas deben ser respondidas en pequeñas fracciones de tiempo, típicamente, milisegundos. Esta problemática tiene aún muchas preguntas abiertas y – mientras se intentan resolver cuestiones – aparecen nuevos desafíos. Existen necesidades puntuales de los servicios que recolectan y utilizan esta información tal como nuevas estructuras de datos y algoritmos altamente eficientes lo que brinda oportunidades únicas para avances científico/ tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala, entre otras. En este proyecto se estudian, proponen, diseñan y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de grandes datos que permitan aumentar procesos internos de un motor de busqueda con el objetivo de mejorar su performance y escalabilidad.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Grandes datos y algoritmos eficientes para aplicaciones de escala web

    Get PDF
    La cantidad y variedad de información disponible online impone constantes desafíos en cuanto a técnicas eficientes para su almacenamiento y acceso. Muchos procesos en múltiples dominios requieren que este acceso se realice bajo restricciones de tiempo (eficiencia) y con parámetros de alta calidad (eficacia). En este escenario existen por un lado, necesidades puntuales de los servicios que recolectan y utilizan información de la más diversa y compleja naturaleza y por el otro, aparecen oportunidades únicas para avances científico/tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala. Ejemplos concretos son las máquinas de búsqueda para la web, las redes sociales y los sistemas que generan grandes cantidades de datos como la telefonía móvil, entre otros. Esta problemática abre nuevos interrogantes constantemente y, mientras se intentan resolver, aparecen nuevos desafíos. Algunas de estas preguntas tienen que ver con nuevas estructuras de datos y algoritmos altamente eficientes. En este proyecto se estudian, proponen, diseñan y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de grandes datos que permitan mejorar las prestaciones de los sistemas, tanto en eficiencia y escalabilidad como en eficacia.Eje: Bases de datos y Minería de datos.Red de Universidades con Carreras en Informática (RedUNCI

    Algoritmos eficientes para búsquedas a gran escala integrando datos masivos

    Get PDF
    El crecimiento explosivo de contenido en la web crea nuevas necesidades de almacenamiento, procesamiento y propone múltiples desafíos a los sistemas de búsquedas. Por un lado, existen necesidades puntuales de los servicios que recolectan y utilizan esta información y por el otro, aparecen oportunidades únicas para avances científico/tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala, entre otras. El acceso a la información en tiempo y forma es un factor esencial en muchos procesos que ocurren en dominios diferentes: la academia, la industria, el entretenimiento, entre otros. En la actualidad, el enfoque más general para acceder a la información en la web es el uso de motores de búsqueda. listos son sistemas distribuidos de altas prestaciones que se basan en estructuras de datos y algoritmos altamente eficientes ya que operan bajo estrictas restricciones de tiempo: las consultas deben ser respondidas en pequeñas fracciones de tiempo, típicamente, milisegundos. Esta problemática tiene aún muchas preguntas abiertas y - mientras se intentan resolver cuestiones - aparecen nuevos desafíos . En este proyecto se estudian y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de datos masivos para mejorar procesos internos de un motor de búsqueda.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Algoritmos eficientes para búsquedas a gran escala integrando datos masivos

    Get PDF
    El crecimiento explosivo de contenido en la web crea nuevas necesidades de almacenamiento, procesamiento y propone múltiples desafíos a los sistemas de búsquedas. Por un lado, existen necesidades puntuales de los servicios que recolectan y utilizan esta información y por el otro, aparecen oportunidades únicas para avances científico/tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala, entre otras. El acceso a la información en tiempo y forma es un factor esencial en muchos procesos que ocurren en dominios diferentes: la academia, la industria, el entretenimiento, entre otros. En la actualidad, el enfoque más general para acceder a la información en la web es el uso de motores de búsqueda. listos son sistemas distribuidos de altas prestaciones que se basan en estructuras de datos y algoritmos altamente eficientes ya que operan bajo estrictas restricciones de tiempo: las consultas deben ser respondidas en pequeñas fracciones de tiempo, típicamente, milisegundos. Esta problemática tiene aún muchas preguntas abiertas y - mientras se intentan resolver cuestiones - aparecen nuevos desafíos . En este proyecto se estudian y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de datos masivos para mejorar procesos internos de un motor de búsqueda.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Algoritmos eficientes para búsquedas a gran escala integrando datos masivos

    Get PDF
    El crecimiento explosivo de contenido en la web crea nuevas necesidades de almacenamiento, procesamiento y propone múltiples desafíos a los sistemas de búsquedas. Por un lado, existen necesidades puntuales de los servicios que recolectan y utilizan esta información y por el otro, aparecen oportunidades únicas para avances científico/tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala, entre otras. El acceso a la información en tiempo y forma es un factor esencial en muchos procesos que ocurren en dominios diferentes: la academia, la industria, el entretenimiento, entre otros. En la actualidad, el enfoque más general para acceder a la información en la web es el uso de motores de búsqueda. listos son sistemas distribuidos de altas prestaciones que se basan en estructuras de datos y algoritmos altamente eficientes ya que operan bajo estrictas restricciones de tiempo: las consultas deben ser respondidas en pequeñas fracciones de tiempo, típicamente, milisegundos. Esta problemática tiene aún muchas preguntas abiertas y - mientras se intentan resolver cuestiones - aparecen nuevos desafíos . En este proyecto se estudian y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de datos masivos para mejorar procesos internos de un motor de búsqueda.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI
    corecore