158 research outputs found

    Using Big Data Analysis to Improve Cache Performance in Search Engines

    Get PDF
    Web Search Engines process huge amounts of data to support search but must run under strong performance requirements (to answer a query in a fraction of a second). To meet that performance they implement different optimization techniques such as caching, that may be implemented at several levels. One of these caching levels is the intersection cache, that attempts to exploit frequently occurring pairs of terms by keeping in the memory of the search node the results of intersecting the corresponding inverted lists. In this work we propose an optimization step to decide which items should be cached and which not by introducing the usage of data mining techniques. Our preliminary results show that it is possible to achieve extra cost savings in this already hyper-optimized field.Sociedad Argentina de Informática e Investigación Operativa (SADIO

    Inverted Index Entry Invalidation Strategy for Real Time Search

    Get PDF
    The impressive rise of user-generated content on the web in the hands of sites like Twitter imposes new challenges to search systems. The concept of real-time search emerges, increasing the role that efficient indexing and retrieval algorithms play in this scenario. Thousands of new updates need to be processed in the very moment they are generated and users expect content to be “searchable” within seconds. This lead to the develop of efficient data structures and algorithms that may face this challenge efficiently. In this work, we introduce the concept of index entry invalidator, a strategy responsible for keeping track of the evolu- tion of the underlying vocabulary and selectively invalidóte and evict those inverted index entries that do not considerably degrade retrieval effectiveness. Consequently, the index becomes smaller and may increase overall efficiency. We study the dynamics of the vocabulary using a real dataset and also provide an evaluation of the proposed strategy using a search engine specifically designed for real-time indexing and search.XII Workshop Bases de Datos y Minería de Datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI

    Improving Real Time Search Performance using Inverted Index Entries Invalidation Strategies

    Get PDF
    The impressive rise of user-generated content on the web in the hands of sites like Twitter imposes new challenges to search systems. The concept of real-time search emerges, increasing the role that efficient indexing and retrieval algorithms play in this scenario. Thousands of new updates need to be processed in the very moment they are generated and users expect content to be “searchable” within seconds. This lead to the develop of efficient data structures and algorithms that may face this challenge efficiently. In this work, we introduce the concept of index entry invalidator, a strategy responsible for keeping track of the evolution of the underlying vocabulary and selectively invalidate and evict those inverted index entries that do not considerably degrade retrieval effectiveness. Consequently, the index becomes smaller and may increase overall efficiency. We introduce and evaluate two approaches based on Time-to-Live and Sliding Windows criteria. We also study the dynamics of the vocabulary using a real dataset while the evaluation is carry out using a search engine specifically designed for real-time indexing and search.Facultad de Informátic

    Arquitectura compañero a compañero (P2P) para un servicio de búsqueda distribuida en el espacio web

    Get PDF
    El presente trabajo define una arquitectura para soportar un servicio de búsquedas distribuidas en el espacio web, como alternativa a los motores de búsqueda tradicionales. Dicha arquitectura se basa en el modelo de comunicaciones denominado compañero a compañero (P2P), en el cual todos los nodos participantes de una red son capaces de generar y contestar consultas de otros nodos. En los últimos años han surgido aplicaciones en Internet basados en el modelo P2P que permiten que computadoras de usuario final se conecten directamente para formar comunidades, cuya finalidad sea el compartir recursos y servicios computacionales. Bajo este esquema, se toma ventaja de recursos existentes en los extremos de la red, tales como tiempo de CPU y espacio de almacenamiento. Por otro lado, se han planteado algunos inconvenientes directamente relacionados con las búsquedas en el espacio web utilizando los motores de búsqueda tradicionales, basados –en general– en arquitecturas centralizadas. El tamaño actual del espacio web, su constante crecimiento y la frecuencia de actualización de contenidos generan una serie de importantes problemas, entre los cuales se encuentran el mantenimiento de los índices, su limitada cobertura y el aumento de la proporción de respuestas irrelevantes. Se desarrolla un modelo de consulta distribuida entre sitios de una red que cooperan, tratando de potenciar sus capacidades. La arquitectura propuesta, denominada IndiSE, tratar de minimizar estos problemas a partir de cambiar la naturaleza centralizada de los motores de búsqueda tradicionales y plantear un modelo distribuido. En este sentido, quien posee la información es capaz de contestar a una consulta determinada, es decir, los proveedores de información se convierten –además– en proveedores del servicio de búsqueda, operando sobre su propio dominio. La contribución principal del trabajo se encuentra básicamente en los desarrollos de un middleware –denominado gnutWare– que permite a las aplicaciones acceder a una red de propagación de mensajes inespecíficos y el sistema de búsquedas distribuidas IndiSE. En el primer caso, el prototipo de middleware aporta: - Un modelo operativo de utilización de una red basada en el protocolo Gnutella como infraestructura de intercambio de mensajes inespecíficos. - Un modelo de comunicación entre aplicaciones de usuario final, a través de una red P2P de mensajes. - Una arquitectura sencilla y robusta para implementar servicios distribuidos sobre redes compañero a compañero. - Una interfaz normalizada para aplicaciones que requieren acceder a la red de transporte de mensajes, para operar en un ambiente distribuido. En el segundo caso, la arquitectura IndiSE aporta: - Un diseño modular de un sistema que permite soportar búsquedas distribuidas en el espacio web. - Una interface sencilla para usuarios finales que les permite acceder a búsquedas en paralelo sobre un repositorio de información distribuido. - Una arquitectura simple que utiliza los motores de búsqueda internos de cada proveedor de información, lo que brinda a los mismos mayor control sobre las tareas de indexación y consulta.Facultad de Informátic

    Pagden, Anthony. La Ilustración. Y por qué sigue siendo importante para nosotros. Editorial Alianza, 2015. 542pp.

    Get PDF
    Anthony Pagden (1945), de origen británico, es profesor de historia y ciencia política en la Universidad de California. Posee una extensa trayectoria, ha pasado por algunas de las más reconocidas universidades británicas y norteamericanas. Tiene publicada una amplia serie de libros cuyo eje principal es la historia de las ideas. El texto que ahora reseñamos es la traducción de su última obra dedicada a la Ilustración, a la que ha dedicado particular atención. Compuesto por una introducción, ocho capítulos y una conclusión. La Ilustración. Y por qué sigue siendo importante para nosotros, se configura como un compendio de historia de las ideas, una síntesis alimentada por una sucesión de argumentos, ninguno completamente original, producto de  investigaciones y de una herencia de conocimientos acumulados por varias generaciones de investigadores. Exenta de caracterizarse como una interminable enciclopedia temática sobre el fenómeno intelectual que analiza, esta obra no fue pensada para descifrar en qué pudo consistir la Ilustración, sino con un propósito explícitamente apologético, como puede leerse en su subtítulo

    Spanish automatic text enrichment

    Get PDF
    Unlike text on paper, hypertext enables the linking of pieces of text with other texts and multimedia resources, which not only improves the waywe read but also lays the foundation for new information systems. Specifically, the proliferation of collaborative sites, blogs, online databases, encyclopedias and many other services on the World Wide Web provides an invaluable source of up-to-date information which can be used to aid reading comprehension. As a result, an approach to the automatic extraction, merging and integration of online information is proposed for the purpose of “enriching” texts. This unprecedented text enrichment process allows users to transform ordinary plain texts into self-explanatory hypertexts containing contextual information and resources selected automatically from the Web. Application of such an enrichment process could help students in their scholarly reading, provide users with related multimedia resources and avoid multiple searches for concepts and entities mentioned in a text, among other purposesVI Workshop Ingeniería de Software (WIS)Red de Universidades con Carreras en Informática (RedUNCI

    Efecto de los <i>trending topics</i> en el volumen de consultas a los motores de búsqueda

    Get PDF
    Las redes sociales se han convertido en aplicaciones muy populares en Internet, principalmente para publicar información y comunicarse en grupos. Una caso bien conocido es Twitter, considerado un servicio de microblogging. Aquí se generan temas que se vuelven muy populares en la red social en un determinado momento, denominados trending topics (TT). En este trabajo se intenta determinar el efecto de estos temas en cuanto al volumen de consultas enviadas a un motor de búsqueda web. Para ello, se utiliza información de Twitter y tendencias de búsqueda. Los resultados iniciales muestran indicios de que los trending topics se utilizan luego para consultas al buscador: aproximadamente el 65% de las consultas muestran un aumento del interés cuando son TT e - inclusive - entre el 44% y 59% obtienen su pico de inter és. Estos resultados se consideran indicios positivos respecto de la hipótesis planteada abriendo oportunidades de aprovechamiento de esta información para optimizar procesos internos de un motor de búsqueda.X Workshop bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI

    Algoritmos Eficientes y Datos Masivos en Búsquedas a Gran Escala

    Get PDF
    La cantidad, diversidad y dinamismo de la información distribuida por diferentes servicios en Internet presenta múltiples desafíos a los sistemas de búsquedas. Por un lado, los usuarios requieren de herramientas que les ayuden a resolver problemas en tiempo y forma. Por otro, el escenario cada vez más grande y complejo y exige el diseño de algoritmos y estructuras de datos que permitan mantener (y mejorar) la eficiencia, tanto en calidad de las respuestas como en tiempo. Si bien las búsquedas sobre conjuntos masivos de información pueden adquirir formas diversas, una de las aplicaciones más utilizadas son los motores de búsqueda. Éstos son sistemas distribuidos de altas prestaciones que se basan en estructuras de datos y algoritmos altamente eficientes. Esta problemática tiene aún muchas preguntas abiertas y – mientras se intentan resolver cuestiones – aparecen nuevos desafíos. En este proyecto se propone el diseño y evaluación de estructuras de datos y algoritmos eficientes junto con análisis de datos masivos (big data) para mejoras procesos internos de un motor de búsqueda. Para ello, exploran y explotan tanto el contenido y la estructura de la web como el comportamiento de los usuarios.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Multicompresión de grandes listas de enteros para sistemas de búsquedas

    Get PDF
    La búsqueda en grandes repositorios de documentos (como la web) exige que los sistemas se ejecuten bajo estrictas restricciones de performance. En la actualidad, dada la cantidad de documentos que un sistema gestiona, resulta indispensable aplicar técnicas tales como la compresión de las estructuras de datos. Particularmente, aquí se aborda el problema de la compresión de un índice invertido mediante un esquema “multicompresión” que procesa diferentes porciones de una lista utilizando diversos codees. Los resultados preliminares muestran que es posible compensar el overhead requerido para mantener este esquema, mientras que se mejora el tiempo de descompresión.Sociedad Argentina de Informátic

    Efecto de los <i>trending topics</i> en el volumen de consultas a los motores de búsqueda

    Get PDF
    Las redes sociales se han convertido en aplicaciones muy populares en Internet, principalmente para publicar información y comunicarse en grupos. Una caso bien conocido es Twitter, considerado un servicio de microblogging. Aquí se generan temas que se vuelven muy populares en la red social en un determinado momento, denominados trending topics (TT). En este trabajo se intenta determinar el efecto de estos temas en cuanto al volumen de consultas enviadas a un motor de búsqueda web. Para ello, se utiliza información de Twitter y tendencias de búsqueda. Los resultados iniciales muestran indicios de que los trending topics se utilizan luego para consultas al buscador: aproximadamente el 65% de las consultas muestran un aumento del interés cuando son TT e - inclusive - entre el 44% y 59% obtienen su pico de inter és. Estos resultados se consideran indicios positivos respecto de la hipótesis planteada abriendo oportunidades de aprovechamiento de esta información para optimizar procesos internos de un motor de búsqueda.X Workshop bases de datos y minería de datosRed de Universidades con Carreras en Informática (RedUNCI
    corecore