15 research outputs found

    Búsquedas selectivas sobre flujos de documentos

    Get PDF
    La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que puedan manejar el tamaño, complejidad y dinamismo de las fuentes de información digital actuales. Este problema no puede ser resuelto en el ámbito de un solo equipo de cómputo por lo que requiere de una arquitectura que involucra procesamiento paralelo y distribuido, la cual incluye diseñar y optimizar estructuras de datos y algoritmos eficientes que las gestionen. Esta arquitectura es desafiada cuando los documentos aparecen en flujos en tiempo real como, por ejemplo, las publicaciones en las redes sociales. Un caso paradigmático son las publicaciones en Twitter, en la cual millones de usuarios alrededor del mundo publican “documentos cortos” (tweets) desde diferentes tipos de dispositivos (generalmente, móviles), los cuales deben estar disponibles casi de inmediato (segundos) por lo que las estructuras de datos deben soportar un alto dinamismo. Esto contrasta con la búsquedas web clásicas, donde el índice invertido se actualiza en modo batch ya que existe un tiempo entre actualizaciones debido a la necesidad de recolectar los nuevos documentos a indexar. Un abordaje actual a este problema es la partición de la colección en porciones (shards) de acuerdo a algún criterio (por ejemplo, temático) de manera tal de enviar las consultas solamente a un número reducido n de nodos (n C P) que contengan particiones de la colección que potencialmente pueden satisfacer la consulta. Este problema se lo conoce como “búsquedas selectivas” (selective search) e incluye métodos que permiten seleccionar los recursos adecuados, algoritmos de fusión de resultados parciales y estrategias adaptadas de caching. Este trabajo presenta las líneas de investigación en el contexto de las búsquedas en tiempo real utilizando una arquitectura basada en búsquedas selectivas. Las propuestas abarcan el estudio, diseño y evaluación de los criterios de actualización del índice invertidos por partición, las estrategias de cache a implementar y el algoritmo de búsqueda final y cómo estos impactan en la performance que se pretende optimizar (eficiencia y/o efectividad).Eje: Base de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Reconocimiento automático de artículos científicos

    Get PDF
    En el presente trabajo se describe un modelo basado en un conjunto de reglas heurísticas que permite la detección automática de documentos de carácter científico a partir del análisis lógico de su estructura. En particular, se definen 4 categorías de reglas que se aplican en diferentes niveles de especificidad. Se implementó un prototipo de software a los efectos de validar y ajustar el comportamiento del modelo. Se trabajó con un corpus de formatos heterogéneos de 600 documentos relacionados al área de las ciencias de la computación y la informática, donde el 50% fueron artículos y el resto textos varios sobre el dominio del conocimiento en cuestión. Se realizaron diferentes experimentos con la intención de probar las reglas y ajustar empíricamente el valor umbral. De los experimentos realizados se obtuvieron resultados, medidos en términos de precisión, que oscilan entre 0.85 y 0.94.Eje: OtrosRed de Universidades con Carreras en Informática (RedUNCI

    Reconocimiento automático de artículos científicos

    Get PDF
    En el presente trabajo se describe un modelo basado en un conjunto de reglas heurísticas que permite la detección automática de documentos de carácter científico a partir del análisis lógico de su estructura. En particular, se definen 4 categorías de reglas que se aplican en diferentes niveles de especificidad. Se implementó un prototipo de software a los efectos de validar y ajustar el comportamiento del modelo. Se trabajó con un corpus de formatos heterogéneos de 600 documentos relacionados al área de las ciencias de la computación y la informática, donde el 50% fueron artículos y el resto textos varios sobre el dominio del conocimiento en cuestión. Se realizaron diferentes experimentos con la intención de probar las reglas y ajustar empíricamente el valor umbral. De los experimentos realizados se obtuvieron resultados, medidos en términos de precisión, que oscilan entre 0.85 y 0.94.Eje: OtrosRed de Universidades con Carreras en Informática (RedUNCI

    Modelos y algoritmos de enlaces sobre el grafo web del dominio educativo argentino

    Get PDF
    El estudio de las características de la Web, su dinamismo y el análisis de los distintos algoritmos que operan sobre ella se centran en modelar la misma como un grafo dirigido (webgraph). A partir de esto se pueden realizar diferentes tareas de análisis teniendo en cuenta la información aportada por este enfoque y que puede ser utilizada para mejorar las estrategias y herramientas que permiten la gestión de los recursos que se encuentran distribuidos en el espacio Web. En este sentido, este trabajo presenta los primeros resultados de un estudio realizado sobre los sitios que conforman el espacio web educativo argentino, el cual permite analizar sus características básicas y diferencias con el resto de la web. El objetivo fundamental es lograr una mejor comprensión de las interacciones que ocurren en este sistema distribuido y dinámico de gran escala, que surge y se desarrolla a partir de las acciones no coordinadas de sus usuarios. Estos resultados permitirán –a priori– mejorar las estrategias de localización, organización y acceso a la información, lo que redundará en un uso más eficiente de los recursos disponibles, optimizando herramientas existentes o creando nuevas adaptadas especialmente al dominio educativo argentino.Eje: Arquitectura, Redes y Sistemas OperativosRed de Universidades con Carreras en Informática (RedUNCI

    Búsqueda de sitios web con autoridad en un tema

    Get PDF
    La búsqueda de recursos – páginas o sitios web – que son referentes (o autoridades) en un tema particular es una tarea básica que ayuda a construir o mejorar distintos servicios de información. No obstante, es posible plantear el concepto de autoridad desde un nivel de abstracción mayor teniendo en cuenta el contenido de las páginas, para evaluar desde otro punto de vista si éstas son relevantes en un tópico particular. En este trabajo se propone un método simple que utiliza las capacidades de los motores de consulta existentes a los efectos de obtener – de manera automática – listas de sitios web que son autoridades temáticas. Los resultados muestran que el método es eficiente, obteniendo una precisión entre 0.66 y 1.00 para los diferentes experimentos. Si bien aún se encuentra en una primera etapa, se propone su utilización como un filtro a incorporar a los motores de consultas, donde existan listas predefinidas de sitios a incluir o excluir de una consulta.Eje: Arquitectura, redes y sistemas operativosRed de Universidades con Carreras en Informática (RedUNCI

    Búsqueda de sitios web con autoridad en un tema

    Get PDF
    La búsqueda de recursos – páginas o sitios web – que son referentes (o autoridades) en un tema particular es una tarea básica que ayuda a construir o mejorar distintos servicios de información. No obstante, es posible plantear el concepto de autoridad desde un nivel de abstracción mayor teniendo en cuenta el contenido de las páginas, para evaluar desde otro punto de vista si éstas son relevantes en un tópico particular. En este trabajo se propone un método simple que utiliza las capacidades de los motores de consulta existentes a los efectos de obtener – de manera automática – listas de sitios web que son autoridades temáticas. Los resultados muestran que el método es eficiente, obteniendo una precisión entre 0.66 y 1.00 para los diferentes experimentos. Si bien aún se encuentra en una primera etapa, se propone su utilización como un filtro a incorporar a los motores de consultas, donde existan listas predefinidas de sitios a incluir o excluir de una consulta.Eje: Arquitectura, redes y sistemas operativosRed de Universidades con Carreras en Informática (RedUNCI

    Grandes datos y algoritmos eficientes para aplicaciones de escala web

    Get PDF
    La cantidad y variedad de información disponible online impone constantes desafíos en cuanto a técnicas eficientes para su almacenamiento y acceso. Muchos procesos en múltiples dominios requieren que este acceso se realice bajo restricciones de tiempo (eficiencia) y con parámetros de alta calidad (eficacia). En este escenario existen por un lado, necesidades puntuales de los servicios que recolectan y utilizan información de la más diversa y compleja naturaleza y por el otro, aparecen oportunidades únicas para avances científico/tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala. Ejemplos concretos son las máquinas de búsqueda para la web, las redes sociales y los sistemas que generan grandes cantidades de datos como la telefonía móvil, entre otros. Esta problemática abre nuevos interrogantes constantemente y, mientras se intentan resolver, aparecen nuevos desafíos. Algunas de estas preguntas tienen que ver con nuevas estructuras de datos y algoritmos altamente eficientes. En este proyecto se estudian, proponen, diseñan y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de grandes datos que permitan mejorar las prestaciones de los sistemas, tanto en eficiencia y escalabilidad como en eficacia.Eje: Bases de datos y Minería de datos.Red de Universidades con Carreras en Informática (RedUNCI

    Modelos y algoritmos para problemas de procesamiento en entornos de Big Data

    Get PDF
    La idea del procesamiento de datos masivos (Big Data) se ha desarrollado sostenidamente en los últimos años, estableciéndose como un nuevo paradigma para resolver problemas. Por un lado, el crecimiento en el poder de cómputo y almacenamiento habilita la posibilidad de manejar volúmenes de datos de varios órdenes de magnitud. Por el otro, generan la necesidad de contar no solamente con plataformas que permitan distribuir el procesamiento sino, además, con algoritmos que lo realicen de forma eficiente. Una de las primeras aplicaciones de Big Data son los motores de búsqueda de escala web, sistemas que procesan miles de millones de documentos y deben responder a los usuarios con estrictas restricciones de tiempo, típicamente, milisegundos. Análogamente, el procesamiento de grafos masivos provenientes del mapeo de la estructura de las redes sociales presenta desafíos de forma sostenida. Estos escenarios se caracterizan por una complejidad creciente en espacio y requieren soluciones cada vez más sofisticadas ya que la cantidad de datos y de usuarios crece conforme evolucionan en el tiempo. Además, han aparecido requerimientos para ofrecer respuestas sobre flujos de datos que ocurren en tiempo real (streaming) por lo que es un requisito considerar modelos que puedan tomar decisiones on-line utilizando estos datos. Este trabajo presenta las líneas de investigación que se proponen en el contexto de los datos masivos a partir del estudio, diseño y evaluación de estructuras de datos y algoritmos que operan eficientemente, ya sea sobre documentos, grafos sociales o interacciones de usuarios, entre otros.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Modelos y algoritmos para problemas de procesamiento en entornos de Big Data

    Get PDF
    La idea del procesamiento de datos masivos (Big Data) se ha desarrollado sostenidamente en los últimos años, estableciéndose como un nuevo paradigma para resolver problemas. Por un lado, el crecimiento en el poder de cómputo y almacenamiento habilita la posibilidad de manejar volúmenes de datos de varios órdenes de magnitud. Por el otro, generan la necesidad de contar no solamente con plataformas que permitan distribuir el procesamiento sino, además, con algoritmos que lo realicen de forma eficiente. Una de las primeras aplicaciones de Big Data son los motores de búsqueda de escala web, sistemas que procesan miles de millones de documentos y deben responder a los usuarios con estrictas restricciones de tiempo, típicamente, milisegundos. Análogamente, el procesamiento de grafos masivos provenientes del mapeo de la estructura de las redes sociales presenta desafíos de forma sostenida. Estos escenarios se caracterizan por una complejidad creciente en espacio y requieren soluciones cada vez más sofisticadas ya que la cantidad de datos y de usuarios crece conforme evolucionan en el tiempo. Además, han aparecido requerimientos para ofrecer respuestas sobre flujos de datos que ocurren en tiempo real (streaming) por lo que es un requisito considerar modelos que puedan tomar decisiones on-line utilizando estos datos. Este trabajo presenta las líneas de investigación que se proponen en el contexto de los datos masivos a partir del estudio, diseño y evaluación de estructuras de datos y algoritmos que operan eficientemente, ya sea sobre documentos, grafos sociales o interacciones de usuarios, entre otros.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Grandes datos y algoritmos eficientes para aplicaciones de escala web

    Get PDF
    La cantidad y variedad de información disponible online impone constantes desafíos en cuanto a técnicas eficientes para su almacenamiento y acceso. Muchos procesos en múltiples dominios requieren que este acceso se realice bajo restricciones de tiempo (eficiencia) y con parámetros de alta calidad (eficacia). En este escenario existen por un lado, necesidades puntuales de los servicios que recolectan y utilizan información de la más diversa y compleja naturaleza y por el otro, aparecen oportunidades únicas para avances científico/tecnológicos en áreas como algoritmos, estructuras de datos, sistemas distribuidos y procesamiento de datos a gran escala. Ejemplos concretos son las máquinas de búsqueda para la web, las redes sociales y los sistemas que generan grandes cantidades de datos como la telefonía móvil, entre otros. Esta problemática abre nuevos interrogantes constantemente y, mientras se intentan resolver, aparecen nuevos desafíos. Algunas de estas preguntas tienen que ver con nuevas estructuras de datos y algoritmos altamente eficientes. En este proyecto se estudian, proponen, diseñan y evalúan estructuras de datos y algoritmos eficientes junto con el análisis de grandes datos que permitan mejorar las prestaciones de los sistemas, tanto en eficiencia y escalabilidad como en eficacia.Eje: Bases de datos y Minería de datos.Red de Universidades con Carreras en Informática (RedUNCI
    corecore