962 research outputs found

    Big data: un análisis documental de su uso y aplicación en el contexto de la era digital

    Get PDF
    Big Data is a data processing system through ICT, characterized by: variability, speed and volume. This research analyzes its use and application in the context of the digital era, using a theoretical review. As a result, Big Data provides speed in information management, support for economic, financial and productive systems, and, basis for decisions on social aspects. As a reflection, the social sectors must invest in ICT that allow them to take advantage of the data; In the research field, Big Data must be clearly conceptualized, since this is diffuse in the theoretical environment analyzed.El Big Data es un sistema de procesamiento de datos a través de las TIC, caracterizado por variabilidad, velocidad y volumen. Esta investigación analiza su uso y aplicación en el contexto de la era digital, utilizando una revisión teórica. Como resultados, el Big Data aporta: celeridad en la gestión de información, apoyo para sistemas económicos, financieros y productivos y, fundamento a decisiones sobre aspectos sociales. Como reflexión, los sectores sociales deben invertir en tic que les permitan sacar provecho de los datos; en el ámbito investigativo, el Big Data debe conceptualizarse claramente, ya que este es difuso en el entorno teórico analizado

    Análisis de datos de sentimientos enfocados al servicio d transporte masivo transmilenio S.A aplicando tecnologías BIG DATA

    Get PDF
    Durante los últimos años los sistemas de información constituyen uno de los principales ámbitos de estudio en el área de organización de empresas. El entorno donde las compañías desarrollan sus actividades se vuelve cada vez más complejo. La creciente globalización, el proceso de internacionalización de la empresa, el incremento de la competencia en los mercados de bienes y servicios, la rapidez en el desarrollo de las tecnologías de información, el aumento de la incertidumbre en el entorno y la reducción de los ciclos de vida de los productos originan que la información se convierta en un elemento clave para la gestión, así como para la supervivencia y crecimiento de la organización empresarial. Si los recursos básicos analizados hasta ahora eran tierra, trabajo y capital, ahora la información aparece como otro insumo fundamental a valorar en las empresas. En la actualidad, el poder de la información de una empresa puede incrementarse por su fiabilidad, volumen, accesibilidad y la capacidad que tiene dicha empresa para darle utilidad en un tiempo razonable, con el objetivo de ayudar en la toma de decisiones inteligentes. Big Data surge del hecho de grandes volúmenes de datos para procesarlos, analizarlos, descubrir patrones y otros aspectos fundamentales para la toma de decisiones. “La empresa que tiene la mejor información, sabe cómo encontrarla y puede utilizarla es la que triunfa más rápido” (Michel Daconta, Leo Obrst y Kevin T. Smith, 2004, The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management). (Apartes del texto)Fundación Universitaria los Libertadore

    Topic Modeling y Big Data

    Full text link
    El objetivo de este proyecto es diseñar un sistema capaz de inferir una estructura latente de temas, presente en una gran colección de documentos procedentes de la prensa y en idioma castellano. Para conseguir dicho propósito se implementan diferentes variantes del algoritmo Latent Dirichlet Allocation, en concreto, haciendo uso de inferencia bayesiana variacional. Dicho análisis incluye pruebas en entornos distribuidos como el proporcionado por los frameworks Apache Hadoop y Apache Spark. Tras las primeras pruebas, se evalúa el sistema que mejor se adapta a los objetivos del presente proyecto y se implementa un sistema completo de separación de palabras en tokens, pre-filtrado de los mismos, creación de diccionarios y generación de modelos LDA parametrizando las variables más significativas. Este primer desarrollo se hace sobre todo el corpus. En un segundo lugar, se aplica el mismo análisis a las distintas secciones de las que se compone el corpus, que ha sido clasificado de forma manual previamente. El objetivo de este segundo análisis es poder inferir la estructura temática que subyace en cada tema de la colección de noticias de prensa y, consiguientemente, poder comparar la semejanza que existe entre ficheros externos al corpus de entrenamiento y dichas estructuras. Por último, se plantea un proceso de optimización de las variables parametrizadas, empleando una validación cruzada, para determinar los valores de estas últimas que maximicen la tasa de acierto por cada tema.The goal of this project was the implementation of a Topic Modeling system using Latent Dirichlet Allocation over a distributed platform. This analysis has been performed using a Spanish corpus, discovering the themes that pervade a large collection of pieces of news, from El País newspaper. To be able to perform this analysis, several distributed frameworks are taken into consideration, like Apache Hadoop and Apache Spark. Once implemented, the system is applied to classified parts of the corpus, being able to create different thematic structures. These models will be one per each category of the corpus and the goal of this section would be to compare files not included in the training corpus with these structures, in order to find out the relation between the category and the latent structure, obtained from the document. Finally, an optimization process is conducted to optimize the parametric variables of the system to maximize the hit rate, using a cross-validation system, and assessing the result for each one of the categories of the corpus
    corecore