962 research outputs found
Big data: un análisis documental de su uso y aplicación en el contexto de la era digital
Big Data is a data processing system through ICT, characterized by: variability, speed and volume. This research analyzes its use and application in the context of the digital era, using a theoretical review. As a result, Big Data provides speed in information management, support for economic, financial and productive systems, and, basis for decisions on social aspects. As a reflection, the social sectors must invest in ICT that allow them to take advantage of the data; In the research field, Big Data must be clearly conceptualized, since this is diffuse in the theoretical environment analyzed.El Big Data es un sistema de procesamiento de datos a través de las TIC, caracterizado por variabilidad, velocidad y volumen. Esta investigación analiza su uso y aplicación en el contexto de la era digital, utilizando una revisión teórica. Como resultados, el Big Data aporta: celeridad en la gestión de información, apoyo para sistemas económicos, financieros y productivos y, fundamento a decisiones sobre aspectos sociales. Como reflexión, los sectores sociales deben invertir en tic que les permitan sacar provecho de los datos; en el ámbito investigativo, el Big Data debe conceptualizarse claramente, ya que este es difuso en el entorno teórico analizado
Análisis de datos de sentimientos enfocados al servicio d transporte masivo transmilenio S.A aplicando tecnologías BIG DATA
Durante los últimos años los sistemas de información constituyen uno de los principales ámbitos de estudio en el área de organización de empresas. El entorno donde las compañías desarrollan sus actividades se vuelve cada vez más complejo. La creciente globalización, el proceso de internacionalización de la empresa, el incremento de la competencia en los mercados de bienes y servicios, la rapidez en el desarrollo de las tecnologías de información, el aumento de la incertidumbre en el entorno y la reducción de los ciclos de vida de los productos originan que la información se convierta en un elemento clave para la gestión, así como para la supervivencia y crecimiento de la organización empresarial. Si los recursos básicos analizados hasta ahora eran tierra, trabajo y capital, ahora la información aparece como otro insumo fundamental a valorar en las empresas.
En la actualidad, el poder de la información de una empresa puede incrementarse por su fiabilidad, volumen, accesibilidad y la capacidad que tiene dicha empresa para darle utilidad en un tiempo razonable, con el objetivo de ayudar en la toma de decisiones inteligentes. Big Data surge del hecho de grandes volúmenes de datos para procesarlos, analizarlos, descubrir patrones y otros aspectos fundamentales para la toma de decisiones. “La empresa que tiene la mejor información, sabe cómo encontrarla y puede utilizarla es la que triunfa más rápido” (Michel Daconta, Leo Obrst y Kevin T. Smith, 2004, The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management). (Apartes del texto)Fundación Universitaria los Libertadore
Topic Modeling y Big Data
El objetivo de este proyecto es diseñar un sistema capaz de inferir una estructura
latente de temas, presente en una gran colección de documentos procedentes de
la prensa y en idioma castellano. Para conseguir dicho propósito se implementan
diferentes variantes del algoritmo Latent Dirichlet Allocation, en concreto,
haciendo uso de inferencia bayesiana variacional. Dicho análisis incluye pruebas
en entornos distribuidos como el proporcionado por los frameworks Apache
Hadoop y Apache Spark.
Tras las primeras pruebas, se evalúa el sistema que mejor se adapta a los objetivos
del presente proyecto y se implementa un sistema completo de separación de
palabras en tokens, pre-filtrado de los mismos, creación de diccionarios y
generación de modelos LDA parametrizando las variables más significativas. Este
primer desarrollo se hace sobre todo el corpus.
En un segundo lugar, se aplica el mismo análisis a las distintas secciones de las
que se compone el corpus, que ha sido clasificado de forma manual previamente.
El objetivo de este segundo análisis es poder inferir la estructura temática que
subyace en cada tema de la colección de noticias de prensa y, consiguientemente,
poder comparar la semejanza que existe entre ficheros externos al corpus de
entrenamiento y dichas estructuras.
Por último, se plantea un proceso de optimización de las variables parametrizadas,
empleando una validación cruzada, para determinar los valores de estas últimas
que maximicen la tasa de acierto por cada tema.The goal of this project was the implementation of a Topic Modeling system using
Latent Dirichlet Allocation over a distributed platform. This analysis has been
performed using a Spanish corpus, discovering the themes that pervade a large
collection of pieces of news, from El País newspaper. To be able to perform this
analysis, several distributed frameworks are taken into consideration, like Apache
Hadoop and Apache Spark.
Once implemented, the system is applied to classified parts of the corpus, being
able to create different thematic structures. These models will be one per each
category of the corpus and the goal of this section would be to compare files not
included in the training corpus with these structures, in order to find out the
relation between the category and the latent structure, obtained from the
document.
Finally, an optimization process is conducted to optimize the parametric variables
of the system to maximize the hit rate, using a cross-validation system, and
assessing the result for each one of the categories of the corpus
- …