Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación

Abstract

En este trabajo se muestran resultados preliminares obtenidos al aplicar la técnica de clustering basado en k-means y un modelado de tópicos usando Latent Dirichlet Allocation (LDA) sobre un corpus de registros de la base de datos Scopus utilizando paquetes del lenguaje R. El objetivo general es detectar aquellas áreas que permitan estimar el esfuerzo que realizan los recursos humanos de investigación de determinado lugar geográfico para abordar los problemas que son propios de ese territorio y sus habitantes. Por ello, el corpus responde a una estrategia de búsqueda que comprende la producción del gran área Ciencias Sociales & Humanas en el periodo 2010-2015, restringida a aquellos trabajos que tuvieran algún autor con afiliación argentina, además de contener Argentina (o alguna de sus variaciones explicitadas en la estrategia de búsqueda) en los campos título, resumen y palabras clave. Para el procesamiento se utilizaron los paquetes bibliometrix (2017), que sirve para realizar análisis bibliométricos y de co-citación; el paquete topicsmodels (2017) que permite implementar LDA y CTM (Correlated Topics Models); el paquete tidytext (2017) que permite aplicar algunas técnicas de procesamiento del lenguaje natural dentro de las cuales se encuentra la detección de n-gramas. En este trabajo, se procedió a sacar bigramas y se los interpretó de manera cualitativa, detectando 7 áreas (ver referencia de colores en figura 1). Se generaron los clusters mediante la técnica de K-medias y se procedió a realizar un análisis de los clusters obtenidos a la luz de las categorías que se derivaron de los bigramas. Luego se realizó lo mismo aplicando modelado de tópicos con LDA.Sociedad Argentina de Informática e Investigación Operativ

    Similar works