2 research outputs found
Reconocimiento de tendencias en un campo de investigación en publicaciones cientÃficas y su clasificación a los objetivos de desarrollo sostenible aplicando técnicas de procesamiento de lenguaje natural
Los centros de investigación y las universidades, al ser generadores de conocimiento, experimentan la
imperiosa necesidad de someter su producción cientÃfica a un análisis riguroso a fin de detectar y
evaluar su influencia. Asimismo, resulta relevante que dichas entidades sean capaces de identificar la
correspondencia entre su producción cientÃfica y las metas o polÃticas a nivel nacional e internacional,
dado que esto se erige como un factor crucial para reconocer su aporte y relevancia. Adicionalmente,
como parte de las actividades cientÃficas que permitan la planificación estratégica y la toma de
decisiones para el personal académico, los formuladores de polÃticas y los financiadores, estas
entidades podrÃan apoyarse del análisis masivo de productos académicos, como artÃculos cientÃficos y
tesis, para detectar tendencias de investigación.
La disciplina de ciencia de datos se enfoca en la gestión de datos masivos para convertirla en
conocimiento mediante técnicas de Inteligencia Artificial. Dentro de este marco, técnicas de
Procesamiento del Lenguaje Natural, como la clasificación de texto y el topic modeling, se utilizan para
el análisis y aprendizaje del lenguaje. En el ámbito académico, el análisis automatizado de la producción
cientÃfica mediante la aplicación de metodologÃas de ciencia de datos puede ayudar a reconocer la
alineación con polÃticas cientÃficas y generar estrategias de innovación. En artÃculos cientÃficos, la
clasificación de texto permite identificar su alineación con polÃticas, como las relacionadas con el
desarrollo sostenible, mientras que el topic modeling identifica tendencias en tópicos cientÃficos
fomentando procesos de innovación.
La revisión de la literatura realizada en esta tesis pone de manifiesto que las tareas de clasificación de
texto y el topic modeling pueden implementarse con diferentes arquitecturas y técnicas de Machine
Learning. El estado de la técnica plantea el uso de Modelos de Lenguaje de Gran Escala (Large Language
Models, LLM) para alcanzar niveles muy altos de desempeño, sin embargo, se requiere de conocimiento
más especializado y de grandes recursos de cómputo. Los modelos de clasificación y topic modeling
clásicos podrÃan ser una alternativa, sin embargo, existen discrepancias en resultados con datasets de
productos cientÃficos. Aunque existen algunos desarrollos metodológicos especÃficos para la
clasificación de texto, no existen estudios consistentes que consideren de forma explÃcita el desempeño
con datasets de artÃculos cientÃficos con etiquetas de los objetivos de desarrollo sostenible
desbalanceadas. Para el topic moldeing es necesario identificar si los modelos clásicos en comparación
con los LLM, aun son de un desempeño razonablemente efectivos en artÃculos cientÃficos con sólo
tÃtulo y resumen como el texto principal para crear los datasets.
En este contexto se proponen dos frameworks, uno para comparar modelos de clasificación de texto
con etiquetas múltiples cuyos algoritmos y técnicas requieren limitada infraestructura de cómputo y el
segundo, para comparar modelos que descubren tópicos cientÃficos (sus propensiones y nuevas temáticas). Ambos frameworks contienen criterios en donde los conjuntos de datos de artÃculos
cientÃficos son procesados de tal manera que impacten directamente en el desempeño de los modelos.
Los resultados en clasificación de texto multi-etiqueta permiten reconocer una correspondencia entre
la calidad de los datos (mediante el preprocesamiento), el algoritmo de clasificación base y el método
de transformación multi-etiqueta, que afecta el desempeño de los modelos. La comparativa de
modelos para el topic modeling, logra identificar que el mejor resultado se obtiene del modelo basado en
el LLM, que tiene la capacidad de aprovechar la información contextual y semántica del texto de
entrada al utilizar un modelo pre-entrenado de BERT