Search CORE

2 research outputs found

Reconocimiento de tendencias en un campo de investigación en publicaciones científicas y su clasificación a los objetivos de desarrollo sostenible aplicando técnicas de procesamiento de lenguaje natural

Author: Morales Hernández Roberto Carlos
Publication venue
Publication date: 01/09/2023
Field of study

Los centros de investigación y las universidades, al ser generadores de conocimiento, experimentan la imperiosa necesidad de someter su producción científica a un análisis riguroso a fin de detectar y evaluar su influencia. Asimismo, resulta relevante que dichas entidades sean capaces de identificar la correspondencia entre su producción científica y las metas o políticas a nivel nacional e internacional, dado que esto se erige como un factor crucial para reconocer su aporte y relevancia. Adicionalmente, como parte de las actividades científicas que permitan la planificación estratégica y la toma de decisiones para el personal académico, los formuladores de políticas y los financiadores, estas entidades podrían apoyarse del análisis masivo de productos académicos, como artículos científicos y tesis, para detectar tendencias de investigación. La disciplina de ciencia de datos se enfoca en la gestión de datos masivos para convertirla en conocimiento mediante técnicas de Inteligencia Artificial. Dentro de este marco, técnicas de Procesamiento del Lenguaje Natural, como la clasificación de texto y el topic modeling, se utilizan para el análisis y aprendizaje del lenguaje. En el ámbito académico, el análisis automatizado de la producción científica mediante la aplicación de metodologías de ciencia de datos puede ayudar a reconocer la alineación con políticas científicas y generar estrategias de innovación. En artículos científicos, la clasificación de texto permite identificar su alineación con políticas, como las relacionadas con el desarrollo sostenible, mientras que el topic modeling identifica tendencias en tópicos científicos fomentando procesos de innovación. La revisión de la literatura realizada en esta tesis pone de manifiesto que las tareas de clasificación de texto y el topic modeling pueden implementarse con diferentes arquitecturas y técnicas de Machine Learning. El estado de la técnica plantea el uso de Modelos de Lenguaje de Gran Escala (Large Language Models, LLM) para alcanzar niveles muy altos de desempeño, sin embargo, se requiere de conocimiento más especializado y de grandes recursos de cómputo. Los modelos de clasificación y topic modeling clásicos podrían ser una alternativa, sin embargo, existen discrepancias en resultados con datasets de productos científicos. Aunque existen algunos desarrollos metodológicos específicos para la clasificación de texto, no existen estudios consistentes que consideren de forma explícita el desempeño con datasets de artículos científicos con etiquetas de los objetivos de desarrollo sostenible desbalanceadas. Para el topic moldeing es necesario identificar si los modelos clásicos en comparación con los LLM, aun son de un desempeño razonablemente efectivos en artículos científicos con sólo título y resumen como el texto principal para crear los datasets. En este contexto se proponen dos frameworks, uno para comparar modelos de clasificación de texto con etiquetas múltiples cuyos algoritmos y técnicas requieren limitada infraestructura de cómputo y el segundo, para comparar modelos que descubren tópicos científicos (sus propensiones y nuevas temáticas). Ambos frameworks contienen criterios en donde los conjuntos de datos de artículos científicos son procesados de tal manera que impacten directamente en el desempeño de los modelos. Los resultados en clasificación de texto multi-etiqueta permiten reconocer una correspondencia entre la calidad de los datos (mediante el preprocesamiento), el algoritmo de clasificación base y el método de transformación multi-etiqueta, que afecta el desempeño de los modelos. La comparativa de modelos para el topic modeling, logra identificar que el mejor resultado se obtiene del modelo basado en el LLM, que tiene la capacidad de aprovechar la información contextual y semántica del texto de entrada al utilizar un modelo pre-entrenado de BERT

Brújula - Repositorio Institucional