1,970 research outputs found
Categorización automática de respuestas aplicando algoritmos de clasificación supervisada al análisis de las contestaciones de estudiantes a una serie de preguntas tipo test
Durante los últimos años se ha evidenciado el creciente interés por el aprendizaje automático para
la clasificación y categorización de documentos, textos, preguntas. Esto permite automatizar
procesos que si se hicieran con la intervención del ser humano podrÃan tener un alto costo en tiempo,
y abre las puertas para su implementación con sistemas incluyentes para estudiantes con
discapacidades fÃsicas.
En este artÃculo se describe un trabajo de investigación que utiliza técnicas de minerÃa de datos para
obtener clasificadores que permitan identificar automáticamente las respuestas correctas expresadas
por los estudiantes y éstas son asociadas a una pregunta con distintas opciones que son parte del
proceso de evaluación de los conocimientos adquiridos de los estudiantes durante su proceso
formativo.
Atendiendo a estas consideraciones se utilizó un corpus con preguntas de diferentes categorÃas,
donde cada pregunta tenÃa múltiples opciones factibles para ser seleccionadas; sin embargo a cada
pregunta le pertenecÃa una sola respuesta correcta. Se transcribió las respuestas dadas por los
estudiantes de la Modalidad Abierta y a Distancia de la Universidad Técnica Particular de Loja
teniendo un total de 12960 transcripciones de las respuestas verbales que se obtuvieron de los
estudiantes en español. Los resultados obtenidos mediante diferentes algoritmos de clasificación son
presentados, analizados y comparados
Desarrollo y evaluación de diferentes metodologÃas para la gestión automática del diálogo
El objetivo principal de la tesis que se presenta es el estudio y
desarrollo de diferentes metodologÃas para la gestión del diálogo
en sistemas de diálogo hablado. El principal reto planteado en la
tesis reside en el desarrollo de metodologÃas puramente
estadÃsticas para la gestión del diálogo, basadas en el
aprendizaje de un modelo a partir de un corpus de diálogos
etiquetados. En este campo, se presentan diferentes aproximaciones
para realizar la gestión, la mejora del modelo estadÃstico y la
evaluación del sistema del diálogo.
Para la implementación práctica de estas metodologÃas, en el
ámbito de una tarea especÃfica, ha sido necesaria la adquisición y
etiquetado de un corpus de diálogos. El hecho de disponer de un
gran corpus de diálogos ha facilitado el aprendizaje y evaluación
del modelo de gestión desarrollado. Asà mismo, se ha implementado
un sistema de diálogo completo, que permite evaluar el
funcionamiento práctico de las metodologÃas de gestión en
condiciones reales de uso.
Para evaluar las técnicas de gestión del diálogo se proponen
diferentes aproximaciones: la evaluación mediante usuarios reales;
la evaluación con el corpus adquirido, en el cual se han definido
unas particiones de entrenamiento y prueba; y la utilización de
técnicas de simulación de
usuarios. El simulador de usuario desarrollado
permite modelizar de forma estadÃstica el proceso completo del
diálogo. En la aproximación que se presenta, tanto la obtención de
la respuesta del sistema como la generación del turno de usuario
se modelizan como un problema de clasificación, para el que se
codifica como entrada un conjunto de variables que representan el
estado actual del diálogo y como resultado de la clasificación se
obtienen las probabilidades de seleccionar cada una de las
respuestas (secuencia de actos de diálogo) definidas
respectivamente para el usuario y el sistema.Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologÃas para la gestión automática del diálogo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956Palanci
MinerÃa de textos: sistemas de búsqueda de respuestas
El grupo de Análisis de Datos de la Facultad de IngenierÃa de Universidad Católica de Salta viene trabajando desde hace varios años en una lÃnea de investigación sobre fundamentos, técnicas y aplicaciones de la minerÃa de textos mediante una secuencia de proyectos de investigación. Las áreas investigadas incluyen la búsqueda semántica, la categorización automática de documentos de texto, la extracción de entidades con nombre, la generación de resúmenes y la búsqueda automática de respuestas. Esta última es sujeto del proyecto de investigación actual. Tres hilos son comunes a estos proyectos: la aplicación de técnicas de aprendizaje automático, el desarrollo sobre UIMA (Unstructured Information Management Architecture), una arquitectura basada en componentes para construir sistemas de gestión de información no estructurada, y la aplicación a un corpus de más de 8000 documentos de texto correspondientes a resoluciones rectorales de la Universidad.Eje: Base de Datos y MinerÃa de DatosRed de Universidades con Carreras en Informática (RedUNCI
Sistema de descubrimiento de bibliografÃa cientÃfica
Desenvolupament d'un sistema de recomanació de bibliografia cientÃfica trobada a Internet. L'aplicació desenvolupada en llenguatje python llegeix i entén documents en format pdf i dóna una recomanació de silimitud semantica entre els documents
Named Entity Recognition y Topic Modeling: metodologÃa y aplicaciones al procesamiento de texto
El Procesamiento del Lenguaje Natural (NLP) es un campo de la computación que busca
caracterizar automáticamente textos o discursos hablados a través de la identificación de
patrones y ciertas caracterÃsticas. Es un campo muy amplio, que agrupa tareas muy
diversas: Reconocimiento de Entidades Nombradas (NER), modelado de topics o
temáticas (TM), reducción de las palabras a su lexema o identificación de su función
gramatical, interpretación de los sentimientos del autor de un texto, conversión de un texto
a discurso escrito o viceversa, etc.
La idea de este proyecto es el desarrollo de una herramienta para etiquetado de entidades
clave e identificación de la temática en un texto. Se emplea como corpus de documentos
los archivos de subtitulado procedentes de la API de RTVE. En primer lugar, se realiza
una revisión bibliográfica de la documentación de las tecnologÃas existentes en este
ámbito, junto con la implementación de un sistema conjunto con una etapa de
reconocimiento de entidades y otra de modelado de topics. Son evaluadas algunas
alternativas para cada una de las etapas, de las cuáles finalmente se selecciona una
tecnologÃa que se integra en el sistema final (R y Java con Apache OpenNLP para NER,
Python con NLTK y Gensim para TM).
La calidad del sistema conjunto viene condicionada por la calidad de cada parte, que se
evalúa por separado. En la parte de NER, los errores son cuantificables, y se emplean
métricas matemáticas basadas en el caso de error o acierto (recall, precision, accuracy,
specifity, F1 score). En la parte de TM, no existe un resultado único de solución ideal al
que aproximarse, por lo que la evaluación requiere del empleo de herramientas
matemáticas de aproximación, y por ello se exploran varias alternativas (perplejidad,
coherencia). Se considera que el trabajo ha cumplido sus objetivos por haberse
completado las fases de desarrollo y haberse obtenido resultados razonables en las
medidas de evaluación, pero asimismo se plantean nuevas lÃneas abiertas de trabajo, con
las que este proyecto podrÃa desarrollarse más, y en el caso ideal, llegar a implementarse
en las plataformas de RTVE, de donde se han obtenido los documentos empleados como
base de los sistemas.IngenierÃa de Sistemas Audiovisuale
Extracción de relaciones semánticas y entidades en documentos del dominio de salud
"Los métodos de procesamiento del lenguaje natural (PLN) se utilizan cada vez más para extraer conocimientos de textos de salud no estructurados. Por ejemplo, analizar información médica, estructurarla en categorÃas definidas y agruparlas en bases de datos. La organización de la información médica puede ser de utilidad para análisis clÃnicos, para disminuir el número de errores médicos, o puede ayudar a la toma de decisiones más adecuadas en determinados casos. En esta tesis se espera extraer automáticamente una gran variedad de conocimientos de documentos de salud redactados en español. Esta investigación aborda un escenario, donde para resolver las tareas de identificación de entidades y extracción de relaciones semánticas se utiliza una metodologÃa basada en el uso de redes neuronales recurrentes. Para evaluar la metodologÃa se hará uso de las métricas: precisión, exhaustividad y F1"
Clasificación de artÃculos académicos sobre la pandemia de la COVID-19, a través de técnicas de minerÃa de texto
Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que
provoca este virus, la comunidad cientÃfica asà como los distintos actores y organizaciones,
han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo
evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traÃdo a la
población mundial.
El estudio propone realizar la clasificación de artÃculos cientÃficos mediante la
aplicación de técnicas de Machine Learning, a través de mecanismos de representación
semántica de palabras como es Word Embeddings y tecnologÃas basadas en redes
neuronales, analizando los abstracts de artÃculos cientÃficos disponibles en las fuentes de
información como lo es LitCovid. El desarrollo del presente estudio está basado en la
aplicación de la metodologÃa CRISP-DM (CRoss-Industry Standard Process for Data
Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis
fases que describen de manera natural el ciclo de vida de un proyecto de minerÃa de datos,
y debido a que tanto la minerÃa de datos como la de texto buscan obtener conocimiento sea
de grandes volúmenes de datos y de grandes volúmenes de documentos de texto
respectivamente, se adopta como base para el desarrollo del presente estudio esta
metodologÃa.
Para lograr los objetivos propuestos se emplea la metodologÃa adoptada y se
evalúan los resultados de desempeño de aplicar dicha metodologÃa y modelos propuestos.
Los resultados obtenidos demuestran que al aplicar la metodologÃa propuesta se
obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al
emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el
72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento
de emplear modelos de representación semántica del texto.exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el
72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento
de emplear modelos de representación semántica del texto.MagÃster en Gestión Estratégica de TecnologÃas de la InformaciónCuenc
Hacia una educación inclusiva y personalizada mediante el uso de los sistemas de diálogo multimodal
Los continuos avances en el desarrollo de tecnologÃas de la información han dado lugar actualmente a la posibilidad de acceder a los contenidos educativos desde cualquier lugar, en cualquier momento y de forma casi instantánea. Sin embargo, la accesibilidad no es siempre considerada como criterio principal en el diseño de aplicaciones educativas, especialmente para facilitar su utilización por parte de personas con discapacidad. Diferentes tecnologÃas han surgido recientemente para fomentar la accesibilidad a las nuevas tecnologÃas y dispositivos móviles, favoreciendo una comunicación más natural con los sistemas educativos. En este artÃculo se describe el uso innovador de los sistemas de diálogo multimodales en el campo de la educación, con un especial énfasis en la descripción de las ventajas que ofrecen para la creación de aplicaciones educativas inclusivas y adaptadas a la evolución de los estudiantes.Continuous advances in the development of information technologies have currently led to the possibility of accessing learning contents from anywhere, at anytime and almost instantaneously. However, accessibility is not always the main objective in the design of educative applications, specifically to facilitate their adoption by disabled people. Different technologies have recently emerged to foster the accessibility of computers and new mobile devices favouring a more natural communication between the student and the developed educative systems. This paper describes innovative uses of multimodal dialog systems in education, with special emphasis in the advantages that they provide for creating inclusive applications and adapted to the students specific evolution.Trabajo parcialmente financiado por los proyectos MINECO TEC2012-37832-C02-01, CICYT TEC2011-28626-C02-02, CAM CONTEXTS (S2009/TIC-1485) y TRA2010-20225-C03-01.Publicad
- …