1,970 research outputs found

    Categorización automática de respuestas aplicando algoritmos de clasificación supervisada al análisis de las contestaciones de estudiantes a una serie de preguntas tipo test

    Get PDF
    Durante los últimos años se ha evidenciado el creciente interés por el aprendizaje automático para la clasificación y categorización de documentos, textos, preguntas. Esto permite automatizar procesos que si se hicieran con la intervención del ser humano podrían tener un alto costo en tiempo, y abre las puertas para su implementación con sistemas incluyentes para estudiantes con discapacidades físicas. En este artículo se describe un trabajo de investigación que utiliza técnicas de minería de datos para obtener clasificadores que permitan identificar automáticamente las respuestas correctas expresadas por los estudiantes y éstas son asociadas a una pregunta con distintas opciones que son parte del proceso de evaluación de los conocimientos adquiridos de los estudiantes durante su proceso formativo. Atendiendo a estas consideraciones se utilizó un corpus con preguntas de diferentes categorías, donde cada pregunta tenía múltiples opciones factibles para ser seleccionadas; sin embargo a cada pregunta le pertenecía una sola respuesta correcta. Se transcribió las respuestas dadas por los estudiantes de la Modalidad Abierta y a Distancia de la Universidad Técnica Particular de Loja teniendo un total de 12960 transcripciones de las respuestas verbales que se obtuvieron de los estudiantes en español. Los resultados obtenidos mediante diferentes algoritmos de clasificación son presentados, analizados y comparados

    Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo

    Full text link
    El objetivo principal de la tesis que se presenta es el estudio y desarrollo de diferentes metodologías para la gestión del diálogo en sistemas de diálogo hablado. El principal reto planteado en la tesis reside en el desarrollo de metodologías puramente estadísticas para la gestión del diálogo, basadas en el aprendizaje de un modelo a partir de un corpus de diálogos etiquetados. En este campo, se presentan diferentes aproximaciones para realizar la gestión, la mejora del modelo estadístico y la evaluación del sistema del diálogo. Para la implementación práctica de estas metodologías, en el ámbito de una tarea específica, ha sido necesaria la adquisición y etiquetado de un corpus de diálogos. El hecho de disponer de un gran corpus de diálogos ha facilitado el aprendizaje y evaluación del modelo de gestión desarrollado. Así mismo, se ha implementado un sistema de diálogo completo, que permite evaluar el funcionamiento práctico de las metodologías de gestión en condiciones reales de uso. Para evaluar las técnicas de gestión del diálogo se proponen diferentes aproximaciones: la evaluación mediante usuarios reales; la evaluación con el corpus adquirido, en el cual se han definido unas particiones de entrenamiento y prueba; y la utilización de técnicas de simulación de usuarios. El simulador de usuario desarrollado permite modelizar de forma estadística el proceso completo del diálogo. En la aproximación que se presenta, tanto la obtención de la respuesta del sistema como la generación del turno de usuario se modelizan como un problema de clasificación, para el que se codifica como entrada un conjunto de variables que representan el estado actual del diálogo y como resultado de la clasificación se obtienen las probabilidades de seleccionar cada una de las respuestas (secuencia de actos de diálogo) definidas respectivamente para el usuario y el sistema.Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956Palanci

    Minería de textos: sistemas de búsqueda de respuestas

    Get PDF
    El grupo de Análisis de Datos de la Facultad de Ingeniería de Universidad Católica de Salta viene trabajando desde hace varios años en una línea de investigación sobre fundamentos, técnicas y aplicaciones de la minería de textos mediante una secuencia de proyectos de investigación. Las áreas investigadas incluyen la búsqueda semántica, la categorización automática de documentos de texto, la extracción de entidades con nombre, la generación de resúmenes y la búsqueda automática de respuestas. Esta última es sujeto del proyecto de investigación actual. Tres hilos son comunes a estos proyectos: la aplicación de técnicas de aprendizaje automático, el desarrollo sobre UIMA (Unstructured Information Management Architecture), una arquitectura basada en componentes para construir sistemas de gestión de información no estructurada, y la aplicación a un corpus de más de 8000 documentos de texto correspondientes a resoluciones rectorales de la Universidad.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Sistema de descubrimiento de bibliografía científica

    Get PDF
    Desenvolupament d'un sistema de recomanació de bibliografia científica trobada a Internet. L'aplicació desenvolupada en llenguatje python llegeix i entén documents en format pdf i dóna una recomanació de silimitud semantica entre els documents

    Named Entity Recognition y Topic Modeling: metodología y aplicaciones al procesamiento de texto

    Get PDF
    El Procesamiento del Lenguaje Natural (NLP) es un campo de la computación que busca caracterizar automáticamente textos o discursos hablados a través de la identificación de patrones y ciertas características. Es un campo muy amplio, que agrupa tareas muy diversas: Reconocimiento de Entidades Nombradas (NER), modelado de topics o temáticas (TM), reducción de las palabras a su lexema o identificación de su función gramatical, interpretación de los sentimientos del autor de un texto, conversión de un texto a discurso escrito o viceversa, etc. La idea de este proyecto es el desarrollo de una herramienta para etiquetado de entidades clave e identificación de la temática en un texto. Se emplea como corpus de documentos los archivos de subtitulado procedentes de la API de RTVE. En primer lugar, se realiza una revisión bibliográfica de la documentación de las tecnologías existentes en este ámbito, junto con la implementación de un sistema conjunto con una etapa de reconocimiento de entidades y otra de modelado de topics. Son evaluadas algunas alternativas para cada una de las etapas, de las cuáles finalmente se selecciona una tecnología que se integra en el sistema final (R y Java con Apache OpenNLP para NER, Python con NLTK y Gensim para TM). La calidad del sistema conjunto viene condicionada por la calidad de cada parte, que se evalúa por separado. En la parte de NER, los errores son cuantificables, y se emplean métricas matemáticas basadas en el caso de error o acierto (recall, precision, accuracy, specifity, F1 score). En la parte de TM, no existe un resultado único de solución ideal al que aproximarse, por lo que la evaluación requiere del empleo de herramientas matemáticas de aproximación, y por ello se exploran varias alternativas (perplejidad, coherencia). Se considera que el trabajo ha cumplido sus objetivos por haberse completado las fases de desarrollo y haberse obtenido resultados razonables en las medidas de evaluación, pero asimismo se plantean nuevas líneas abiertas de trabajo, con las que este proyecto podría desarrollarse más, y en el caso ideal, llegar a implementarse en las plataformas de RTVE, de donde se han obtenido los documentos empleados como base de los sistemas.Ingeniería de Sistemas Audiovisuale

    Extracción de relaciones semánticas y entidades en documentos del dominio de salud

    Get PDF
    "Los métodos de procesamiento del lenguaje natural (PLN) se utilizan cada vez más para extraer conocimientos de textos de salud no estructurados. Por ejemplo, analizar información médica, estructurarla en categorías definidas y agruparlas en bases de datos. La organización de la información médica puede ser de utilidad para análisis clínicos, para disminuir el número de errores médicos, o puede ayudar a la toma de decisiones más adecuadas en determinados casos. En esta tesis se espera extraer automáticamente una gran variedad de conocimientos de documentos de salud redactados en español. Esta investigación aborda un escenario, donde para resolver las tareas de identificación de entidades y extracción de relaciones semánticas se utiliza una metodología basada en el uso de redes neuronales recurrentes. Para evaluar la metodología se hará uso de las métricas: precisión, exhaustividad y F1"

    Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto

    Get PDF
    Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que provoca este virus, la comunidad científica así como los distintos actores y organizaciones, han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traído a la población mundial. El estudio propone realizar la clasificación de artículos científicos mediante la aplicación de técnicas de Machine Learning, a través de mecanismos de representación semántica de palabras como es Word Embeddings y tecnologías basadas en redes neuronales, analizando los abstracts de artículos científicos disponibles en las fuentes de información como lo es LitCovid. El desarrollo del presente estudio está basado en la aplicación de la metodología CRISP-DM (CRoss-Industry Standard Process for Data Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis fases que describen de manera natural el ciclo de vida de un proyecto de minería de datos, y debido a que tanto la minería de datos como la de texto buscan obtener conocimiento sea de grandes volúmenes de datos y de grandes volúmenes de documentos de texto respectivamente, se adopta como base para el desarrollo del presente estudio esta metodología. Para lograr los objetivos propuestos se emplea la metodología adoptada y se evalúan los resultados de desempeño de aplicar dicha metodología y modelos propuestos. Los resultados obtenidos demuestran que al aplicar la metodología propuesta se obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto.exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto.Magíster en Gestión Estratégica de Tecnologías de la InformaciónCuenc

    Hacia una educación inclusiva y personalizada mediante el uso de los sistemas de diálogo multimodal

    Get PDF
    Los continuos avances en el desarrollo de tecnologías de la información han dado lugar actualmente a la posibilidad de acceder a los contenidos educativos desde cualquier lugar, en cualquier momento y de forma casi instantánea. Sin embargo, la accesibilidad no es siempre considerada como criterio principal en el diseño de aplicaciones educativas, especialmente para facilitar su utilización por parte de personas con discapacidad. Diferentes tecnologías han surgido recientemente para fomentar la accesibilidad a las nuevas tecnologías y dispositivos móviles, favoreciendo una comunicación más natural con los sistemas educativos. En este artículo se describe el uso innovador de los sistemas de diálogo multimodales en el campo de la educación, con un especial énfasis en la descripción de las ventajas que ofrecen para la creación de aplicaciones educativas inclusivas y adaptadas a la evolución de los estudiantes.Continuous advances in the development of information technologies have currently led to the possibility of accessing learning contents from anywhere, at anytime and almost instantaneously. However, accessibility is not always the main objective in the design of educative applications, specifically to facilitate their adoption by disabled people. Different technologies have recently emerged to foster the accessibility of computers and new mobile devices favouring a more natural communication between the student and the developed educative systems. This paper describes innovative uses of multimodal dialog systems in education, with special emphasis in the advantages that they provide for creating inclusive applications and adapted to the students specific evolution.Trabajo parcialmente financiado por los proyectos MINECO TEC2012-37832-C02-01, CICYT TEC2011-28626-C02-02, CAM CONTEXTS (S2009/TIC-1485) y TRA2010-20225-C03-01.Publicad
    • …
    corecore