181 research outputs found

    Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto

    Get PDF
    Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que provoca este virus, la comunidad científica así como los distintos actores y organizaciones, han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traído a la población mundial. El estudio propone realizar la clasificación de artículos científicos mediante la aplicación de técnicas de Machine Learning, a través de mecanismos de representación semántica de palabras como es Word Embeddings y tecnologías basadas en redes neuronales, analizando los abstracts de artículos científicos disponibles en las fuentes de información como lo es LitCovid. El desarrollo del presente estudio está basado en la aplicación de la metodología CRISP-DM (CRoss-Industry Standard Process for Data Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis fases que describen de manera natural el ciclo de vida de un proyecto de minería de datos, y debido a que tanto la minería de datos como la de texto buscan obtener conocimiento sea de grandes volúmenes de datos y de grandes volúmenes de documentos de texto respectivamente, se adopta como base para el desarrollo del presente estudio esta metodología. Para lograr los objetivos propuestos se emplea la metodología adoptada y se evalúan los resultados de desempeño de aplicar dicha metodología y modelos propuestos. Los resultados obtenidos demuestran que al aplicar la metodología propuesta se obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto.exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto.Magíster en Gestión Estratégica de Tecnologías de la InformaciónCuenc

    Sistemas de diálogo basados en modelos estocásticos

    Full text link
    En la presente tesis, titulada Sistemas de diálogo basados en modelos estocásticos , se expone el estado del arte en el área de los sistemas de diálogo y se presenta el trabajo realizado en el diseño e implementación de los módulos de un sistema de diálogo determinado. La tesis se centra en el estudio de la gestión de diálogo desde una aproximación estadística. La tesis aporta el desarrollo de un sistema de diálogo completo (con entrada y salida de texto, en lengua española, y para una tarea de dominio semántico restringido, la definida en el proyecto de investigación BASURDE). Dicho sistema está constituido por los módulos de comprensión del lenguaje natural, de gestión del diálogo y de generación de respuestas en lenguaje natural. Dado el objetivo central de la tesis, el desarrollo del módulo gestor de diálogo ha sido el principal trabajo y, en consecuencia, es expuesto con la máxima amplitud en la presente memoria. El limitado tamaño del corpus de diálogos de la tarea BASURDE ha supuesto una severa dificultad en el desarrollo de un gestor de diálogo basado exclusivamente en modelos estadísticos. El módulo gestor de diálogo finalmente implementado determina su estrategia de diálogo mediante la combinación de varias fuentes de conocimiento: unas de carácter estocástico, los modelos aprendidos a partir del corpus; otras de arácter heurístico, reglas que incorporan conocimiento pragmático y semántico, ya sea genérico o específico de la tarea. Por último, se ha considerado la simulación de los usuarios como una técnica lternativa para fines como la evaluación del comportamiento del sistema de diálogo, la ampliación del corpus mediante diálogos sintéticos, o el aprendizaje dinámico de los modelos estocásticos de diálogo. Se han diseñado e implementado los correspondientes módulos simuladores de usuario, estudiándose las posibilidades de esta técnica.objetivo central de la tesis, el desarrollo del módulo gestor de diálogo ha sido el principal trabajo y, en onsecuenciaTorres Goterris, F. (2006). Sistemas de diálogo basados en modelos estocásticos [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1901Palanci

    Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo

    Full text link
    El objetivo principal de la tesis que se presenta es el estudio y desarrollo de diferentes metodologías para la gestión del diálogo en sistemas de diálogo hablado. El principal reto planteado en la tesis reside en el desarrollo de metodologías puramente estadísticas para la gestión del diálogo, basadas en el aprendizaje de un modelo a partir de un corpus de diálogos etiquetados. En este campo, se presentan diferentes aproximaciones para realizar la gestión, la mejora del modelo estadístico y la evaluación del sistema del diálogo. Para la implementación práctica de estas metodologías, en el ámbito de una tarea específica, ha sido necesaria la adquisición y etiquetado de un corpus de diálogos. El hecho de disponer de un gran corpus de diálogos ha facilitado el aprendizaje y evaluación del modelo de gestión desarrollado. Así mismo, se ha implementado un sistema de diálogo completo, que permite evaluar el funcionamiento práctico de las metodologías de gestión en condiciones reales de uso. Para evaluar las técnicas de gestión del diálogo se proponen diferentes aproximaciones: la evaluación mediante usuarios reales; la evaluación con el corpus adquirido, en el cual se han definido unas particiones de entrenamiento y prueba; y la utilización de técnicas de simulación de usuarios. El simulador de usuario desarrollado permite modelizar de forma estadística el proceso completo del diálogo. En la aproximación que se presenta, tanto la obtención de la respuesta del sistema como la generación del turno de usuario se modelizan como un problema de clasificación, para el que se codifica como entrada un conjunto de variables que representan el estado actual del diálogo y como resultado de la clasificación se obtienen las probabilidades de seleccionar cada una de las respuestas (secuencia de actos de diálogo) definidas respectivamente para el usuario y el sistema.Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956Palanci

    Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes 

    Get PDF
    Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic

    Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes 

    Get PDF
    Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic

    Clasificación automática basada en análisis espectral

    Get PDF
    Esta tesis aborda la definición de un método numérico basado en invariantes para la clasificación automática de objetos a partir de la información de sus caracteres, focalizado en la búsqueda de las invariantes con base en una aplicación original metodológica de los principios de superposición e interferencia en el análisis de espectros, en congruencia analógica con la taxonomía numérica, por su relación lógica y con fortaleza metodológica.Facultad de Informátic

    Inteligencia computacional en sistemas de teleasistencia en domicilios

    Get PDF
    156 p.Este trabajo presenta un sistema inteligente de predicción del comportamiento de cara a prevenir situaciones de riesgo en el hogar, y que está orientado principalmente orientado a personas mayores. El sistema presenta una modelo híbrido basado en Reglas Heurísticas introducidas por expertos en el dominio, y un Módulo de Detección Automática de Patrones, conformado por un sistema combinado de clasificadores basados en técnicas de Inteligencia Artificial. El sistema ha sido probado en entornos reales y productivos en diversos domicilios. Para lograrlo, el sistema utiliza por un lado la información de sensores simples en el hogar, por otro el conocimiento de sus actividades físicas recopiladas por aplicaciones móviles y por último la información de salud personalizada basada en informes clínicos codificados en el sistema. Actualmente, se está implantando en condiciones reales, con una precisión superior al 81%

    Inteligencia computacional en sistemas de teleasistencia en domicilios

    Get PDF
    156 p.Este trabajo presenta un sistema inteligente de predicción del comportamiento de cara a prevenir situaciones de riesgo en el hogar, y que está orientado principalmente orientado a personas mayores. El sistema presenta una modelo híbrido basado en Reglas Heurísticas introducidas por expertos en el dominio, y un Módulo de Detección Automática de Patrones, conformado por un sistema combinado de clasificadores basados en técnicas de Inteligencia Artificial. El sistema ha sido probado en entornos reales y productivos en diversos domicilios. Para lograrlo, el sistema utiliza por un lado la información de sensores simples en el hogar, por otro el conocimiento de sus actividades físicas recopiladas por aplicaciones móviles y por último la información de salud personalizada basada en informes clínicos codificados en el sistema. Actualmente, se está implantando en condiciones reales, con una precisión superior al 81%

    Métodos y Modelos para la Predicción Electoral: Una Guía Práctica

    Get PDF
    El objetivo de este libro es proporcionar una visión una visión integral y actualizada de los principales modelos y métodos utilizados, especialmente en ciencia social computacional, para la predicción electoral. Para ello se consideran tanto enfoques teóricos fundamentales como aplicaciones prácticas. Además, el libro pretende fomentar el desarrollo de habilidades analíticas y críticas en el lector, facilitando la comprensión de los conceptos clave y la aplicación de los métodos en su trabajo o investigación. “Métodos y Modelos para la Predicción Electoral: Una Guía Práctica" es una obra destinada a proporcionar a investigadores, profesionales y estudiantes una comprensión sólida y práctica de las técnicas y enfoques utilizados en el análisis y predicción de resultados electorales. Con la creciente importancia de las campañas políticas en la era digital, este libro llega en un momento crucial para abordar las necesidades de quienes buscan comprender y aplicar métodos eficaces en este ámbito.Financiado por la Unión Europea - NextGenerationEU

    Significado, distribución y frecuencia de la categoría preposicional en español. Una aproximación computacional

    Get PDF
    [spa] La categoría preposicional ha sido, tradicionalmente, una clase de palabra provista de rasgos lingüísticos y conductas gramaticales controvertidas. En la tesis, Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional, se examina la naturaleza de esa controversia a la luz de una metodología cuantitativa, computacional y de lingüística de corpus. La brecha más inexplicada en la historia de su análisis gramatical ha sido cómo identificar su significado. Con frecuencia las nociones descriptivas sobre la semántica de la preposición han sido observadas como subsidiarias de su papel sintáctico, vía caso o asignación de papeles temáticos. Este hecho, sin embargo, no es más que el reconocimiento de que su significado incide, también, en su tarea global dentro de la gramática. Desde una concepción neodistribucionalista, según la cual el significado de las piezas o elementos lingüísticos se encuentra en su distribución contextual, la hipótesis que se plantea es que esa expresión semántica de las preposiciones en español se produce de manera gradual. La denominada Hipótesis Gradual del Significado, aplicada a la categoría preposicional en español, nos permite establecer subclases preposicionales, desde la funcionalidad hasta la lexicidad, pasado por clases intermedias como semifuncionales y semiléxicas. La justificación empírica de la Hipótesis Gradual del Significado se realiza a partir de cuatro experimentos. El primero de ellos se inserta en la metodología del aprendizaje automático (machine learning). Para ello, y usando la técnica del clustering, observamos un conjunto de 79.097 tripletas de la forma X – P – Z, donde P es una preposición del español –basadas en sintagmas preposicionales complementos-. Estas tripletas dependen de una serie de verbos de movimiento del español para las preposiciones a, hacia y hasta extraídas de cuatro corpus lingüísticos muy reconocidos del español. Una vez obtenidas las agrupaciones automáticas se evalúan porcentualmente a partir de la coincidencia entre las predicciones del anotador humano –las clases preposicionales sugeridas- y de la máquina –los clusters-. En el segundo y el tercer experimentos utilizamos otra metodología y acudimos a la medición de la entropía –magnitud de la Teoría de la Información-. En el segundo clasificamos los nombres de 3.898 tripletas que dependen de una serie de verbos del español que representan la mayoría de campos semánticos; y en el tercero son 3903 que complementan a otros nombres. Esta clasificación de los nombres se realiza a partir de una propuesta de seis tipos de categorías semánticas: Animado, Inanimado, Entidad abstracta, Locativo, Temporal y Evento. Una vez clasificados los nombres se mide su organización entrópica y se verifica que existe una correlación entre el grado de entropía y la clase preposicional: a mayor entropía mayor significado. El cuarto experimento parte del uso preposicional. A partir de un test de 90 respuestas con las clases preposicionales de la hipótesis se recogen las respuestas de 366 participantes y se analiza el grado de variación de esas respuestas según la clase preposicional. De nuevo volvemos a usar la entropía como índice de identificación del significado. Sometemos los resultados a ciertas pruebas de control estadístico para verificar la fiabilidad de las muestras, de la significancia y de la coincidencia entre observadores (coeficiente kappa de Cohen). El balance de los cuatro experimentos –a través de los resultados- es favorable a la predicción de la hipótesis. Asimismo, la diversidad de herramientas de análisis es una forma metodológicamente robusta para la investigación y sus conclusiones. Finalmente, se indica que la hipótesis abre perspectivas de futuro en áreas como el contraste interlingüístico –de familias tipológicamente diversas en la expresión adposicional-, o la afasiología como disciplina que se interroga por las relaciones entre errores y valores gramaticales.[eng] The prepositional category has traditionally been a word group endowed controversial traits concerning both its linguistic features and its grammatical behaviors. In this thesis the controversy is examined from a quantitative, computational and linguistic methodology point of wiew. The most unexplained gap in the story of this difficulty of analysis lies in the fact of how its meaning can be identified. From a neo-distributionalism conception, according to which the meaning of the linguistic pieces is in their contextual distribution, the hypothesis that arises is that this semantic expression of the prepositions in Spanish is gradual. The so-called Gradual Meaning Hypothesis establishes four prepositional subclasses, from functional to lexical, through intermediate phases such as semi-functional and semi-lexical. The empirical justification of the Gradual Hypothesis of Meaning is performed with four experiments. The first one experiment is inserted in the machine learning methodology. To do this, and using the clustering technique, we observed a set of 79,097 triplets of the form X - P - Z, where P is a preposition of Spanish - based on complementary prepositional phrases. They are triplets with the prepositions a, hacia and hasta of movement verbs, and they are extracted from four well-known linguistic corpus of Spanish. Once the automatic groupings have been obtained, we indicate to what extent, the percentage between the predictions of the human scorer - the suggested prepositional classes - and the machine - the clusters - are confirmed. In the second and third experiments, we changed our methodology and turned to the measurement of entropy –variable in Information Theory-. In the second onewe classify the names of 3,898 triplets that depend on verbs that appear on most semantic fields in Spanish; and in the third one we classify 3903 triplets that complement other names. This name classification is based on a proposal of six types of semantic categories: Animate, Inanimate, Abstract Entity, Locative, Temporary and Event. Once the names are classified, their entropic organization is measured and it is verified that there is a correlation between the degree of entropy and the prepositional class: the greater the entropy, the greater the meaning. The fourth experiment starts with prepositional use. From a test the degree of variation of these responses is analyzed according to the prepositional class. Again we use entropy as an index of identification of meaning. The balance of the four experiments - through the results - is favorable to the prediction of the hypothesis. The diversity of analysis tools is a methodologically robust way for the research and its conclusions
    corecore