181 research outputs found
Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que
provoca este virus, la comunidad científica así como los distintos actores y organizaciones,
han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo
evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traído a la
población mundial.
El estudio propone realizar la clasificación de artículos científicos mediante la
aplicación de técnicas de Machine Learning, a través de mecanismos de representación
semántica de palabras como es Word Embeddings y tecnologías basadas en redes
neuronales, analizando los abstracts de artículos científicos disponibles en las fuentes de
información como lo es LitCovid. El desarrollo del presente estudio está basado en la
aplicación de la metodología CRISP-DM (CRoss-Industry Standard Process for Data
Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis
fases que describen de manera natural el ciclo de vida de un proyecto de minería de datos,
y debido a que tanto la minería de datos como la de texto buscan obtener conocimiento sea
de grandes volúmenes de datos y de grandes volúmenes de documentos de texto
respectivamente, se adopta como base para el desarrollo del presente estudio esta
metodología.
Para lograr los objetivos propuestos se emplea la metodología adoptada y se
evalúan los resultados de desempeño de aplicar dicha metodología y modelos propuestos.
Los resultados obtenidos demuestran que al aplicar la metodología propuesta se
obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al
emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el
72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento
de emplear modelos de representación semántica del texto.exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el
72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento
de emplear modelos de representación semántica del texto.Magíster en Gestión Estratégica de Tecnologías de la InformaciónCuenc
Sistemas de diálogo basados en modelos estocásticos
En la presente tesis, titulada Sistemas de diálogo basados en modelos estocásticos , se expone el estado del arte en el área de los sistemas de diálogo y se presenta el trabajo realizado en el diseño e implementación de los módulos de un sistema de diálogo determinado. La tesis se centra en el estudio de la gestión de diálogo desde una aproximación estadística. La tesis aporta el desarrollo de un sistema de diálogo completo (con entrada y salida de texto, en lengua española, y para una tarea de dominio semántico restringido, la definida en el proyecto de investigación BASURDE). Dicho sistema está constituido por los módulos de comprensión
del lenguaje natural, de gestión del diálogo y de generación de respuestas en lenguaje natural. Dado el objetivo central de la tesis, el desarrollo del módulo gestor de diálogo ha sido el principal trabajo y, en consecuencia, es expuesto con la máxima amplitud en la presente memoria.
El limitado tamaño del corpus de diálogos de la tarea BASURDE ha supuesto una severa dificultad en el desarrollo de un gestor de diálogo basado exclusivamente en modelos estadísticos. El módulo gestor de diálogo finalmente implementado determina su estrategia de diálogo mediante la combinación de varias fuentes de conocimiento: unas de carácter estocástico, los modelos aprendidos a partir del corpus; otras de arácter heurístico, reglas que incorporan conocimiento pragmático y semántico, ya sea genérico o específico
de la tarea.
Por último, se ha considerado la simulación de los usuarios como una técnica lternativa para fines como la evaluación del comportamiento del sistema de diálogo, la ampliación del corpus mediante diálogos sintéticos, o el aprendizaje dinámico de los modelos estocásticos de diálogo. Se han diseñado e implementado los correspondientes módulos simuladores de usuario, estudiándose las posibilidades de esta técnica.objetivo central de la tesis, el desarrollo del módulo gestor de diálogo ha sido el principal trabajo y, en onsecuenciaTorres Goterris, F. (2006). Sistemas de diálogo basados en modelos estocásticos [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1901Palanci
Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo
El objetivo principal de la tesis que se presenta es el estudio y
desarrollo de diferentes metodologías para la gestión del diálogo
en sistemas de diálogo hablado. El principal reto planteado en la
tesis reside en el desarrollo de metodologías puramente
estadísticas para la gestión del diálogo, basadas en el
aprendizaje de un modelo a partir de un corpus de diálogos
etiquetados. En este campo, se presentan diferentes aproximaciones
para realizar la gestión, la mejora del modelo estadístico y la
evaluación del sistema del diálogo.
Para la implementación práctica de estas metodologías, en el
ámbito de una tarea específica, ha sido necesaria la adquisición y
etiquetado de un corpus de diálogos. El hecho de disponer de un
gran corpus de diálogos ha facilitado el aprendizaje y evaluación
del modelo de gestión desarrollado. Así mismo, se ha implementado
un sistema de diálogo completo, que permite evaluar el
funcionamiento práctico de las metodologías de gestión en
condiciones reales de uso.
Para evaluar las técnicas de gestión del diálogo se proponen
diferentes aproximaciones: la evaluación mediante usuarios reales;
la evaluación con el corpus adquirido, en el cual se han definido
unas particiones de entrenamiento y prueba; y la utilización de
técnicas de simulación de
usuarios. El simulador de usuario desarrollado
permite modelizar de forma estadística el proceso completo del
diálogo. En la aproximación que se presenta, tanto la obtención de
la respuesta del sistema como la generación del turno de usuario
se modelizan como un problema de clasificación, para el que se
codifica como entrada un conjunto de variables que representan el
estado actual del diálogo y como resultado de la clasificación se
obtienen las probabilidades de seleccionar cada una de las
respuestas (secuencia de actos de diálogo) definidas
respectivamente para el usuario y el sistema.Griol Barres, D. (2007). Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1956Palanci
Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes
Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic
Análisis de los comentarios en español de usuarios de Facebook para la clasificación de publicaciones utilizando técnicas inteligentes
Actualmente, la interacción de las personas mediante redes sociales está crecimiento exponencialmente. Motivo por el cual se optó elegir una de ellas, como nuestra fuente de información, y a partir de la misma poder captar las espontáneas manifestaciones de sentimientos por parte de los usuarios. Los datos en cuestión fueron transformados, utilizando diversas técnicas de Procesamiento del Lenguaje Natural. Posteriormente se realizó el entrenamiento de algoritmos de Machine Learning, con el fin de ser utilizado para el Análisis de Sentimiento, llevando a cabo un estudio comparativo respecto de la performance de los mismos.Facultad de Informátic
Clasificación automática basada en análisis espectral
Esta tesis aborda la definición de un método numérico basado en invariantes para la clasificación automática de objetos a partir de la información de sus caracteres, focalizado en la búsqueda de las invariantes con base en una aplicación original metodológica de los principios de superposición e interferencia en el análisis de espectros, en congruencia analógica con la taxonomía numérica, por su relación lógica y con fortaleza metodológica.Facultad de Informátic
Inteligencia computacional en sistemas de teleasistencia en domicilios
156 p.Este trabajo presenta un sistema inteligente de predicción del comportamiento de cara a prevenir situaciones de riesgo en el hogar, y que está orientado principalmente orientado a personas mayores. El sistema presenta una modelo híbrido basado en Reglas Heurísticas introducidas por expertos en el dominio, y un Módulo de Detección Automática de Patrones, conformado por un sistema combinado de clasificadores basados en técnicas de Inteligencia Artificial. El sistema ha sido probado en entornos reales y productivos en diversos domicilios. Para lograrlo, el sistema utiliza por un lado la información de sensores simples en el hogar, por otro el conocimiento de sus actividades físicas recopiladas por aplicaciones móviles y por último la información de salud personalizada basada en informes clínicos codificados en el sistema. Actualmente, se está implantando en condiciones reales, con una precisión superior al 81%
Inteligencia computacional en sistemas de teleasistencia en domicilios
156 p.Este trabajo presenta un sistema inteligente de predicción del comportamiento de cara a prevenir situaciones de riesgo en el hogar, y que está orientado principalmente orientado a personas mayores. El sistema presenta una modelo híbrido basado en Reglas Heurísticas introducidas por expertos en el dominio, y un Módulo de Detección Automática de Patrones, conformado por un sistema combinado de clasificadores basados en técnicas de Inteligencia Artificial. El sistema ha sido probado en entornos reales y productivos en diversos domicilios. Para lograrlo, el sistema utiliza por un lado la información de sensores simples en el hogar, por otro el conocimiento de sus actividades físicas recopiladas por aplicaciones móviles y por último la información de salud personalizada basada en informes clínicos codificados en el sistema. Actualmente, se está implantando en condiciones reales, con una precisión superior al 81%
Métodos y Modelos para la Predicción Electoral: Una Guía Práctica
El objetivo de este libro es proporcionar una visión una visión integral y actualizada de los principales modelos y métodos utilizados, especialmente en ciencia social computacional, para la predicción electoral. Para ello se consideran tanto enfoques teóricos fundamentales como aplicaciones prácticas. Además, el libro pretende fomentar el desarrollo de habilidades analíticas y críticas en el lector, facilitando la comprensión de los conceptos clave y la aplicación de los métodos en su trabajo o investigación. “Métodos y Modelos para la Predicción Electoral: Una Guía Práctica" es una obra destinada a proporcionar a investigadores, profesionales y estudiantes una comprensión sólida y práctica de las técnicas y enfoques utilizados en el análisis y predicción de resultados electorales. Con la creciente importancia de las campañas políticas en la era digital, este libro llega en un momento crucial para abordar las necesidades de quienes buscan comprender y aplicar métodos eficaces en este ámbito.Financiado por la Unión Europea - NextGenerationEU
Significado, distribución y frecuencia de la categoría preposicional en español. Una aproximación computacional
[spa] La categoría preposicional ha sido, tradicionalmente, una clase de palabra provista de rasgos lingüísticos y conductas gramaticales controvertidas. En la tesis, Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional, se examina la naturaleza de esa controversia a la luz de una metodología cuantitativa, computacional y de lingüística de corpus. La brecha más inexplicada en la historia de su análisis gramatical ha sido cómo identificar su significado. Con frecuencia las nociones descriptivas sobre la semántica de la preposición han sido observadas como subsidiarias de su papel sintáctico, vía caso o asignación de papeles temáticos. Este hecho, sin embargo, no es más que el reconocimiento de que su significado incide, también, en su tarea global dentro de la gramática. Desde una concepción neodistribucionalista, según la cual el significado de las piezas o elementos lingüísticos se encuentra en su distribución contextual, la hipótesis que se plantea es que esa expresión semántica de las preposiciones en español se produce de manera gradual. La denominada Hipótesis Gradual del Significado, aplicada a la categoría preposicional en español, nos permite establecer subclases preposicionales, desde la funcionalidad hasta la lexicidad, pasado por clases intermedias como semifuncionales y semiléxicas. La justificación empírica de la Hipótesis Gradual del Significado se realiza a partir de cuatro experimentos. El primero de ellos se inserta en la metodología del aprendizaje automático (machine learning). Para ello, y usando la técnica del clustering, observamos un conjunto de 79.097 tripletas de la forma X – P – Z, donde P es una preposición del español –basadas en sintagmas preposicionales complementos-. Estas tripletas dependen de una serie de verbos de movimiento del español para las preposiciones a, hacia y hasta extraídas de cuatro corpus lingüísticos muy reconocidos del español. Una vez obtenidas las agrupaciones automáticas se evalúan porcentualmente a partir de la coincidencia entre las predicciones del anotador humano –las clases preposicionales sugeridas- y de la máquina –los clusters-. En el segundo y el tercer experimentos utilizamos otra metodología y acudimos a la medición de la entropía –magnitud de la Teoría de la Información-. En el segundo clasificamos los nombres de 3.898 tripletas que dependen de una serie de verbos del español que representan la mayoría de campos semánticos; y en el tercero son 3903 que complementan a otros nombres. Esta clasificación de los nombres se realiza a partir de una propuesta de seis tipos de categorías semánticas: Animado, Inanimado, Entidad abstracta, Locativo, Temporal y Evento. Una vez clasificados los nombres se mide su organización entrópica y se verifica que existe una correlación entre el grado de entropía y la clase preposicional: a mayor entropía mayor significado. El cuarto experimento parte del uso preposicional. A partir de un test de 90 respuestas con las clases preposicionales de la hipótesis se recogen las respuestas de 366 participantes y se analiza el grado de variación de esas respuestas según la clase preposicional. De nuevo volvemos a usar la entropía como índice de identificación del significado. Sometemos los resultados a ciertas pruebas de control estadístico para verificar la fiabilidad de las muestras, de la significancia y de la coincidencia entre observadores (coeficiente kappa de Cohen). El balance de los cuatro experimentos –a través de los resultados- es favorable a la predicción de la hipótesis. Asimismo, la diversidad de herramientas de análisis es una forma metodológicamente robusta para la investigación y sus conclusiones. Finalmente, se indica que la hipótesis abre perspectivas de futuro en áreas como el contraste interlingüístico –de familias tipológicamente diversas en la expresión adposicional-, o la afasiología como disciplina que se interroga por las relaciones entre errores y valores gramaticales.[eng] The prepositional category has traditionally been a word group endowed controversial traits concerning both its linguistic features and its grammatical behaviors. In this thesis the controversy is examined from a quantitative, computational and linguistic methodology point of wiew. The most unexplained gap in the story of this difficulty of analysis lies in the fact of how its meaning can be identified. From a neo-distributionalism conception, according to which the meaning of the linguistic pieces is in their contextual distribution, the hypothesis that arises is that this semantic expression of the prepositions in Spanish is gradual. The so-called Gradual Meaning Hypothesis establishes four prepositional subclasses, from functional to lexical, through intermediate phases such as semi-functional and semi-lexical. The empirical justification of the Gradual Hypothesis of Meaning is performed with four experiments. The first one experiment is inserted in the machine learning methodology. To do this, and using the clustering technique, we observed a set of 79,097 triplets of the form X - P - Z, where P is a preposition of Spanish - based on complementary prepositional phrases. They are triplets with the prepositions a, hacia and hasta of movement verbs, and they are extracted from four well-known linguistic corpus of Spanish. Once the automatic groupings have been obtained, we indicate to what extent, the percentage between the predictions of the human scorer - the suggested prepositional classes - and the machine - the clusters - are confirmed. In the second and third experiments, we changed our methodology and turned to the measurement of entropy –variable in Information Theory-. In the second onewe classify the names of 3,898 triplets that depend on verbs that appear on most semantic fields in Spanish; and in the third one we classify 3903 triplets that complement other names. This name classification is based on a proposal of six types of semantic categories: Animate, Inanimate, Abstract Entity, Locative, Temporary and Event. Once the names are classified, their entropic organization is measured and it is verified that there is a correlation between the degree of entropy and the prepositional class: the greater the entropy, the greater the meaning. The fourth experiment starts with prepositional use. From a test the degree of variation of these responses is analyzed according to the prepositional class. Again we use entropy as an index of identification of meaning. The balance of the four experiments - through the results - is favorable to the prediction of the hypothesis. The diversity of analysis tools is a methodologically robust way for the research and its conclusions
- …