117 research outputs found

    Creación de corpus de palabras embebidas de tweets generados en Argentina

    Get PDF
    El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde frecuentemente las personas se expresan libremente es Twitter, y por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial.Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people frequently express themselves freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent the texts in a suitable way so that they can then be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter using Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space

    Implemetación de clasificador de noticias en idioma español para la identificación de Fake News mediante el análisis, traducción automática y validación de un conjunto de datos en inglés, y el uso de técnicas de aprendizaje máquina y procesamiento de lenguaje natural

    Get PDF
    El presente trabajo presenta la implementación de un clasificador de noticias que permite la identificación de noticias falsas en el idioma español. Dicho clasificador se basa en el entrenamiento de modelos de aprendizaje automático supervisado mediante el uso de técnicas y herramientas de procesamiento de lenguaje natural. Uno de los mayores desafíos de este trabajo es la escasez de conjuntos de datos en español que puedan ser utilizados para el entrenamiento de los modelos de aprendizaje automático. Como respuesta a este desafío, se hace uso de la metodología del backtranslation y de la métrica METEOR (Banerjee y Lavie 2005) para la evaluación de la traducción automática de un conjunto de datos de noticias falsas en idioma inglés hacia el idioma español. Dicho conjunto de datos traducido es después utilizado como fuente de datos para el entrenamiento del modelo de aprendizaje automático. Debido a que ningún modelo de aprendizaje automático puede utilizar una muestra textual directamente para su entrenamiento, se realiza la implementación de un transformador que permite la extracción de características semánticas, sintácticas y de polaridad. Las características semánticas son extraídas mediante el uso de un modelo de aprendizaje automático que permite la obtención de vectores de palabras que codifican las relaciones semánticas y de significado entre palabras. Las características sintácticas son expresadas mediante la obtención de etiquetas de parte del discurso y de nombres de entidades. Las características de polaridad son obtenidas con un léxico de sentimientos en el idioma español. Se realiza además el despliegue de dicho modelo en un sistema web para su uso por usuarios externos.Tesi

    Análisis de desplazamiento semántico previo y posterior al COVID-19 en Word Embeddings diacrónicos del español

    Get PDF
    El significado de las palabras puede cambiar a lo largo del tiempo. Este fenómeno se conoce como desplazamiento semántico. Existen diferentes formas de medir este desplazamiento semántico, siendo una de ellas el análisis de los cambios en distancias en los \emph{embeddings} de las palabras. En este trabajo, se propone un mecanismo para la construcción de word embeddings diacrónicos, es decir, de diferentes momentos del tiempo. Luego se construye un word embedding diacrónico del español previo y posterior a la aparición de la pandemia por COVID-19. Estos embeddings fueron construidos a partir de un corpus 237 millones de sitios web. Finalmente, se analiza el desplazamiento semántico de los términos asociados a tres casos de estudio particulares: COVID-19, vacunación y mascarillas. A pesar de que pasaron pocos años entre la recolección de los corpus con los que se entrenaron los word embeddings, se encontraron cambios significativos en las vecindades de los clústeres de palabras analizadas. Además, se encontraron cambios sutiles en la distancia relativa a emociones.UCR::Vicerrectoría de Investigación::Sistema de Estudios de Posgrado::Ingeniería::Maestría Profesional en Computación e Informátic

    Un nuevo enfoque basado en perfiles con aprendizaje de representaciones

    Get PDF
    Los Enfoques Basados en Perfiles (EBP’s) han mostrado muy buen comportamiento específicamente en la tarea de atribución de autoría. Este trabajo tiene como finalidad extender al EBP empleando aprendizaje de representaciones. Para ello, se utilizará la gran flexibilidad de los mecanismos de coincidencia (matching) que proveen los embeddings. La similitud entre perfiles, en este caso, ya no considerará únicamente aquellas palabras que coinciden “exactamente”, sino aquellas que son lo “suficientemente similares”, de acuerdo a un umbral predeterminado. Este trabajo comprende un estudio exhaustivo comparativo empleando las colecciones Enron y CIAPPA, donde quedará probada la viabilidad y efectividad de nuestra propuesta en relación a enfoques de EBP clásicos como SPI y KRD empleando escenarios con diferentes métodos de embeddings, tales como Word2Vec, Fastext y Glove.XIX Workshop Base de Datos y Minería de Datos (WBDMD)Red de Universidades con Carreras en Informátic

    Deep Learning en interfaces conversacionales

    Get PDF
    El objetivo de este TFG es la creación de un asistente virtual, tipo chatbot, utilizando de base, uno de los modelos del lenguaje más avanzados en la actualidad, llamado GPT (Generative Pre-Trained Transformer) por sus siglas en inglés. Se usa este chatbot, para poner a prueba este Modelo del Lenguaje en su tercera y última versión, GPT-3, recopilando información sobre sus fortalezas y debilidades. Dispone de una interfaz de usuario multiplataforma desde la que se puede interactuar con GPT-3, y también con Twitter, ya que este último es la base de conocimiento utilizada para su entrenamiento, obteniendo la información desde las cuentas de esta plataforma que se especifiquen. Además, se puede ajustar y configurar con la información que se desee, permitiendo especializarlo en diferentes tareas.The objective of this TFG is the creation of a virtual assistant, chatbot type, based on one of the most advanced language models today, called GPT (Generative PreTrained Transformer). This chatbot is used to test this Language Model in its third and latest version, GPT-3, gathering information about its strengths and weaknesses. It has a multiplatform user interface, from which anyone can interact with GPT3, and also with Twitter, since the latter is the knowledge base used for training. Information is obtained from specified accounts of this social network. In addition, it can be adjusted and configured with the information you want, allowing it to be specialized in different tasks

    Spanish-English similarity through word embeddings

    Get PDF
    En este trabajo hemos afrontado la tarea de similitud de textos multilingüe mediante representaciones vectoriales de las palabras. Hemos experimentado con varias colecciones de textos con pares de frases en español e inglés, adaptando dos técnicas basadas en word embeddings que han mostrado su eficacia en la similitud de textos monolingüe: la agregación de vectores y el alineamiento. La agregación permite construir una representación vectorial de un texto a partir de los vectores de las palabras que lo componen, y el algoritmo de alineamiento aprovecha los word embeddigs para decidir el emparejamiento de palabras de los dos textos a comparar. En el proceso se han utilizado dos estrategias distintas: usar traductores automáticos para poder aplicar directamente las técnicas de similitud monolingüe, y aplicar una técnica de transformación de modelos para trasladar los vectores de un idioma al espacio del otro. Las dos estrategias han funcionado razonablemente bien por separado, y los resultados mejoran cuando las salidas de los dos tipos de sistemas se integran mediante técnicas de ensemble learning.In this paper we have faced the cross-lingual text similarity task using vector representations of words. We have experimented with several collections of texts with pairs of sentences in Spanish and English, adapting two techniques based on word embeddings that have shown their effectiveness in the similarity of monolingual texts: vector aggregation and vector-based text alignment. The aggregation allows to construct a vector representation of a text from the vectors of the words that compose it, and the algorithm of alignment takes advantage of word embeddigs to decide the pairing of words of the two texts to be compared. Two different strategies have been used in the process: using automatic translators to be able to directly apply monolingual similarity techniques, and applying a model transformation technique to translate the vectors of one language into the space of the other. Both strategies have worked reasonably well separately, and the results improve when the outputs of the two types of systems are integrated by means of ensemble learning techniques

    Sumarización automática de noticias en español

    Full text link
    Con la ingente cantidad de información que se genera diariamente y a la cual tenemos acceso gracias a Internet, la sumarización de textos ha resultado ser una herramienta increíblemente útil, no solo como un medio para ganar eficiencia en su lectura sino también para despojar estos textos de la información irrelevante o secundaria que puedan contener. Si bien algunos textos traen consigo algún tipo de resumen o abstracto, como pueda tener por ejemplo este trabajo, los artículos periodísticos no, es por eso que en este trabajo se estudian distintas técnicas de analítica de texto para sumarizar noticias en español. El trabajo se desarrolla en Python y tiene como finalidad la obtención de resúmenes extractivos y la generación de los títulos de noticias extraídas de publicaciones nacionales. Tras el estudio del estado actual del estado del arte, decidimos implementar dos técnicas de sumarización extractiva para poder comparar sus resultados y construir un modelo sequence-to-sequence que permita la generación de los titulares de las noticias. Los resultados obtenidos demuestran la capacidad para llevar a cabo la tarea así como revelan algunos problemas, como son el hacer uso de frases que hacen referencia a información anterior que no han sido seleccionadas o la complicación del resumen de entrevistas. Palabra

    Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa

    Get PDF
    Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.Tesi

    Traducción automática de conjuntos de datos para la construcción de sistemas de pregunta/respuesta mediante aprendizaje automático

    Full text link
    [ES] Los sistemas de pregunta/respuesta contruidos mediante técnicas de aprendizaje automático requieren de conjuntos de datos. A día de hoy, se cuenta con dichos conjuntos en idiomas muy hablados como el inglés o el chino, pero no para idiomas más locales como pude ser el euskera. El objetivo de este trabajo es, partiendo de conjuntos de datos en inglés, crear sus respectivas versiones en castellano, euskera y catalán. Una vez creados estos conjuntos empleando técnicas de traducción automática, se procede a entrenar el modelo predictivo de pregunta/respuesta para cada idioma. Hay que tener en cuenta no solo aquellos modelos entrenados con un solo idioma, sino aquellos que emplean métodos multilingües, ya que actualmente estos últimos tienen bastante peso en el estado del arte del procesamiento del lenguaje natural y, específicamente, en las tareas de pregunta/respuesta.[EN] Building Question / answer systems by using machine learning techniques require data sets. Nowadays, these sets are available in highly spoken languages such as English or Chinese, but not for regional languages such as Basque. The aim of this work is to create datasets in Spanish, Basque and Catalan from the English version. After creating these sets by Machine Translation techniques, we will proceed to train the predictive QA model for each language. We must take into account that we can train models using just one or multiple languages. We are taking into consideration multilingual models due to their importance in the NLP state of  the art and, specifically, in QA tasks.[CA] Les tasques d’aprenentatge automàtic basades en sistemes de pregunta/resposta requereixen de conjunts de dades per entrenar models predictius. Actualment, es compta amb aquests conjunts en idiomes molt parlats com l’anglès o el xinès, però no per a idiomes més locals com pot ser el basc. L’objectiu d’aquest treball és, partint de conjunts de dades en anglès, crear les seves respectives versions en castellà, basc i català. Una vegada que estiguin creats aquests conjunts emprant tècniques de traducció automàtica, es procedeix a entrenar el model predictiu de pregunta/resposta per a cada idioma. Cal tenir en compte no només aquells models entrenats amb un sol idioma, sinó aquells que fan servir mètodes multilingües (Per exemple, entrenament en un idioma i validació en un altre), ja que actualment aquests últims tenen prou pes en l’estat de l’art del processament del llenguatge natural i, específicament, en les tasques de pregunta/resposta.López Ramírez, JA. (2020). Traducción automática de conjuntos de datos para la construcción de sistemas de pregunta/respuesta mediante aprendizaje automático. http://hdl.handle.net/10251/151719TFG

    Desarrollo de recursos léxicos multi-dialécticos para el quechua

    Get PDF
    Las lenguas de bajos recursos como el quechua no cuentan con recursos léxicos a pesar de ser importantes para contribuir en las investigaciones y en el desarrollo de muchas herramientas de Procesamiento de Lenguaje Natural (NLP) que se benefician o requieren de recursos de este tipo, de esa forma poder contribuir en la preservación de la lengua. El objetivo de esta investigación es construir una WordNet (base de datos léxica) para las variedades quechua sureño, central, amazónico y norteño, y un un etiquetado gramatical de secuencias de palabras (POS tagging) para la variedad del quechua sureño. Para el desarrollo de esta investigación se recopiló información de los diccionarios y se creó corpus paralelo quechua - español, se implementó un algoritmo de clasificación para alinear el sentido de las palabras con el synset del significado en español para cada variedad de la lengua quechua y finalmente se creó un modelo de etiquetación gramatical basado en el modelo BERT. El score obtenido para el POS tagging de la variedad quechua sureño fue 0.85% y para el quechua central 0.8 %
    corecore