63 research outputs found

    Creación de corpus de palabras embebidas de tweets generados en Argentina

    Get PDF
    El procesamiento de textos de cualquier índole es una tarea de gran interés en la comunidad científica. Una de las redes sociales donde frecuentemente las personas se expresan libremente es Twitter, y por lo tanto, es una de las principales fuentes para obtener datos textuales. Para poder realizar cualquier tipo de análisis, como primer paso se debe representar los textos de manera adecuada para que, luego, puedan ser usados por un algoritmo. En este artículo se describe la creación de un corpus de representaciones de palabras obtenidas de Twitter, utilizando Word2Vec. Si bien los conjuntos de tweets utilizados no son masivos, se consideran suficientes para dar el primer paso en la creación de un corpus. Un aporte importante de este trabajo es el entrenamiento de un modelo que captura los modismos y expresiones coloquiales de Argentina, y que incluye emojis y hashtags dentro del espacio vectorial.Text processing of any kind is a task of great interest in the scientific community. One of the social networks where people frequently express themselves freely is Twitter, and therefore, it is one of the main sources for obtaining textual data. In order to perform any type of analysis, the first step is to represent the texts in a suitable way so that they can then be used by an algorithm. This paper describes the creation of a corpus of word representations obtained from Twitter using Word2Vec. Although the sets of tweets used are not massive, they are considered sufficient to take the first step in the creation of a corpus. An important contribution of this work is the training of a model that captures the idioms and colloquial expressions of Argentina, and includes emojis and hashtags within the vector space

    Estudio de word embeddings y métodos de generación de meta embeddings

    Get PDF
    El objetivo general de este proyecto es el de evaluar diferentes word embeddings y diferentes técnicas para tratar de mejorar el rendimiento de los word embeddings originales. Para ello hemos escogido una serie de word embedding pre-entrenados mediante diferentes métodos y corpus. Más específicamente buscamos realizar una serie de aportaciones en el ámbito de la evaluación de word embeddings y generación de meta-embeddings

    Procesamiento del lenguaje natural para el análisis de la crispación política en España

    Full text link
    [ES] Analizar el clima de crispación política de una sociedad es muy importante para estudiar su comportamiento y sus reacciones. Cuando hablamos de crispación política normalmente la asociamos a ciudadanos anónimos, noticias falsas y redes sociales. Sin embargo, muchas veces los profesionales de la política contribuyen de forma significativa a esa crispación. En este Trabajo Final de Grado se plantea el análisis del clima político en España, para ello se hará un seguimiento de las intervenciones de los diputados en el congreso en los últimos años. Se utilizarán técnicas y herramientas de procesamiento del lenguaje natural para analizar la polaridad de los discursos.[EN] Analyzing the climate of political tension in a society is very important to study its behavior and reactions. When we talk about political tension, we usually associate it with anonymous citizens, fake news and social networks. However, many times the professionals of politics significantly to that tension. In this Final Degree Project the analysis of the political climate in Spain is proposed, for this purpose, the interventions of the deputies in the congress in recent years will be monitored. Natural language processing techniques and tools will be used to analyze the polarity of the speeches.Garrido Martínez, J. (2021). Procesamiento del lenguaje natural para el análisis de la crispación política en España. Universitat Politècnica de València. http://hdl.handle.net/10251/171253TFG

    Traducción automática de conjuntos de datos para la construcción de sistemas de pregunta/respuesta mediante aprendizaje automático

    Full text link
    [ES] Los sistemas de pregunta/respuesta contruidos mediante técnicas de aprendizaje automático requieren de conjuntos de datos. A día de hoy, se cuenta con dichos conjuntos en idiomas muy hablados como el inglés o el chino, pero no para idiomas más locales como pude ser el euskera. El objetivo de este trabajo es, partiendo de conjuntos de datos en inglés, crear sus respectivas versiones en castellano, euskera y catalán. Una vez creados estos conjuntos empleando técnicas de traducción automática, se procede a entrenar el modelo predictivo de pregunta/respuesta para cada idioma. Hay que tener en cuenta no solo aquellos modelos entrenados con un solo idioma, sino aquellos que emplean métodos multilingües, ya que actualmente estos últimos tienen bastante peso en el estado del arte del procesamiento del lenguaje natural y, específicamente, en las tareas de pregunta/respuesta.[EN] Building Question / answer systems by using machine learning techniques require data sets. Nowadays, these sets are available in highly spoken languages such as English or Chinese, but not for regional languages such as Basque. The aim of this work is to create datasets in Spanish, Basque and Catalan from the English version. After creating these sets by Machine Translation techniques, we will proceed to train the predictive QA model for each language. We must take into account that we can train models using just one or multiple languages. We are taking into consideration multilingual models due to their importance in the NLP state of  the art and, specifically, in QA tasks.[CA] Les tasques d’aprenentatge automàtic basades en sistemes de pregunta/resposta requereixen de conjunts de dades per entrenar models predictius. Actualment, es compta amb aquests conjunts en idiomes molt parlats com l’anglès o el xinès, però no per a idiomes més locals com pot ser el basc. L’objectiu d’aquest treball és, partint de conjunts de dades en anglès, crear les seves respectives versions en castellà, basc i català. Una vegada que estiguin creats aquests conjunts emprant tècniques de traducció automàtica, es procedeix a entrenar el model predictiu de pregunta/resposta per a cada idioma. Cal tenir en compte no només aquells models entrenats amb un sol idioma, sinó aquells que fan servir mètodes multilingües (Per exemple, entrenament en un idioma i validació en un altre), ja que actualment aquests últims tenen prou pes en l’estat de l’art del processament del llenguatge natural i, específicament, en les tasques de pregunta/resposta.López Ramírez, JA. (2020). Traducción automática de conjuntos de datos para la construcción de sistemas de pregunta/respuesta mediante aprendizaje automático. http://hdl.handle.net/10251/151719TFG

    Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings

    Get PDF
    Tesis (Lic. en Física)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2022.Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.Este trabajo tiene como objetivo el análisis del discurso de dos diarios argentinos La Nación y Página 12, intentando capturar el comportamiento de dos editoriales con opiniones políticas antagónicas. Para lograr el análisis se recopilaron notas periodísticas de ambas fuentes, que traten el tema de la “Reforma Laboral”, desde el año 1995 al 2021. Con este conjunto de artículos, se separó en períodos presidenciales, y se utilizaron herramientas de extracción de temas, para analizar la manera en que cada editorial trata el tema elegido. Adicionalmente, se utilizaron técnicas de “word embeddings” para analizar la distancia entre ambos discursos en los diferentes períodos temporales.. Para llevar a cabo la tarea, se evaluaron tres modelos de aprendizaje automático con múltiples configuraciones, con el objetivo de encontrar así el mejor rendimiento. En este sentido, en una primera instancia, con técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de los artículos, se capturó la tematización y limpieza del texto. En una segunda instancia se logró inferir un modelo LDA (Latent Dirichlet Allocation) en dos librerías de python. Luego, construimos los “word embeddings” utilizando Fasttext para poder obtener las distancias entre las opiniones de ambos diarios. Del análisis de los resultados obtenidos por LDA para la detección de tópicos se concluyó que, debido a la tipología de los artículos, los resultados no eran satisfactorios. Para solucionar este problema, se exploró otra técnica, Top2Vec. Los resultados obtenidos con esta nueva técnica, fueron satisfactorios, y permitieron identificar algunas particularidades en el tratamiento de las temáticas en cada periódico, las que pueden ser asociadas a agendas y marcos interpretativos diferentes.This work aims to analyze the discourse of two Argentine newspapers La Nación and Página 12, trying to capture the behavior of two editorials with antagonistic political opinions. To achieve the analysis, journalistic notes from both sources were compiled, which deal with the issue of the "Labor Reform", from the year 1995 to 2021. With this set of articles, it was separated into presidential periods, and topic extraction tools were used to analyze the way in which each editorial deals with the chosen topic. Additionally, "word embeddings" techniques were used to analyze the distance between both discourses in the different time periods. To carry out the task, three machine learning models with multiple configurations were evaluated, with the aim of finding the best performance. In this sense, in the first instance, with Natural Language Processing techniques applied to the content of the articles, the thematization and cleanliness of the text was captured. In a second instance, it was possible to infer an LDA (Latent Dirichlet Allocation) model in two python libraries, Then, we build the "word embeddings" using Fasttext in order to obtain the distances between the opinions of both newspapers. From the analysis of the results obtained by LDA for the detection of topics, it was concluded that, due to the type of articles, the results were not satisfactory. To solve this problem, another technique, Top2Vec, was explored. The results obtained with this new technique were satisfactory, and allowed to identify some particularities in the treatment of the themes in each newspaper, which can be associated with different agendas and interpretive frameworks.Fil: Tejerina, Maximiliano Ezequiel. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina

    Búsqueda semántica de perfiles en redes sociales

    Full text link
    [ES] En este proyecto se ha desarrollado una aplicación que permite identificar la temática predominante en usuarios de la red social Twitter mediante el análisis del contenido textual generado por el usuario atendiendo principalmente a las relaciones semánticas que presentan los textos. Se utiliza un algoritmo de clasificación basado en word embeddings, en concreto se usa un modelo preentrenado Word2Vec para calcular la distancia semántica entre los temas, cuentas y tweets. El proyecto se centra en la red social Twitter, utilizando los tweets como la unidad básica a clasificar. Mediante un conjunto semilla de cuentas etiquetadas manualmente por temática se crea un modelo de representación vectorial. El modelo está creado en función de las representaciones de las cuentas en las que predominan dichos temas. Este modelado nos ha permitido crear una aplicación para clasificar cuentas de usuarios y tweets de forma automática en los temas considerados.[EN] The objective of this project is to develop an application which will allow to identify the predominant topic in user profiles on Twitter social network. This is done by analysing the textual content generated by the users, mainly paying attention to the semantic relationships presented in the texts. A classification algorithm based on word embeddings is used. Concretely, a pre trained Word2Vec model is used to calculate the semantic distance between the topics, accounts and tweets. The project is focused within the Twitter social network, using tweets as the basic unit to be classified. By a seed set of accounts manually labelled by topic, a vector representation model is created. The model is created based on the representations of the accounts in which these topics predominate. This modelling allows us to create an application to classify user accounts and tweets automatically into the topics considered.Ros Pagan, D. (2021). Búsqueda semántica de perfiles en redes sociales. Universitat Politècnica de València. http://hdl.handle.net/10251/16536

    Creación de un corpus de artículos de prensa y generación automática de resúmenes

    Full text link
    [ES] La generación automática de resúmenes es un campo muy atractivo y vigente dentro del área del procesamiento del lenguaje natural. Por esta razón, en este trabajo, se han decidido analizar y comparar distintas técnicas para la generación automática de resúmenes tanto basadas en redes neuronales como basadas en algoritmos clásicos. Para la evaluación de estas técnicas, se utilizan métricas sintácticas usadas en la mayoría de estudios de este campo y métricas semánticas propuestas en este mismo trabajo. Mediante este estudio, se podrán observar las diferencias que existen entre las dos evaluaciones comentadas anteriormente y la mejora que aporta la medida semántica propuesta. Para la utilización de aproximaciones de resumen basadas en redes neuronales y para la evaluación de todos los sistemas, se requiere un corpus de documentos y resúmenes. Por este motivo, mediante un proceso de crawling, se ha elaborado un corpus de noticias que provienen de distintos sitios web de prensa digital y para los idiomas de castellano y catalán. Finalmente, el trabajo contiene un extenso análisis de los resultados experimentales obtenidos en los corpus. En este, se podrán observar las diferencias que existen entre las noticias que contienen ambos corpus utilizando para ello distintas medidas. Además, se compararán los corpus generados con otros corpus que forman parte del estado del arte.[CA] La generació automàtica de resums és un camp molt atractiu i vigent dins de l’àrea del processament del llenguatge natural. Per aquesta raó, en aquest treball, s’ha decidit analitzar i comparar distintes tècniques per a la generació automàtica de resums, tant basades en xarxes neuronals com basades en algoritmes clàssics. Per a l’avaluació d’aquestes tècniques es fan servir mètriques sintàctiques utilitzades en la major part d’estudis d’aquest camp i mètriques semàntiques propostes en aquest treball. Mitjançant aquest estudi, es podran observar les diferències que existeixen entre les dues avaluacions comentades anteriorment i la millora que aporta la mesura semàntica proposta. Per a l’ús d’aproximacions de resum basades en xarxes neuronals i per a l’avaluació de tots els sistemes, es requereix un corpus de documents i resums. Per aquest motiu, mitjançant un procés de crawling, s’ha elaborat un corpus de notícies que provenen de distints llocs web de premsa digital i per als idiomes de castellà i català. Finalment, el treball conté un extens anàlisi dels resultats experimentals obtinguts en el corpus. En aquest es podran observar les diferències que existeixen entre les notícies que contenen ambdós corpus emprant distintes mesures. A més, es compararan els corpus generats amb altres corpus que formen part del estat de l’art.[EN] Automatic summary generation is a current and very attractive field in the area of natural language processing. For this reason, in this work, it has been decided to analyse and compare different techniques for automatic abstract generation both based on neural net-work and based on classical algorithms. For the evaluation of these techniques, syntactic metrics used in most studies of this field and semantic metrics proposed in this work have been used. Through this study, differences between the two evaluations discussed above can be seen. Moreover, improvements introduces by the semantic measure proposal are also presented. For the use of summary approaches based on neural networks and for the evaluation of all systems, a corpus of documents and summaries is required. For this reason, through a crawling process, a corpus of news that come from different digital press websites has been prepared in both Spanish and Catalan languages. Finally, the work contains an extensive analysis of the experimental results obtained with the corpus. In it, the existing differences between the news contained in both corpus can be observed. At the same time, a comparison of the different measures has been included. In addition, the generated corpus will be compared with other corpus that take part of the state of the art.Alcina Sanchis, F. (2019). Creación de un corpus de artículos de prensa y generación automática de resúmenes. http://hdl.handle.net/10251/128334TFG

    Document qualification system based on its completeness

    Get PDF
    Trabajo de Fin de Máster en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería de Software e Inteligencia Artificial, Curso 2019/2020Debido a la constante creación de documentación en la industria, aparece la necesidad de aplicar las revisiones correspondientes para evaluar el contenido de la documentación generada. Esta labor implica un enorme esfuerzo temporal, económico y humano. Por lo tanto, es de especial interés implementar un sistema que automatice este proceso, liberando así a los profesionales de esta carga de trabajo. Por esta razón, en este trabajo se propone un sistema que tiene la capacidad de analizar el contenido de distintos documentos y de realizar estas revisiones de forma automática. El sistema propuesto, para que sea adaptable y escalable, se ha implementado de forma que puede adaptarse a distintos dominios. Su funcionamiento no se ajusta a un único tipo de documentos. El sistema propuesto se implementa utilizando distintas técnicas de procesamiento de lenguaje natural, de extracción de información y de aprendizaje automático. En este documento se describe tanto el funcionamiento de estas técnicas como su presencia y relevancia en la industria. Este trabajo está relacionado con un proyecto de colaboración con la empresa ECIX Group, que plantearon esta necesidad y han proporcionado todos los recursos necesarios.Due to the constant creation of documentation in the industry, there is a need to apply the corresponding revisions to evaluate the content of the documentation generated. This work implies an enormous temporary, economic, and human effort. Therefore, it is important to implement a system that automatatizes this process, thus freeing professionals from carrying out this task. For this reason, in this project we propose a system that has the ability to analyze the content of different documents, and to realize these reviews automatically. The proposed system, to be adaptable and scalable, has been implemented so that it can be adapted to different domains. Its operation does not conform to a single type of documents. The proposed system is implemented by using different Natural Language Processing, Information Extraction, and Machine Learning techniques. This document describes how these techniques work, its presence in the industry, and its relevance. This work is related to a collaboration project with the company ECIX Group, which raised this need, and has provided all the necessary resources.Depto. de Ingeniería de Software e Inteligencia Artificial (ISIA)Fac. de InformáticaTRUEunpu

    Análisis y detección de odio en mensajes de Twitter

    Full text link
    [ES] En la actualidad, la Web constituye un medio donde usuarios de todo el mundo interactúan entre sí, realizando actividades como el comercio digital, la búsqueda de información y la toma de decisiones. De esta forma sitios como las redes sociales han capturado el interés de usuarios y también de analistas. Si bien este fenómeno puede representar una ventaja para el desarrollo de las comunicaciones y la adquisición de información, en este contexto también se han detectado algunas manifestaciones negativas que pueden afectar a diferentes grupos de personas. Los mensajes de odio son un ejemplo de dichos comportamientos negativos, que se publican con frecuencia en redes sociales de gran difusión como Twitter. Estos mensajes expresan odio hacia determinados grupos de personas en función de algún aspecto específico de su identidad, tal como su origen étnico, nacionalidad o religión. Se caracterizan generalmente por ser mensajes virales y por el anonimato de sus autores. Además, diferentes especialistas han identificado que incitan al odio contra el grupo de personas que constituye el objeto de odio de los mensajes, y que incluso, en muchas ocasiones pueden provocar acciones violentas contra dichas personas. Debido a la repercusión que este tipo de publicaciones puede causar en muchas personas, diferentes esfuerzos se han comenzado a realizar. En este sentido, en los últimos años se han organizado varias tareas de evaluación relacionadas con la detección de mensajes de odio. En este trabajo se realiza un análisis de un conjunto de estas tareas, enfocadas en mensajes publicados en Twitter. Se analizan en general las propuestas realizadas por diferentes equipos y en particular nuestras propuestas. Con el estudio de diferentes factores involucrados en las tareas se realiza un conjunto de experimentos. Con lo que se hace una comparación de las estrategias utilizadas y de otras ideas que proponemos. Como resultado se proporciona un resumen de aspectos importantes que pueden servir como guía en el diseño de una aproximación para la detección de mensajes de odio, o como punto de partida para próximos estudios.[EN] Nowdays, the Web constitutes a way where users around the world interact with each other, carrying out important activities such as digital commerce, search of information and decision making. Thus, sites like social networks have captured the interest of both users and analysts. This phenomenon may represent an advantage for the development of communications and the acquisition of information. However, some negative behaviour, that may affect different groups of people, have also been detected in this context. Hate speech is an example of such negative behaviour, which is frequently published on popular social networks such as Twitter. It expresses hatred towards certain groups of people based on some specific aspect of their identity, such as their ethnicity, nationality or religion. It is generally characterized by being viral messages and by the anonymity of their authors. Specialists have identified that it incites hatred against people who are the object of hate in the messages, and that it can bring on violent actions against them in many occasions. Due to the impact this can cause on many people, different efforts have begun to develop. In this sense, several evaluation tasks related to the detection of hate speech have been organized in recent years. In this work we carry out an analysis of a set of these tasks focused on messages published on Twitter. We analyze the proposed approaches made by different teams in general, and our proposals in particular. A set of experiments is performed with the study of the different factors involved in the tasks. In this way a comparison is made of the strategies used and other ideas that we propose. As a result, we provide a summary of some important aspects. It can be useful as a guide for future studies or in the design of an approach to the detection of hate speech.De La Peña Sarracén, GL. (2019). Análisis y detección de odio en mensajes de Twitter. http://hdl.handle.net/10251/129782TFG
    corecore