36 research outputs found

    Negation Processing in Spanish and its Application to Sentiment Analysis

    Get PDF
    El Procesamiento del Lenguaje Natural es el área de la Inteligencia Artificial que tiene como objetivo desarrollar mecanismos computacionalmente eficientes para facilitar la comunicación entre personas y máquinas por medio del lenguaje natural. Para que las máquinas sean capaces de procesar, comprender y generar lenguaje humano hay que tener en cuenta una amplia gama de fenómenos lingüísticos, como la negación, la ironía o el sarcasmo, que se utilizan para dar a las palabras un significado diferente. Esta tesis doctoral se centra en el estudio de la negación, un fenómeno lingüístico complejo que utilizamos en nuestra comunicación diaria. A diferencia de la mayoría de los estudios existentes hasta el momento se realiza sobre textos en español, ya que es la segunda lengua con más hablantes nativos, la tercera más utilizada en Internet, y no existen sistemas de procesamiento de negación disponibles en esta lengua.Natural Language Processing is the area of Artificial Intelligence that aims to develop computationally efficient mechanisms to facilitate communication between people and machines through natural language. To ensure that machines are capable of processing, understanding and generating human language, a wide range of linguistic phenomena must be taken into account, such as negation, irony or sarcasm, which are used to give words a different meaning. This doctoral thesis focuses on the study of negation, a complex linguistic phenomenon that we use in our daily communication. In contrast to most of the existing studies to date, it is carried out on Spanish texts, because i) it is the second language with most native speakers, ii) it is the third language most used on the Internet, and iii) there are no negation processing systems available on this language.Tesis Univ. Jaén. Departamento de Informática. Leída el 13 de septiembre de 2019

    Negation Scope Identification in Spanish Reviews

    Get PDF
    El análisis de opiniones es una tarea a la que le quedan muchos frentes abiertos aún para que se pueda considerar resuelta. Entre ellos destaca el tratamiento de la negación, dado que una opinión negativa puede ser expresada con términos positivos negados. La negación es una característica particular de cada idioma, por lo que su tratamiento debe ajustarse a las singularidades del idioma en cuestión. En este artículo se presenta una aproximación lingüística para la identificación del ámbito de la negación en español, que se ha aplicado en un sistema de clasificación de la polaridad de opiniones sobre películas de cine.Sentiment Analysis is a task that still has several opened challenges. One of those challenges is the treatment of the negation, because a negative opinion can be built using negated positive words. Negation is a particular feature of each language, thus it must be considered differently per each language. In this article is shown a linguistic approach for the negation scope identification with the aim of integrating it in a polarity classification system in the domain of movie reviews.Este trabajo ha sido parcialmente financiado por el Fondo Europeo de Desarrollo Regional (FEDER), el proyecto ATTOS (TIN2012-38536-C03-0) del Gobierno de España, el proyecto AORESCU (TIC-07684) del Gobierno regional de la Junta de Andalucía y el proyecto CEATIC-2013-01 de la Universidad de Jaén

    eSOLHotel: Building an Spanish opinion lexicon adapted to the tourism domain

    Get PDF
    Desde que la web 2.0 es el mayor contenedor de opiniones en todos los idiomas sobre distintos temas o asuntos, el estudio del Análisis de Sentimientos ha crecido exponencialmente. En este trabajo nos centramos en la clasificación de polaridad de opiniones en español y se presenta un nuevo recurso léxico adaptado al dominio turístico (eSOLHotel). Este nuevo lexicón usa el enfoque basado en corpus. Se han realizado varios experimentos usando una aproximación no supervisada para la clasificación de polaridad de las opiniones en la categoría de hoteles del corpus SFU. Los resultados obtenidos con el nuevo lexicón eSOLHotel superan los resultados obtenidos con otro lexicón de propósito general y nos animan a seguir trabajando en esta línea.Since Web 2.0 is the largest container for subjective expressions about different topics or issues expressed in all languages, the study of Sentiment Analysis has grown exponentially. In this work, we focus on Spanish polarity classification of hotel reviews and a new domain-dependent lexical resource (eSOLHotel) is presented. This new lexicon has been compiled following a corpus-based approach. We have carried out several experiments using an unsupervised approach for the polarity classification over the category of hotels from corpus SFU. The results obtained with the new lexicon eSOLHotel outperform the results with other general purpose lexicon.Esta investigación ha sido parcialmente financiada por el Fondo Europeo de Desarrollo Regional (FEDER), el proyecto ATTOS (TIN2012-38536-C03-0) del Gobierno de España y el proyecto AORESCU (P11-TIC-7684 MO) del gobierno autonómico de la Junta de Andalucía. Por último, el proyecto CEATIC (CEATIC-2013-01) de la Universidad de Jaén también ha financiado parcialmente este artículo

    Discurso de ódio no Twitter durante a crise migratória de Ceuta, em Maio de 2021

    Get PDF
    This paper analyses the hate speech in messages published on Twitter from May 17 to 25, 2021 during the crisis caused by the entry of thousands of immigrants at the Tarajal border in Ceuta. The aim of the research is to perform a thematic classification of messages with hate speech. For this, a mixed methodology has been used and six subjets related to hate speech on Twitter have been identified, of which four are more focused on political issues, accounting for 80% of the messages, and only 20% of them refer to racism and immigration. In addition, up to five campaigns of unknown origin have been detected. This work concludes that hate speeches focus more on political issues than on the problem of immigration itself, its causes, consequences and possible solutions.Este trabajo analiza el discurso de odio en los mensajes publicados en Twitter desde el 17 al 25 de mayo de 2021 durante la crisis producida por la entrada de miles de inmigrantes en la frontera del Tarajal en Ceuta. El objetivo de la investigación es realizar una clasificación temática de los mensajes que incluyen discurso de odio. Para ello, se ha empleado una metodología mixta y como resultado se han podido diferenciar seis temas, de los cuales cuatro se centran más en temas políticos, suponiendo el 80% de los mensajes, y solo el 20% de ellos se refieren a racismo e inmigración. Además, se han detectado hasta cinco campañas de origen desconocido. Este trabajo concluye que los discursos de odio se centran más en temas políticos que en la propia problemática de la inmigración, sus causas, sus consecuencias y las posibles soluciones.Este documento analisa o discurso do ódio nas mensagens publicadas no Twitter de 17 a 25 de Maio de 2021 durante a crise causada pela entrada de milhares de imigrantes na fronteira de Tarajal em Ceuta. O objectivo da investigação é levar a cabo uma classificação temática das mensagens que incluem o discurso do ódio. Para este fim, foi utilizada uma metodologia mista, e como resultado, foram identificados seis temas, quatro dos quais se concentram mais em questões políticas, representando 80% das mensagens, e apenas 20% das quais se referem ao racismo e à imigração. Além disso, foram detectadas até cinco campanhas de origem desconhecida. Este estudo conclui que o discurso do ódio se concentra mais em questões políticas do que no problema da imigração em si, nas suas causas, consequências e possíveis soluções

    Negation in Spanish: analysis and typology of negation patterns

    Get PDF
    En este artículo se presentan los criterios aplicados para la anotación del corpus SFU ReviewSP-NEGcon negación y la tipología lingüística correspondiente. Esta tipología presenta la ventaja de ser fácilmente expresable en términos de un tagset para la anotación de corpus, de presentar tipos claramente delimitados, evitando así la ambigüedad en el proceso de anotación, y de presentar una amplia cobertura, es decir, que ha servido para resolver todos los casos que han aparecido. El corpus contiene 400 comentarios y 198.551 palabras. Actualmente está anotado en un 75% y, de un total de 6.331 oraciones revisadas, se han identificado 2.953 estructuras de negación.In this paper we present the criteria applied for the annotation of the SFU ReviewSP-NEGcorpus and the corresponding linguistic typology. This typology has the advantage that it is easy to express in terms of a tagset for corpus annotation: the types are clearly defined, which avoid the ambiguity in the annotation process, and they present a wide coverage (i.e. they covered/solved all the cases occurring in the corpus). The corpus consists of 400 reviews and 198,551 words. Currently, we have annotated 75% and from a total of 6,331 annotated sentences 2,953 contain at least one negation.Financiado por fondos FEDER, los proyectos: TIN2015-65136-C2-1-R y TIN2015-71147-C2-2 del MINECO y FPU014/00983 del MECD

    COPOS: Corpus de Opiniones de Pacientes en Español. Aplicación de Técnicas de Análisis de Sentimientos

    Get PDF
    Every day more users are interested in the opinion that other patients have about a physician or about health topics in general. According to a study in 2015, 62% of Spanish people access the Internet in order to be informed about topics related to health. This paper is focused on Spanish Sentiment Analysis in the medical domain. Although Sentiment Analysis has been studied for different domains, health issues have hardly been examined in Opinion Mining and even less with Spanish comments or opinions. Thus we have generated a corpus by crawling the website Masquemedicos with Spanish opinions about medical entities written by patients. We present this new resource, called COPOS (Corpus Of Patient Opinions in Spanish). To the best of our knowledge, this is the first attempt to deal with Spanish opinions written by patients about medical attention. In order to demonstrate the validity of the corpus presented, we have also carried out different experiments with the main methodologies applied in polarity classification (Semantic Orientation and Machine Learning). The results obtained encourage us to continue analysing and researching Opinion Mining in the medical domain.Cada día son más los usuarios interesados en la opinión que otros pacientes tienen sobre un médico o sobre temas de salud en general. De acuerdo con un estudio de 2015, el 62% de la población española consulta información en Internet acerca de temas relacionados con la salud. Este trabajo está centrado en el Análisis de Sentimientos en español aplicado al dominio médico. Aunque el Análisis de Sentimientos ha sido estudiado en diferentes dominios, el dominio de la salud apenas ha sido investigado, especialmente en opiniones escritas en español. Por ello, hemos generado un corpus en español con opiniones de pacientes sobre médicos a partir de la extracción de las mismas del portal web Masquemedicos. Este corpus ha sido denominado COPOS (Corpus Of Patient Opinions in Spanish - Corpus de Opiniones de Pacientes en Español). Hasta donde sabemos, es la primera vez que se intenta trabajar con opiniones en español sobre atención médica escritas por pacientes. Para demostrar la validez de este recurso, hemos realizado diferentes experimentos con las principales metodologías aplicadas en la tarea de clasificación de polaridad (Orientación Semántica y Aprendizaje Automático). Los resultados obtenidos nos animan a seguir investigando en el Análisis de Sentimientos en este dominio.This work has been partially supported by a grant from the Fondo Europeo de Desarrollo Regional (FEDER), REDES project (TIN2015-65136-C2-1-R) from the Spanish Government and by a Grant from the Ministerio de Educación Cultura y Deporte (MECD - scholarship FPU014/00983)

    EmoCon: Emotions Analyzer in the Spanish Congress

    Get PDF
    EmoCon es un prototipo de un analizador de emociones en el Congreso de los Diputados. Su objetivo es analizar el perfil emocional a nivel de sesión parlamentaria y a nivel de cada diputado, a partir de las intervenciones realizadas durante las sesiones parlamentarias que tienen lugar en el Congreso de los Diputados. Para ello, la demo cuenta con tres módulos principales: i) descarga automática de los documentos de las sesiones y extracción de las intervenciones realizadas por cada diputado, ii) análisis de las emociones expresadas a nivel de sesión y a nivel de diputado y, iii) visualización de la información en una aplicación web.EmoCon is a prototype of an emotion analyzer in the Spanish Congress. Its objective is to analyze the emotions expressed by the deputies in the interventions made during the parliamentary sessions that take place in the Spanish Congress. To this end, the demo has three main modules: i) web scrapper for the session documents and processing, ii) emotions analyzer at the session level and at the deputy level, and iii) web application for visualization.Este trabajo ha sido parcialmente financiado por el Fondo Europeo de Desarrollo Regional (FEDER) y el proyecto LIVING-LANG (RTI2018-094653-B-C21) del Gobierno de España

    El discurso de odio en Twitter durante la crisis migratoria de Ceuta en mayo de 2021

    Get PDF
    Este trabajo analiza el discurso de odio en los mensajes publicados en Twitter desde el 17 al 25 de mayo de 2021 durante la crisis producida por la entrada de miles de inmigrantes en la frontera del Tarajal en Ceuta. El objetivo de la investigación es realizar una clasificación temática de los mensajes que incluyen discurso de odio. Para ello, se ha empleado una metodología mixta y como resultado se han podido diferenciar seis temas, de los cuales cuatro se centran más en temas políticos, suponiendo el 80% de los mensajes, y solo el 20% de ellos se refieren a racismo e inmigración. Además, se han detectado hasta cinco campañas de origen desconocido. Este trabajo concluye que los discursos de odio se centran más en temas políticos que en la propia problemática de la inmigración, sus causas, sus consecuencias y las posibles soluciones

    Resumen de la tarea PoliticEs 2022: Perfilado del Autor Español por su Ideología Política

    Get PDF
    This paper presents the PoliticEs 2022 shared task, organized at IberLEF 2022 workshop, within the framework of the 38th International Conference of the Spanish Society for Natural Language Processing. This task aims to extract the political ideology from a given user’s set of tweets. Specifically, it focused on the identification of the gender and the profession, as demographic traits, and the political ideology from a binary and multi-class perspective, as a psychographic trait. The PoliticEs task attracted 63 teams that registered through CodaLab. Finally, 20 submitted results and 14 presented working notes describing their systems. Most of the teams proposed transformer-based approaches, although some of them also used traditional machine learning algorithms or even a combination of both approaches.Este artículo presenta la tarea PoliticEs 2022, organizada en el taller IberLEF 2022, en el marco de la 38 edición del Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural. Esta tarea tiene como objetivo extraer la ideología política de un usuario a partir de un conjunto de tuits publicados por él. En concreto, se centró en la identificación del género y la profesión, como rasgos demográficos, y la ideología política desde una perspectiva binaria y multiclase, como rasgo psicográfico. La tarea PoliticEs atrajo a 63 equipos que se inscribieron a través de CodaLab. Finalmente, 20 enviaron resultados y 14 presentaron artículos describiendo sus sistemas. La mayoría de los equipos propusieron enfoques basados en transformers, aunque algunos de ellos también utilizaron algoritmos tradicionales de aprendizaje automático o incluso una combinación de ambos enfoques.This work was supported by Project LaTe4PSP (PID2019-107652RB-I00) funded by MCIN/AEI/10.13039/501100011033, Project AlInFunds (PDC2021-121112-I00) funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR, Project LIVING-LANG (RTI2018-094653-B-C21) funded by MCIN/AEI/10.13039/501100011033 and by ERDF A way of making Europe, and Big Hug project (P20 00956, PAIDI 2020) and WeLee project (1380939, FEDER Andalucía 2014-2020) funded by the Andalusian Regional Government. In addition, José Antonio García-Díaz has been supported by Banco Santander and University of Murcia through the industrial doctorate programme, and Salud María Jiménez-Zafra has been partially supported by a grant from Fondo Social Europeo and Administración de la Junta de Andalucía (DOC 01073)

    Resumen de la tarea PoliticES en IberLEF 2023: Detección de Ideología Política en Español

    Get PDF
    This paper describes PoliticES 2023, a shared task organized within the workshop IberLEF 2023 in the framework of the 39th edition of the International Conference of the Spanish Society for Natural Language Processing. This second edition of the task shares the goal of the first edition of PoliticES, which is to extract political ideology and other psychographic and demographic characteristics of users in social networks. What is new this year is that the traits are extracted from text clusters of users who share the same traits, and that celebrities have been included as a type of profession. This edition attracted 43 teams, of which 11 submitted results and 8 sent papers describing their systems. Most of the participants proposed Transformers-based approaches, but others also used traditional machine learning algorithms.Este artículo describe PoliticES 2023, una tarea organizada dentro del taller IberLEF 2023 en el marco de la 39 edición del Congreso Internacional de la Sociedad Española para el Procesamiento del Lenguaje Natural. Esta segunda edición de la tarea comparte el objetivo de la primera edición de PoliticES, extraer la ideología política y otros rasgos psicográficos y demográficos de usuarios en redes sociales. Las novedades son que este año los rasgos se extraen de clústers de textos de usuarios que comparten los mismos rasgos y que se ha incluido celebridades como tipo de profesión. Esta edición ha atraído a 43 equipos, de los cuales 11 enviaron resultados y 8 presentaron artículos describiendo sus sistemas. La mayoría de los participantes propusieron enfoques basados en Transformers, pero también otros utilizaron algoritmos tradicionales de aprendizaje automático.This work is part of the research projects LaTe4PoliticES (PID2022-138099OB-I00) funded by MCIN/AEI/10.13039/501100011033 and the European Fund for Regional Development (FEDER)-a way to make Europe and LaTe4PSP (PID2019-107652RB-I00/AEI/10.13039/501100011033) funded by MCIN/AEI/10.13039/501100011033. This work is also part part of the research projects AIInFunds (PDC2021-121112-I00) and LTSWM (TED2021-131167B-I00) funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR. It also has been partially supported by Project CONSENSO (PID2021-122263OB-C21), Project MODERATES (TED2021-130145B-I00) and Project SocialTox (PDC2022-133146-C21) funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR, Project PRECOM (SUBV-00016) funded by the Ministry of Consumer Affairs of the Spanish Government, Project FedDAP (PID2020-116118GA-I00) supported by MICINN/AEI/10.13039/501100011033 and WeLee project (1380939, FEDER Andalucía 2014-2020) funded by the Andalusian Regional Government. Salud María Jiménez-Zafra has been partially supported by a grant from Fondo Social Europeo and the Administration of the Junta de Andalucía (DOC 01073)
    corecore