7 research outputs found

    Analysis of the Semantic Shift in Diachronic Word Embeddings for Spanish Before and After COVID-19

    Get PDF
    Words can shift their meaning across time. This study shows the results obtained by the exploratory analysis of the semantic shifting on Spanish vocabulary using Diachronic Word Embeddings. Diachronic data consists of a 2018 Spanish corpus, before the COVID-19 outbreak, and a second corpus with documents from 2021. This paper addresses the construction of the diachronic Spanish word embeddings model, as well as the results obtained by the analysis using a non-supervised distance vector technique. The results allowed us to identify topics with the most semantic shift between those periods

    Evaluation of potential Spanish text markers on social posts asfeatures for polarity classification

    Get PDF
    This work describes the identification and evaluation process of potential text markers for sen-timent analysis. Evaluation of the markers and its use as part of the feature extraction processfrom plain text that is needed for sentiment analysis is presented. Evaluation of text markerobtained as a result of systematic analysis from a corpus over a second one allowed us to iden-tify that emphasized positive words are strong indicators for positive text. The second corpusallowed us to evaluate the relation between the polarity of emphasized words and the text theyappear in. Evaluation of the markers for polarity detection task in combination with a polarizeddictionary produced polarity classification average precision of 56% using only three markers.This are promising results compared to the top 69% obtained using more features and specializeddictionaries for the same taskUniversidad de Costa Rica/[]/UCR/Costa RicaMinisterio de Ciencia, Tecnología y Telecomunicaciones/[]/MICITT/Costa RicaUCR::Vicerrectoría de Docencia::Ingeniería::Facultad de Ingeniería::Escuela de Ciencias de la Computación e InformáticaUCR::Vicerrectoría de Investigación::Unidades de Investigación::Ingeniería::Centro de Investigaciones en Tecnologías de Información y Comunicación (CITIC)UCR::Vicerrectoría de Docencia::Artes y Letras::Facultad de Letras::Escuela de Filología, Lingüística y Literatur

    Trending Topic Extraction using Topic Models and Biterm Discrimination

    Get PDF
    Mining and exploitation of data in social networks has been the focus of many efforts, but despite the resources and energy invested, still remains a lot for doing given its complexity, which requires the adoption of a multidisciplinary approach . Specifically, on what concerns to this research, the content of the texts published regularly, and at a very rapid pace, at sites of microblogs (eg Twitter.com) can be used to analyze global and local trends. These trends are marked by microblogs emerging topics that are distinguished from others by a sudden and accelerated rate of posts related to the same topic; in other words, by an increment of popularity in relatively short periods, a day or a few hours, for example Wanner et al. . The problem, then, is twofold, first to extract the topics, then to identify which of those topics are trending. A recent solution, known as Bursty Biterm Topic Model (BBTM) is an algorithm for identifying trending topics, with a good level of performance in Twitter, but it requires great amount of computer processing. Hence, this research aims to determine if it is possible to reduce the amount of processing required and getting equally good results. This reduction carry out by a discrimination of co-occurrences of words (biterms) used by BBTM to model trending topics. In contrast to our previous work, in this research, we carry on a more complete and exhaustive set of experiments.Universidad de Costa Rica/[745-B4-048]UCR/Costa RicaUniversidad de Costa Rica/[745-B6-175]UCR/Costa RicaUCR::Vicerrectoría de Docencia::Ingeniería::Facultad de Ingeniería::Escuela de Ciencias de la Computación e InformáticaUCR::Vicerrectoría de Docencia::Artes y Letras::Facultad de Letras::Escuela de Filología, Lingüística y Literatur

    Evaluación de características potenciales presentes en textos cortos en español para clasificarlos por polaridad

    Get PDF
    This work describes the identification and evaluation process of potential text markers for sentiment analysis. The evaluation of the markers and their use as part of the feature extraction process from plain text that is needed for sentiment analysis is presented. The evaluation of text markers obtained as a result of systematic analysis from a corpus over a second one allowed us to identify that emphasized positive words that tend to appear in positive text posts. The second corpus allowed us to evaluate the relation between the polarity of morphological text markers and the text they appear in. The evaluation of the markers for polarity detection task, in combination with a polarized dictionary, produced polarity classification average precision of 0.56 % using only three markers. These are promising results if we compared them to the top 0.69 % obtained using more features and specialized dictionaries for the same task.Este trabajo describe el proceso de identificación y evaluación de marcadores potenciales de texto para análisis de sentimientos. Se presenta la evaluación de los marcadores y se propone la forma de utilizarlos para análisis de sentimientos. La evaluación de los marcadores identificados como producto del análisis sistemático de un primer corpus sobre otro nos permitió determinar que palabras positivas con énfasis tienden a aparecer principalmente en comentarios positivos. Con el segundo corpus, se evaluó la relación entre la polaridad de las palabras con énfasis y sus textos. Finalmente, se llevó a cabo una evaluación del uso de los marcadores sobre la tarea de identificación de polaridad de textos, con lo cual se obtuvo una precisión de 0.56 usando solo tres marcadores y un diccionario polarizado. Los resultados fueron prometedores en comparación con 0.69 % que fue la precisión más alta obtenida en la misma tarea mediante el uso de mayor cantidad de características y diccionarios especializadosUCR::Vicerrectoría de Investigación::Unidades de Investigación::Ingeniería::Centro de Investigaciones en Tecnologías de Información y Comunicación (CITIC)UCR::Vicerrectoría de Docencia::Artes y Letras::Facultad de Letras::Escuela de Filología, Lingüística y Literatur

    Social network analysis for automatic ranking of political stakeholders: A case study

    No full text
    This article exposes the way in which the creation of a new method for calculating the popularity of stake holders in social networks can support political data analysis experts. The definition of a new formula for estimating popularity allowed us to have a new method that, together with other previously existing ones, allows us to build a multidimensional interpretation of reality. The construction of a method that would seem like a computational scientific curiosity has significant impacts for experts who carry out political analysis. The new ranking algorithm called BOPRank made it possible to identify political actors in a different way than known algorithms. While a wellknown algorithm showed popularity as a result of the work of campaign teams on social networks, the new algorithm reflected popularity obtained as a result of the reaction of the public on social networks.UCR::Vicerrectoría de Docencia::Ingeniería::Facultad de Ingeniería::Escuela de Ciencias de la Computación e Informátic

    Modelado de una herramienta de crowdsourcing

    No full text
    El presente artículo aborda un modelado de una herramienta de crowdsourcing para ser utilizada de forma general, es decir, aplicable a cualquier temática de interés y sobre una amplia gama de aplicaciones e investigaciones. Dentro del diseño de la herramienta se mencionan aspectos fundamentales para la creación de aplicaciones de esta tipo, como lo son: el cómo mantener el interés de la audiencia, qué variables deben ser conocidas a priori en una campaña de crowdsourcing y se propone un modelado matemático del experimento. Finalmente, para evidenciar un caso práctico de uso de la herramienta, se plantea la creación de un corpus para análisis de sentimiento de comentarios políticos en español americano, específicamente para Costa Rica

    Text analysis for automatic identification of definitional linguistic markers in Costa Rican gastronomy recipes

    Get PDF
    El análisis de contextos definicionales permite clasificar y sistematizar las informaciones definicionales pertenecientes a un dominio específico y, posteriormente, identificar estándares de las formas en que se definen las palabras y términos en tal dominio. En este artículo,se describe el proceso realizado para automatizar el análisis de contextos definicionales en el dominio gastronómico de Costa Rica. La labor se realizó mediante el uso de herramientas computacionales para el procesamiento de lenguaje natural. La automatización permite el análisis sobre grandes volúmenes de datos y obtener resultados en menos tiempo del requerido por el análisis manual. Ahora bien, el procedimiento consta de dos módulos,uno de clasificación de documentos en textos con recetas o sin ellas y un segundo módulo de identificación de los ingredientes de cocina con base en patrones lingüísticos formales.The analysis of definitional contexts allows to classify and systematize the definitional information belonging to a specific domain, and then to identify standards for the forms in which words and terms are defined in this domain. This paper describes the process implemented to automate the analysis of definitional contexts in the gastronomy domain in Costa Rica. The automation was done by using computational tools for natural language processing. The automation enables analysis of large quantities of data and results in less time than required by manual analysis. Automation consists of two modules, the first one is for the classification of documents in texts with or without recipes and the second one is for the identification of recipe ingredients based on formal linguistic patterns.UCR::Vicerrectoría de Docencia::Ingeniería::Facultad de Ingeniería::Escuela de Ciencias de la Computación e InformáticaUCR::Vicerrectoría de Docencia::Artes y Letras::Facultad de Letras::Escuela de Filología, Lingüística y LiteraturaUCR::Vicerrectoría de Investigación::Unidades de Investigación::Artes y Letras::Instituto de Investigaciones Lingüísticas (INIL
    corecore