19 research outputs found

    Multilingual opinion mining

    Get PDF
    170 p.Cada día se genera gran cantidad de texto en diferentes medios online. Gran parte de ese texto contiene opiniones acerca de multitud de entidades, productos, servicios, etc. Dada la creciente necesidad de disponer de medios automatizados para analizar, procesar y explotar esa información, las técnicas de análisis de sentimiento han recibido gran cantidad de atención por parte de la industria y la comunidad científica durante la última década y media. No obstante, muchas de las técnicas empleadas suelen requerir de entrenamiento supervisado utilizando para ello ejemplos anotados manualmente, u otros recursos lingüísticos relacionados con un idioma o dominio de aplicación específicos. Esto limita la aplicación de este tipo de técnicas, ya que dicho recursos y ejemplos anotados no son sencillos de obtener. En esta tesis se explora una serie de métodos para realizar diversos análisis automáticos de texto en el marco del análisis de sentimiento, incluyendo la obtención automática de términos de un dominio, palabras que expresan opinión, polaridad del sentimiento de dichas palabras (positivas o negativas), etc. Finalmente se propone y se evalúa un método que combina representación continua de palabras (continuous word embeddings) y topic-modelling inspirado en la técnica de Latent Dirichlet Allocation (LDA), para obtener un sistema de análisis de sentimiento basado en aspectos (ABSA), que sólo necesita unas pocas palabras semilla para procesar textos de un idioma o dominio determinados. De este modo, la adaptación a otro idioma o dominio se reduce a la traducción de las palabras semilla correspondientes

    Etiquetado no supervisado de la polaridad de las palabras utilizando representaciones continuas de palabras

    Get PDF
    Sentiment analysis is the area of Natural Language Processing that aims to determine the polarity (positive, negative, neutral) contained in an opinionated text. A usual resource employed in many of these approaches are the so-called polarity lexicons. A polarity lexicon acts as a dictionary that assigns a sentiment polarity value to words. In this work we explore the possibility of automatically generating domain adapted polarity lexicons employing continuous word representations, in particular the popular tool Word2Vec. First we show a qualitative evaluation of a small set of words, and then we show our results in the SemEval-2015 task 12 using the presented method.El análisis de sentimiento es un campo del procesamiento del lenguaje natural que se encarga de determinar la polaridad (positiva, negativa, neutral) en los textos en los que se vierten opiniones. Un recurso habitual en los sistemas de análisis de sentimiento son los lexicones de polaridad. Un lexicón de polaridad es un diccionario que asigna un valor predeterminado de polaridad a una palabra. En este trabajo exploramos la posibilidad de generar de manera automática lexicones de polaridad adaptados a un dominio usando representaciones continuas de palabras, en concreto la popular herramienta Word2Vec. Primero mostramos una evaluación cualitativa de la polaridad sobre un pequeño conjunto de palabras, y después mostramos los resultados de nuestra competición en la tarea 12 del SemEval-2015 usando este método.This work has been supported by Vicomtech-IK4

    Adquisición no supervisada de aspectos de un dominio para Minería de Opiniones Basada en Aspectos

    Get PDF
    The automatic analysis of opinions, which usually receives the name of opinion mining or sentiment analysis, has gained a great importance during the last decade. This is mainly due to the overgrown of online content in the Internet. The so-called aspect based opinion mining systems aim to detect the sentiment at “aspect” level (i.e. the precise feature being opinionated in a clause or sentence). In order to detect such aspects it is required some knowledge about the domain under analysis. The vocabulary in different domains may vary, and different words are interesting features in different domains. We aim to generate a list of domain related words and expressions from unlabeled domain texts, in a completely unsupervised way, as a first step to a more complex opinion mining system.El análisis automático de la opinión, que usualmente recibe el nombre minería de opinión o análisis del sentimiento, ha cobrado una gran importancia durante la última década. La minería de opinión basada en aspectos se centra en detectar el sentimiento con respecto a “aspectos” de la entidad examinada (i.e. características o partes concretas evaluadas en una sentencia). De cara a detectar dichos aspectos se requiere una cierta información sobre el dominio o temática del contenido analizado, ya que el vocabulario varía de un dominio a otro. El objetivo de este trabajo es generar de manera automática una lista de aspectos del dominio partiendo de un set de textos sin etiquetar, de manera completamente no supervisada, como primer paso para el desarrollo de un sistema más completo.This work has been partially funded by OpeNER (FP7-ICT-2011-SME-DCL-296451) and SKaTer (TIN2012-38584-C06-02)

    AutoPunct: Sistema de Puntuación y Mayusculización Automático basado en BERT para Castellano y Euskera

    Get PDF
    The raw output of an Automatic Speech Recognition system usually consists in a stream of words without any casing nor punctuation. In order to improve the readability and enable further uses of this output, punctuation and capitalisation have to be included. In this context, we present AutoPunct, a Transformers-based automatic punctuation and capitalisation model that combines both acoustic (i.e. silences duration) and lexical information (the words themselves). We compared its performance with a system based on Bidirectional Recurrent Neural Networks (BRNN) on Basque (a low-resource language) and Spanish, both individually and simultaneously. The result is a system that achieves high accuracy for punctuation and capitalisation in both languages at the same time, with a throughput of several thousand words per second using a standard GPU.La salida en bruto de un sistema de Reconocimiento Automático del Habla generalmente consiste en una secuencia de palabras sin mayúsculas ni signos de puntuación. Para mejorar la legibilidad y posibilitar posteriores usos de esta salida es necesario incluir la puntuación y las mayúsculas. En este contexto, presentamos AutoPunct, un modelo para puntuación y mayusculización basado en arquitecturas de Transformers que combina tanto información acústica (silencios) como léxica (palabras). Hemos comparado su desempeño con un sistema basado en redes neuronales recursivas bidireccionales (BRNN) en euskera (un idioma de pocos recursos) y castellano, así como combinando ambos idiomas. El resultado es un sistema que obtiene buenos resultados aplicando mayusculización y puntuación de manera simultánea en dos idiomas diferentes, con una velocidad de proceso que alcanza varios miles de palabras por segundo en una GPU estándar.This work was supported by the Department of Economic Development and Competitiveness of the Basque Government under projects GAMES (ZL-2020/00074) and Deep-Text (KK-2020-00088)

    A comparison of domain-based word polarity estimation using different word embeddings

    No full text
    Comunicació presentada a la Tenth International Conference on Language Resources and Evaluation (LREC 2016), celebrada els dies 23 a 28 de maig de 2016 a Portorož, Eslovènia.A key point in Sentiment Analysis is to determine the polarity of the sentiment implied by a certain word or expression. In basic Sentiment Analysis systems this sentiment polarity of the words is accounted and weighted in different ways to provide a degree of positivity/negativity. Currently words are also modelled as continuous dense vectors, known as word embeddings, which seem to encode interesting semantic knowledge. With regard to Sentiment Analysis, word embeddings are used as features to more complex supervised classification systems to obtain sentiment classifiers. In this paper we compare a set of existing sentiment lexicons and sentiment lexicon generation techniques. We also show a simple but effective technique to calculate a word polarity value for each word in a domain using existing continuous word embeddings generation methods. Further, we also show that word embeddings calculated on in-domain corpus capture the polarity better than the ones calculated on general-domain corpus.This work has been supported by Vicomtech-IK4 and partially funded by TUNER project (TIN2015-65308-C5-1-R)

    A comparison of domain-based word polarity estimation using different word embeddings

    No full text
    Comunicació presentada a la Tenth International Conference on Language Resources and Evaluation (LREC 2016), celebrada els dies 23 a 28 de maig de 2016 a Portorož, Eslovènia.A key point in Sentiment Analysis is to determine the polarity of the sentiment implied by a certain word or expression. In basic Sentiment Analysis systems this sentiment polarity of the words is accounted and weighted in different ways to provide a degree of positivity/negativity. Currently words are also modelled as continuous dense vectors, known as word embeddings, which seem to encode interesting semantic knowledge. With regard to Sentiment Analysis, word embeddings are used as features to more complex supervised classification systems to obtain sentiment classifiers. In this paper we compare a set of existing sentiment lexicons and sentiment lexicon generation techniques. We also show a simple but effective technique to calculate a word polarity value for each word in a domain using existing continuous word embeddings generation methods. Further, we also show that word embeddings calculated on in-domain corpus capture the polarity better than the ones calculated on general-domain corpus.This work has been supported by Vicomtech-IK4 and partially funded by TUNER project (TIN2015-65308-C5-1-R)

    Nalytics: Analíticas del Habla y Texto Naturales

    No full text
    Call centres have long demanded technology for analysing the data they manage. In this context, we present Nalytics, a platform that integrates Speech and Text Analytics in Spanish in a modular design, and capable of customising its models to the users' demands.Los centros de llamadas han demandado durante años soluciones tecnológicas para analizar los datos que gestionan. En este contexto, presentamos Nalytics, una plataforma que integra el análisis de voz y texto en español en un diseño modular capaz de personalizar sus modelos a demanda del cliente
    corecore