207 research outputs found

    Identificación de opiniones de diferentes fuentes en textos en español

    Get PDF
    Este documento presenta un estudio de las expresiones que transmiten opiniones de diferentes fuentes en textos en español. El trabajo incluye la definición de un modelo para los predicados de opinión y sus argumentos (la fuente, el asunto y el mensaje), la creación de un léxico de predicados de opinión que tienen asociada nformación proveniente del modelo y la realización de tres sistemas informáticos. Desarrollamos un primer sistema, basado en reglas contextuales, que obtiene valores de medida F parcial (incluyendo entre los elementos correctos los elementos reconocidos en forma parcial) satisfactorios: 92 % para el predicado, 81 % para la fuente, 75 % para el asunto, 89 % para el mensaje y 85 % para la opinión completa. En particular, para el reconocimiento de la fuente se obtuvo un 79 % de medida F exacta (sin incluir elementos reconocidos en forma parcial). El segundo sistema desarrollado se basa en el modelo Conditional Random Fields (CRF) y se realizó solo para el reconocimiento de las fuentes. El sistema alcanza un valor de medida F exacta de 76 %. Un tercer sistema, que combina las dos técnicas anteriores incorporando la salida del sistema de reglas para el reconocimiento de fuentes como un nuevo atributo del sistema basado en CRF, mejora sensiblemente los resultados obtenidos por los dos sistemas anteriores: 83 % de medida F exacta. En cuanto al reconocimiento de las fuentes de las opiniones, nuestro sistema obtiene resultados muy satisfactorios (83 % de medida F exacta), si tomamos como referencia trabajos realizados para otros idiomas que pueden considerarse similares al nuestro, si bien presentan varias diferencias en su enfoque y su alcance.Estos trabajos alcanzan valores de medida F (exacta o parcial) que se sitúan entre 63 % y 89,5 %. Por otro lado, durante el desarrollo de esta tesis generamos diversos recursos de utilidad para el procesamiento automático del español: un léxico de predicados de opinión, un corpus de 13.000 palabras anotado con las opiniones y sus elementos y un corpus de 40.000 palabras anotado con los predicados de opinión y sus fuentes

    Estudio de un sistema de clasificación automática de textos según las emociones del texto y el perfil de los autores

    Get PDF
    Debido al gran volumen de información que hay disponible en Internet se hace necesario el desarrollo de técnicas para la clasificación de esta información de manera automática. Además de las clasificaciones típicas que consisten en dividir los documentos a clasificar según su temática o su autor, por el gran uso que se hace hoy en día de herramientas como las redes sociales o los blogs y la cantidad de opiniones o críticas que los usuarios publican en ellos resulta interesante el estudio de sistemas que permitan clasificar todos estos textos publicados en Internet según el perfil de los autores o según las emociones que los textos expresan, ya que ello permitiría a los usuarios, por ejemplo, detectar los comentarios malos sobre un determinado producto que están interesados en adquirir. Este Proyecto Fin de Carrera estudiará los diferentes algoritmos de clasificación y las características del lenguaje que es necesario tener en cuenta para el desarrollo de un sistema de clasificación automática de textos según el sentimiento que expresan o según el perfil de los autores, así como las fases de las que consta el diseño de estos sistemas. Por último, se presentarán los resultados de algunos trabajos llevados a cabo en este campo por diferentes grupos de investigación.Due to the large amount of information available on the Internet nowadays it is necessary to develop new methods that allow to classify this documents automatically. In addition to the classical classifications that consist on classifying the documents according to its theme or author it is interesting to study new systems that allow to classify the texts that the users publish on social networks or blogs according to their age or genre or according to the sentiments that express their opinions on this texts. These systems would help the users for detecting bad reviews about a product they are interested in. The aim of this project is the study of the different classification algorithms and the language characteristics that are necessary for the development of an automatic texts classification system according to the sentiments of the texts and according to the author’s profile, as well as the different steps for the design of these systems. Finally, the results of some studies carried out in this field by different research groups will be presented.Ingeniería de Telecomunicació

    Desarrollo de un sistema para el análisis del posicionamiento sentimental de marcas en Internet

    Get PDF
    La World Wide Web es, hoy día, un enorme escaparate en el que los consumidores observan, consultan y compran productos. El rápido acceso a la información que proporcionan los buscadores web ha motivado que los consumidores busquen una segunda opinión en la Web, mediante la cual, reducir el riesgo percibido en la compra. Este Proyecto Fin de Carrera tiene como objetivo el diseño y la implementación de un sistema que permita analizar el contenido de artículos online, concretamente, artículos de coches publicados en sitios especializados en el mundo del motor y la actualidad del automóvil, e identificar las relaciones de similitud existentes entre marcas y sentimientos.Nowadays, the World Wide Web is a huge storefront in which consumers observe, see and buy products. The fast access to information provided by search engines has prompted consumers to seek a second opinion on the Web in order to reduce risk purchase. The goal of this project is the design and implementation of a system to allow analyze reviews, specifically, car reviews from automobile magazines sites, and recognize relationships between car brands and feelings.Ingeniería Técnica en Informática de Gestió

    Clasificación de subjetividad utilizando técnicas de aprendizaje automático

    Get PDF
    La clasificación de subjetividad es un ámbito de la minería de texto poco estudiado en el idioma español, y sin embargo sus aplicaciones son extensas. Su estudio permite comprender mejor la semántica de un texto y la intención de su autor, sin mencionar las implicaciones de su uso en la inteligencia de negocios, para identificar las necesidades de los clientes y obtener métricas valiosas a partir de sus críticas. En este trabajo se intenta aplicar técnicas conocidas de análisis de subjetividad en inglés, adaptadas al español, construyendo en el proceso una base de datos y un sistema clasificador de oraciones.Facultad de Informátic

    Aplicación del análisis de sentimientos a la evaluación de datos generados en medios sociales

    Get PDF
    El presente documento describe el proceso de investigación y desarrollo llevado a cabo en la disciplina del análisis de sentimientos. El objetivo principal de esta investigación fue evaluar la aplicación de las tecnologías del análisis de sentimientos al contenido generado por los usuarios de distintos medios sociales y presentar propuestas de aprovechamiento de los resultados de estas tecnologías a las organizaciones y usuarios. Se estudió el grado de confiabilidad de las herramientas en línea de análisis de sentimientos que trabajan con Twitter como fuente de corpus; se presentó una propuesta heurística que simplifica el análisis de sentimientos de los mensajes de Twitter centrándose en las opiniones directamente relacionadas con los objetos de opinión en lugar de determinar el sentimiento de forma global y que genera información adicional que pudiese resultar útil para el boca a boca electrónico; Finalmente se desarrolló y evaluó una propuesta de predicción de calificaciones cuantitativas de hoteles a partir de las críticas emitidas por los usuarios de sus servicios. Los resultados de esta investigación demuestran que el análisis de sentimientos es una disciplina que en su estado actual puede ser útil para la toma de decisiones para compañías e individuos y que sin embargo es susceptible de ser mejorada para el aprovechamiento de la cantidad masiva de opiniones en texto emitidas por los usuarios de los medios sociales

    Parallelization of text mining algorithms using Hadoop

    Get PDF
    Este Trabajo Fin de Grado (TFG) tiene como objetivos paralelizar algoritmos de minería de textos para poder permitir su ejecución con una gran cantidad de textos en el menor tiempo posible y con usuarios concurrentes, y la creación de un modelo de datos RDF con las anotaciones generadas por el algoritmo en los documentos. La paralelización se ha realizado siguiendo la filosofía MapReduce. En la fase del mapper se realiza la ejecución del algoritmo de minería de textos sobre el texto de entrada y se genera el modelo RDF asociado a ese texto. La fase del reducer se encarga de unir todos los modelos RDF que hagan referencia a textos de un documento en un único modelo global. El resultado de la ejecución de este programa son pares . Para cumplir con el segundo objetivo se ha desarrollado otra aplicación que une todos los modelos generados por el programa anterior en un solo modelo. El desarrollo del sistema se ha realizado usando Java SE y las tecnologías Apache Hadoop, Gate y Apache Jena. En este trabajo se expondrán un sistema capaz de paralelizar algoritmos de minería de textos desarrollados en GATE y crear el modelo RDF correspondiente a las anotaciones generadas a partir de los textos, las conclusiones alcanzadas a raíz de este trabajo y algunas propuestas de trabajos futuros

    Sistema de clasificación automática de críticas de cine

    Get PDF
    Considerada inicialmente una subdisciplina de la tarea de clasificación de documentos, en los últimos años la clasificación de documentos basada en la opinión (conocida en inglés bajo los nombres de sentiment classification, sentiment analysis u opinion mining) ha sido objeto de un creciente interés por parte de la comunidad de investigadores del procesamiento del lenguaje natural. El creciente interés por el procesamiento automático de las opiniones contenidas en documentos de texto, es en parte consecuencia del aumento exponencial de contenidos generados por usuarios en la Web 2.0, y por el interés, entre otros, de empresas y administraciones públicas en analizar, filtrar o detectar automáticamente las opiniones vertidas por sus clientes o ciudadanos. Este Proyecto de Fin de Carrera tiene como objetivo el diseño y la implementación de un sistema de clasificación automática de textos de opinión, concretamente de críticas cinematográficas vertidas por usuarios de internet, recogidas en diferentes webs dedicadas a tal fin. Los documentos serán clasificados, en una de las categorías definidas en el sistema (de acuerdo a la orientación afectiva de las críticas), aplicando diversas técnicas para el procesamiento del lenguaje natural (se aplicará en un caso el algoritmo kNN y en otro caso se hará uso de un diccionario afectivo). El hecho de conseguir un sistema automático de clasificación evitará la intervención humana y aumentará la rapidez con que se pueden procesar este tipo de documentos. Con la realización de este proyecto, se comprobarán y analizarán también las dificultades encontradas en la implementación de un sistema de clasificación automática donde la naturaleza de los textos es de opinión. ____________________________________________________As a subfield of document classification, Opinion based document classification (also known as sentiment classification, sentiment analysis or opinion mining) has been object of an increasing interest over the last years by the natural language research community. This focus on automatic opinion detection in text documents is due to the exponential increase of contents produced by Web 2.0 users, as well as to the interest of companies and public administrations to be able to analyse, filter or detect opinions expressed by their clients or citizens. The aim of this project is the design and implementation of an automatic opinion classification system, specifically, the classification of film reviews written by internet users that have been collected among different specialized websites. The documents will be classified into one of the defined system’s categories (according to the review’s affective orientation), applying diverse techniques for the natural language processing (both a kNN algorithm and an affective dictionary will be used). Such a kind of automatic classification system avoids any human intervention and considerably decreases the document’s manipulation time. Problems and difficulties found while implementing the system will be thoroughly commented and analysed.Ingeniería de Telecomunicació

    Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

    Full text link
    En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones. En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica, debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice. Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo). El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta

    Generador automático de fichas de personajes para un entorno periodístico

    Get PDF
    Sistema que permite generar una ficha informativa de un personaje de forma automática a partir de las noticias pertenecientes a una base de datos documental de un medio de comunicación y otra información procedente de Internet

    Aplicación del análisis de sentimientos a la evaluación de datos generados en medios sociales

    Get PDF
    El presente documento describe el proceso de investigación y desarrollo llevado a cabo en la disciplina del análisis de sentimientos. El objetivo principal de esta investigación fue evaluar la aplicación de las tecnologías del análisis de sentimientos al contenido generado por los usuarios de distintos medios sociales y presentar propuestas de aprovechamiento de los resultados de estas tecnologías a las organizaciones y usuarios. Se estudió el grado de confiabilidad de las herramientas en línea de análisis de sentimientos que trabajan con Twitter como fuente de corpus; se presentó una propuesta heurística que simplifica el análisis de sentimientos de los mensajes de Twitter centrándose en las opiniones directamente relacionadas con los objetos de opinión en lugar de determinar el sentimiento de forma global y que genera información adicional que pudiese resultar útil para el boca a boca electrónico; Finalmente se desarrolló y evaluó una propuesta de predicción de calificaciones cuantitativas de hoteles a partir de las críticas emitidas por los usuarios de sus servicios. Los resultados de esta investigación demuestran que el análisis de sentimientos es una disciplina que en su estado actual puede ser útil para la toma de decisiones para compañías e individuos y que sin embargo es susceptible de ser mejorada para el aprovechamiento de la cantidad masiva de opiniones en texto emitidas por los usuarios de los medios sociales
    corecore