3 research outputs found

    Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization

    Full text link
    [ES] Hoy en día, la sociedad tiene acceso y posibilidad de contribuir a grandes cantidades de contenidos presentes en Internet, como redes sociales, periódicos online, foros, blogs o plataformas de contenido multimedia. Todo este tipo de medios han tenido, durante los últimos años, un impacto abrumador en el día a día de individuos y organizaciones, siendo actualmente medios predominantes para compartir, debatir y analizar contenidos online. Por este motivo, resulta de interés trabajar sobre este tipo de plataformas, desde diferentes puntos de vista, bajo el paraguas del Procesamiento del Lenguaje Natural. En esta tesis nos centramos en dos áreas amplias dentro de este campo, aplicadas al análisis de contenido en línea: análisis de texto en redes sociales y resumen automático. En paralelo, las redes neuronales también son un tema central de esta tesis, donde toda la experimentación se ha realizado utilizando enfoques de aprendizaje profundo, principalmente basados en mecanismos de atención. Además, trabajamos mayoritariamente con el idioma español, por ser un idioma poco explorado y de gran interés para los proyectos de investigación en los que participamos. Por un lado, para el análisis de texto en redes sociales, nos enfocamos en tareas de análisis afectivo, incluyendo análisis de sentimientos y detección de emociones, junto con el análisis de la ironía. En este sentido, se presenta un enfoque basado en Transformer Encoders, que consiste en contextualizar \textit{word embeddings} pre-entrenados con tweets en español, para abordar tareas de análisis de sentimiento y detección de ironía. También proponemos el uso de métricas de evaluación como funciones de pérdida, con el fin de entrenar redes neuronales, para reducir el impacto del desequilibrio de clases en tareas \textit{multi-class} y \textit{multi-label} de detección de emociones. Adicionalmente, se presenta una especialización de BERT tanto para el idioma español como para el dominio de Twitter, que tiene en cuenta la coherencia entre tweets en conversaciones de Twitter. El desempeño de todos estos enfoques ha sido probado con diferentes corpus, a partir de varios \textit{benchmarks} de referencia, mostrando resultados muy competitivos en todas las tareas abordadas. Por otro lado, nos centramos en el resumen extractivo de artículos periodísticos y de programas televisivos de debate. Con respecto al resumen de artículos, se presenta un marco teórico para el resumen extractivo, basado en redes jerárquicas siamesas con mecanismos de atención. También presentamos dos instancias de este marco: \textit{Siamese Hierarchical Attention Networks} y \textit{Siamese Hierarchical Transformer Encoders}. Estos sistemas han sido evaluados en los corpora CNN/DailyMail y NewsRoom, obteniendo resultados competitivos en comparación con otros enfoques extractivos coetáneos. Con respecto a los programas de debate, se ha propuesto una tarea que consiste en resumir las intervenciones transcritas de los ponentes, sobre un tema determinado, en el programa "La Noche en 24 Horas". Además, se propone un corpus de artículos periodísticos, recogidos de varios periódicos españoles en línea, con el fin de estudiar la transferibilidad de los enfoques propuestos, entre artículos e intervenciones de los participantes en los debates. Este enfoque muestra mejores resultados que otras técnicas extractivas, junto con una transferibilidad de dominio muy prometedora.[CA] Avui en dia, la societat té accés i possibilitat de contribuir a grans quantitats de continguts presents a Internet, com xarxes socials, diaris online, fòrums, blocs o plataformes de contingut multimèdia. Tot aquest tipus de mitjans han tingut, durant els darrers anys, un impacte aclaparador en el dia a dia d'individus i organitzacions, sent actualment mitjans predominants per compartir, debatre i analitzar continguts en línia. Per aquest motiu, resulta d'interès treballar sobre aquest tipus de plataformes, des de diferents punts de vista, sota el paraigua de l'Processament de el Llenguatge Natural. En aquesta tesi ens centrem en dues àrees àmplies dins d'aquest camp, aplicades a l'anàlisi de contingut en línia: anàlisi de text en xarxes socials i resum automàtic. En paral·lel, les xarxes neuronals també són un tema central d'aquesta tesi, on tota l'experimentació s'ha realitzat utilitzant enfocaments d'aprenentatge profund, principalment basats en mecanismes d'atenció. A més, treballem majoritàriament amb l'idioma espanyol, per ser un idioma poc explorat i de gran interès per als projectes de recerca en els que participem. D'una banda, per a l'anàlisi de text en xarxes socials, ens enfoquem en tasques d'anàlisi afectiu, incloent anàlisi de sentiments i detecció d'emocions, juntament amb l'anàlisi de la ironia. En aquest sentit, es presenta una aproximació basada en Transformer Encoders, que consisteix en contextualitzar \textit{word embeddings} pre-entrenats amb tweets en espanyol, per abordar tasques d'anàlisi de sentiment i detecció d'ironia. També proposem l'ús de mètriques d'avaluació com a funcions de pèrdua, per tal d'entrenar xarxes neuronals, per reduir l'impacte de l'desequilibri de classes en tasques \textit{multi-class} i \textit{multi-label} de detecció d'emocions. Addicionalment, es presenta una especialització de BERT tant per l'idioma espanyol com per al domini de Twitter, que té en compte la coherència entre tweets en converses de Twitter. El comportament de tots aquests enfocaments s'ha provat amb diferents corpus, a partir de diversos \textit{benchmarks} de referència, mostrant resultats molt competitius en totes les tasques abordades. D'altra banda, ens centrem en el resum extractiu d'articles periodístics i de programes televisius de debat. Pel que fa a l'resum d'articles, es presenta un marc teòric per al resum extractiu, basat en xarxes jeràrquiques siameses amb mecanismes d'atenció. També presentem dues instàncies d'aquest marc: \textit{Siamese Hierarchical Attention Networks} i \textit{Siamese Hierarchical Transformer Encoders}. Aquests sistemes s'han avaluat en els corpora CNN/DailyMail i Newsroom, obtenint resultats competitius en comparació amb altres enfocaments extractius coetanis. Pel que fa als programes de debat, s'ha proposat una tasca que consisteix a resumir les intervencions transcrites dels ponents, sobre un tema determinat, al programa "La Noche en 24 Horas". A més, es proposa un corpus d'articles periodístics, recollits de diversos diaris espanyols en línia, per tal d'estudiar la transferibilitat dels enfocaments proposats, entre articles i intervencions dels participants en els debats. Aquesta aproximació mostra millors resultats que altres tècniques extractives, juntament amb una transferibilitat de domini molt prometedora.[EN] Nowadays, society has access, and the possibility to contribute, to large amounts of the content present on the internet, such as social networks, online newspapers, forums, blogs, or multimedia content platforms. These platforms have had, during the last years, an overwhelming impact on the daily life of individuals and organizations, becoming the predominant ways for sharing, discussing, and analyzing online content. Therefore, it is very interesting to work with these platforms, from different points of view, under the umbrella of Natural Language Processing. In this thesis, we focus on two broad areas inside this field, applied to analyze online content: text analytics in social media and automatic summarization. Neural networks are also a central topic in this thesis, where all the experimentation has been performed by using deep learning approaches, mainly based on attention mechanisms. Besides, we mostly work with the Spanish language, due to it is an interesting and underexplored language with a great interest in the research projects we participated in. On the one hand, for text analytics in social media, we focused on affective analysis tasks, including sentiment analysis and emotion detection, along with the analysis of the irony. In this regard, an approach based on Transformer Encoders, based on contextualizing pretrained Spanish word embeddings from Twitter, to address sentiment analysis and irony detection tasks, is presented. We also propose the use of evaluation metrics as loss functions, in order to train neural networks for reducing the impact of the class imbalance in multi-class and multi-label emotion detection tasks. Additionally, a specialization of BERT both for the Spanish language and the Twitter domain, that takes into account inter-sentence coherence in Twitter conversation flows, is presented. The performance of all these approaches has been tested with different corpora, from several reference evaluation benchmarks, showing very competitive results in all the tasks addressed. On the other hand, we focused on extractive summarization of news articles and TV talk shows. Regarding the summarization of news articles, a theoretical framework for extractive summarization, based on siamese hierarchical networks with attention mechanisms, is presented. Also, we present two instantiations of this framework: Siamese Hierarchical Attention Networks and Siamese Hierarchical Transformer Encoders. These systems were evaluated on the CNN/DailyMail and the NewsRoom corpora, obtaining competitive results in comparison to other contemporary extractive approaches. Concerning the TV talk shows, we proposed a text summarization task, for summarizing the transcribed interventions of the speakers, about a given topic, in the Spanish TV talk shows of the ``La Noche en 24 Horas" program. In addition, a corpus of news articles, collected from several Spanish online newspapers, is proposed, in order to study the domain transferability of siamese hierarchical approaches, between news articles and interventions of debate participants. This approach shows better results than other extractive techniques, along with a very promising domain transferability.González Barba, JÁ. (2021). Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172245TESI

    Los usuarios de los medios digitales ante los escándalos de corrupción. El caso del juicio de Francisco Camps

    Get PDF
    El objeto de estudio de esta tesis doctoral son los usuarios de los medios digitales y su reacción ante los escándalos de corrupción. Nos centramos en las dinámicas comunicativas que se establecen entre los cibermedios y sus audiencias, pero también en la forma en que los usuarios de los medios participan e interactúan entre sí. El estudio de la audiencia se lleva a cabo mediante el análisis de los comentarios de los usuarios, mientras que la información sobre los medios la buscamos en las noticias de los cibermedios. Este trabajo pretende conseguir tres objetivos primordiales. En primer lugar, comprobar hasta qué punto la información de los medios digitales influye en los usuarios del sistema de comentarios. Consideramos que el análisis de los medios digitales ofrece la oportunidad de estudiar la relación entre medios y audiencia desde una perspectiva diferente (Fenoll 2009, 2012; Rusell Neuman et al, 2014), ya que encontramos en el mismo espacio la cobertura mediática y la opinión de los usuarios manifestada a través de los comentarios que acompañan a las noticias. Para llevar a cabo este objetivo, desarrollamos una metodología en la que combinamos el análisis de contenido cuantitativo de texto asistido por computadora con un posterior análisis del discurso (Zeller, 2011). En segundo lugar, queremos profundizar en la reacción de la audiencia ante los escándalos de corrupción política, para averiguar si existen elementos, aparte de los estrictamente judiciales, que determinan su actitud ante ellos. Sostenemos la hipótesis de que la respuesta de los usuarios ante los escándalos de corrupción está condicionada por su filiación política, y que esta circunstancia tiene más peso en la actitud manifestada por muchos comentaristas que la sentencia del tribunal. Por último, dado que la escritura de los comentarios implica un esfuerzo añadido al de la mera lectura de la información que aparece publicada en las noticias, el tercer objetivo de este trabajo es descubrir qué características tienen los usuarios que intervienen en el sistema de comentarios y qué elementos desencadenan una mayor participación. Es decir, responder a la pregunta: ¿qué motiva a la audiencia a participar en los medios digitales? En este sentido, queremos confirmar si la experiencia de disonancia cognitiva (Festinger, 1975) es la responsable de la participación de los usuarios en el sistema de comentarios de las noticias. Para poder acometer los tres objetivos principales y responder a las ocho preguntas de investigación vamos a repasar distintos enfoques teóricos: proceso de formación de la opinión pública, influencia de los medios de comunicación en la audiencia y características del medio donde se produce el proceso comunicativo de los cibermedios. En el capítulo primero desarrollamos el estado de la cuestión de todos estos temas. En primer lugar, nos centramos en las dinámicas que intervienen en la formación de la opinión de los usuarios, a través del modelo de opinión pública de Irving Crespi (2000). Este modelo nos permite afrontar, desde una perspectiva teorética y práctica, el análisis de los procesos de formación y cambio de opinión de la audiencia. Por un lado, partimos de la base de que una opinión es la verbalización de un sistema actitudinal, que está compuesto por valores, conocimientos y emociones. Los componentes del sistema actitudinal son interdependientes entre sí y determinan la predisposición que cada individuo tiene ante el mundo que le rodea; en otras palabras, determinan la opinión individual. Por el otro, contextualizamos la opinión individual dentro de un proceso interactivo y multidimensional que desemboca en la formación de la opinión colectiva, donde entran en juego factores tan importantes como el clima de opinión (Noelle-Neumann, 1995), con potencial para condicionar las opiniones que los individuos expresan en público. Como señala Grossi (2007), la relación vinculante entre opinión y clima de opinión es la misma que se da en semiótica entre texto y contexto. En segundo lugar, prestamos atención a los efectos que los medios de comunicación desencadenan en la audiencia, haciendo especial hincapié en la teoría del establecimiento de agenda (McCombs y Shaw, 1972) y en sus efectos de segundo nivel (McCombs et al. 2000). Los medios de comunicación realizan una selección de atributos de los objetos que aparecen en las noticias. La transferencia de la relevancia de estos atributos de la agenda mediática a la agenda del público supone el segundo nivel de establecimiento de agenda. Los estudios de agenda-setting están basados en la búsqueda de correlación entre la agenda mediática, medida a través de un análisis de contenido de las noticias, y la agenda del público, recogida mediante encuestas. Los medios digitales incorporan en muchas de sus noticias un sistema de comentarios que permite a los usuarios expresar su opinión. Desde el punto de vista de las ciencias de la comunicación, esta herramienta permite abordar el estudio de los procesos comunicativos desde una nueva perspectiva, ya que la opinión de la audiencia se encuentra disponible para su estudio en el sistema de comentarios de la noticia (Fenoll, 2012; Rusell Neuman et al., 2014). En tercer lugar, nos ocupamos del medio digital en el que se desarrolla el proceso comunicativo que estamos estudiando. Las tecnologías de la información y la comunicación han modificado el modelo de comunicación de los medios tradicionales. En Internet cohabitan en un mismo espacio las noticias de los medios digitales junto con los comentarios de los usuarios. Desde la perspectiva del usuario, estamos interesados en arrojar luz sobre los elementos que desencadenan su participación, por lo que debemos repasar también algunos aportes al respecto provenientes de la teoría de los usos y gratificaciones, para entender la interacción entre medio, contenido y audiencia (Rayburn, 1996). En cuarto lugar, nos detendremos en la evolución de los medios digitales en España y, en especial, en la contextualización de los cuatro cibermedios analizados: Elpaís.com, Elmundo.es, Levante-emv.com y Lasprovincias.es. El objetivo es comprender la estructura de la comunicación en la que se imbrican estos medios y obtener, de este modo, más elementos con los que poder valorar la forma en que acometen la cobertura mediática del juicio de Francisco Camps. En el apartado metodológico establecemos con detalle un diseño de investigación comparada que combina distintas metodologías, con las que alcanzar los objetivos del estudio y responder a las preguntas planteadas. Utilizamos una metodología de análisis de contenido cuantitativo para detectar mediante programas de análisis automatizado de texto los encuadres, protagonistas y emociones presentes en noticias y comentarios. Al mismo tiempo, realizamos un análisis de contenido cualitativo de los comentarios para averiguar qué actitud mantienen los usuarios de los distintos medios ante Camps, la corrupción y el resto de variables. Al recoger muestras antes y después del veredicto, disponemos de una variable temporal en el corpus con la que poder observar si se produce un cambio de opinión en la audiencia. Realizamos también un análisis de contenido cualitativo de los comentarios para averiguar qué elementos caracterizan a los usuarios más activos en el foro y qué elementos desencadenan la participación. La información se extrajo directamente desde la edición de noche de las versiones digitales de los cuatro medios digitales. El acceso a noticias y comentarios es libre y su contenido se copió manualmente al programa SPSS desde la web de cada medio digital. El proceso de volcado de la información duró cinco meses, desde febrero de 2012 hasta julio del mismo año. Para responder a las ocho preguntas de investigación vamos a combinar técnicas cuantitativas y cualitativas de análisis de contenido. En el capítulo tercero ofrecemos el contexto del escándalo de corrupción analizado en este estudio: la llamada «causa de los trajes» de Francisco Camps. Para ello describimos la cronología y los protagonistas del «caso Gürtel», desde la aparición del caso y la implicación de Camps en febrero 2009, pasando por el archivo del caso en agosto de 2009 por el TSJCV y su posterior reapertura en julio de 2011, donde el TSJCV imputa a Francisco Camps por un delito continuado de cohecho pasivo impropio. Finalmente, en enero de 2012 es declarado no culpable por el Tribunal del Jurado. Conjuntamente, exploramos el concepto de corrupción política para tener una visión general del problema y comprender cómo trascienden este tipo de casos a través de los medios de comunicación, transformándose por el camino en lo que Thompson denomina «escándalo mediático» (2001: 55). En el estudio disponemos de dos corpus principales, que recogen información para el análisis de los medios y de los usuarios. El corpus de los medios comprende las 1051 noticias sobre Francisco Camps que abordan el tema de la «causa de los trajes» publicadas entre el 15 de julio de 2011 y el 25 de enero de 2012 en cuatro cibermedios españoles: Levante-emv.com, Lasprovincias.es, Elpaís.com y Elmundo.es. Las fechas representan el día que Francisco Camps es imputado y el día que es declarado no culpable, respectivamente. Por su parte, el corpus de los usuarios está formado por los 3065 comentarios publicados junto a esas noticias durante los días 15 de julio de 2011 y 25 de enero de 2012. Uno de los principales retos de este estudio era desarrollar una metodología basada en el análisis cuantitativo de texto que nos permitiera conseguir información sobre los medios digitales, a través de las noticias, y sobre los usuarios, a través de los comentarios. Los resultados obtenidos en el estudio nos permiten confirmar que los medios digitales ofrecen una plataforma excelente para el estudio de la transferencia de emociones y atributos a la audiencia. Del mismo modo, encontramos en los comentarios publicados en los medios digitales elementos suficientes para poder estudiar la actitud de los usuarios ante determinados asuntos, como es el caso de la corrupción. Finalmente, el análisis en profundidad de los comentarios nos ofrece pistas sobre las características de los usuarios que participan en los medios digitales, así como de los elementos que potencian y desencadenan su participación
    corecore