5,273 research outputs found

    Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation

    Get PDF
    This paper surveys the current state of the art in Natural Language Generation (NLG), defined as the task of generating text or speech from non-linguistic input. A survey of NLG is timely in view of the changes that the field has undergone over the past decade or so, especially in relation to new (usually data-driven) methods, as well as new applications of NLG technology. This survey therefore aims to (a) give an up-to-date synthesis of research on the core tasks in NLG and the architectures adopted in which such tasks are organised; (b) highlight a number of relatively recent research topics that have arisen partly as a result of growing synergies between NLG and other areas of artificial intelligence; (c) draw attention to the challenges in NLG evaluation, relating them to similar challenges faced in other areas of Natural Language Processing, with an emphasis on different evaluation methods and the relationships between them.Comment: Published in Journal of AI Research (JAIR), volume 61, pp 75-170. 118 pages, 8 figures, 1 tabl

    Leveraging Machine Learning to Explain the Nature of Written Genres

    Get PDF
    The analysis of discourse and the study of what characterizes it in terms of communicative objectives is essential to most tasks of Natural Language Processing. Consequently, research on textual genres as expressions of such objectives presents an opportunity to enhance both automatic techniques and resources. To conduct an investigation of this kind, it is necessary to have a good understanding of what defines and distinguishes each textual genre. This research presents a data-driven approach to discover and analyze patterns in several textual genres with the aim of identifying and quantifying the differences between them, considering how language is employed and meaning expressed in each particular case. To identify and analyze patterns within genres, a set of linguistic features is first defined, extracted and computed by using several Natural Language Processing tools. Specifically, the analysis is performed over a corpora of documents—containing news, tales and reviews—gathered from different sources to ensure an heterogeneous representation. Once the feature dataset has been generated, machine learning techniques are used to ascertain how and to what extent each of the features should be present in a document depending on its genre. The results show that the set of features defined is relevant for characterizing the different genres. Furthermore, the findings allow us to perform a qualitative analysis of such features, so that their usefulness and suitability is corroborated. The results of the research can benefit natural language discourse processing tasks, which are useful both for understanding and generating language.This work was supported in part by the Ministry of Science and Innovation of Spain for the project “Integer: Intelligent Text Generarion” under Grant RTI2018-094649-B-I00, and in part by the Generalitat Valenciana through project “SIIA: Tecnologias del lenguaje humano para una sociedad inclusiva, igualitaria, y accesible" under Grant PROMETEU/2018/089

    Text-image synergy for multimodal retrieval and annotation

    Get PDF
    Text and images are the two most common data modalities found on the Internet. Understanding the synergy between text and images, that is, seamlessly analyzing information from these modalities may be trivial for humans, but is challenging for software systems. In this dissertation we study problems where deciphering text-image synergy is crucial for finding solutions. We propose methods and ideas that establish semantic connections between text and images in multimodal contents, and empirically show their effectiveness in four interconnected problems: Image Retrieval, Image Tag Refinement, Image-Text Alignment, and Image Captioning. Our promising results and observations open up interesting scopes for future research involving text-image data understanding.Text and images are the two most common data modalities found on the Internet. Understanding the synergy between text and images, that is, seamlessly analyzing information from these modalities may be trivial for humans, but is challenging for software systems. In this dissertation we study problems where deciphering text-image synergy is crucial for finding solutions. We propose methods and ideas that establish semantic connections between text and images in multimodal contents, and empirically show their effectiveness in four interconnected problems: Image Retrieval, Image Tag Refinement, Image-Text Alignment, and Image Captioning. Our promising results and observations open up interesting scopes for future research involving text-image data understanding.Text und Bild sind die beiden häufigsten Arten von Inhalten im Internet. Während es für Menschen einfach ist, gerade aus dem Zusammenspiel von Text- und Bildinhalten Informationen zu erfassen, stellt diese kombinierte Darstellung von Inhalten Softwaresysteme vor große Herausforderungen. In dieser Dissertation werden Probleme studiert, für deren Lösung das Verständnis des Zusammenspiels von Text- und Bildinhalten wesentlich ist. Es werden Methoden und Vorschläge präsentiert und empirisch bewertet, die semantische Verbindungen zwischen Text und Bild in multimodalen Daten herstellen. Wir stellen in dieser Dissertation vier miteinander verbundene Text- und Bildprobleme vor: • Bildersuche. Ob Bilder anhand von textbasierten Suchanfragen gefunden werden, hängt stark davon ab, ob der Text in der Nähe des Bildes mit dem der Anfrage übereinstimmt. Bilder ohne textuellen Kontext, oder sogar mit thematisch passendem Kontext, aber ohne direkte Übereinstimmungen der vorhandenen Schlagworte zur Suchanfrage, können häufig nicht gefunden werden. Zur Abhilfe schlagen wir vor, drei Arten von Informationen in Kombination zu nutzen: visuelle Informationen (in Form von automatisch generierten Bildbeschreibungen), textuelle Informationen (Stichworte aus vorangegangenen Suchanfragen), und Alltagswissen. • Verbesserte Bildbeschreibungen. Bei der Objekterkennung durch Computer Vision kommt es des Öfteren zu Fehldetektionen und Inkohärenzen. Die korrekte Identifikation von Bildinhalten ist jedoch eine wichtige Voraussetzung für die Suche nach Bildern mittels textueller Suchanfragen. Um die Fehleranfälligkeit bei der Objekterkennung zu minimieren, schlagen wir vor Alltagswissen einzubeziehen. Durch zusätzliche Bild-Annotationen, welche sich durch den gesunden Menschenverstand als thematisch passend erweisen, können viele fehlerhafte und zusammenhanglose Erkennungen vermieden werden. • Bild-Text Platzierung. Auf Internetseiten mit Text- und Bildinhalten (wie Nachrichtenseiten, Blogbeiträge, Artikel in sozialen Medien) werden Bilder in der Regel an semantisch sinnvollen Positionen im Textfluss platziert. Wir nutzen dies um ein Framework vorzuschlagen, in dem relevante Bilder ausgesucht werden und mit den passenden Abschnitten eines Textes assoziiert werden. • Bildunterschriften. Bilder, die als Teil von multimodalen Inhalten zur Verbesserung der Lesbarkeit von Texten dienen, haben typischerweise Bildunterschriften, die zum Kontext des umgebenden Texts passen. Wir schlagen vor, den Kontext beim automatischen Generieren von Bildunterschriften ebenfalls einzubeziehen. Üblicherweise werden hierfür die Bilder allein analysiert. Wir stellen die kontextbezogene Bildunterschriftengenerierung vor. Unsere vielversprechenden Beobachtungen und Ergebnisse eröffnen interessante Möglichkeiten für weitergehende Forschung zur computergestützten Erfassung des Zusammenspiels von Text- und Bildinhalten

    Probabilistic Graphical Models for Credibility Analysis in Evolving Online Communities

    Get PDF
    One of the major hurdles preventing the full exploitation of information from online communities is the widespread concern regarding the quality and credibility of user-contributed content. Prior works in this domain operate on a static snapshot of the community, making strong assumptions about the structure of the data (e.g., relational tables), or consider only shallow features for text classification. To address the above limitations, we propose probabilistic graphical models that can leverage the joint interplay between multiple factors in online communities --- like user interactions, community dynamics, and textual content --- to automatically assess the credibility of user-contributed online content, and the expertise of users and their evolution with user-interpretable explanation. To this end, we devise new models based on Conditional Random Fields for different settings like incorporating partial expert knowledge for semi-supervised learning, and handling discrete labels as well as numeric ratings for fine-grained analysis. This enables applications such as extracting reliable side-effects of drugs from user-contributed posts in healthforums, and identifying credible content in news communities. Online communities are dynamic, as users join and leave, adapt to evolving trends, and mature over time. To capture this dynamics, we propose generative models based on Hidden Markov Model, Latent Dirichlet Allocation, and Brownian Motion to trace the continuous evolution of user expertise and their language model over time. This allows us to identify expert users and credible content jointly over time, improving state-of-the-art recommender systems by explicitly considering the maturity of users. This also enables applications such as identifying helpful product reviews, and detecting fake and anomalous reviews with limited information.Comment: PhD thesis, Mar 201

    “Arashi for Dream” : Idol—fan relationships in Japan

    Get PDF
    The topic of this thesis is idol—fan relationships in Japan, with a specific focus on male idol groups and their female fans. The purpose of this study is twofold. First, it organizes the current discourses into a unified framework. It outlines the historical roots of the idol system, and it identifies four defining characteristics of idols: their multimedia presence/intertextuality, their relations to (and departure from) youth culture, the jimusho system, and the conscious cultivation of fandom. The intimacy between idols and their audience is reconceptualized as a parasocial relationship, and their commercialization and the viewers’ reception experiences are analyzed in this context. Current theories on fan—idol relationships posit that the female fan gaze is asexual. The second objective of this thesis is to challenge this notion by resituating these arguments in the wider theoretical framework of gaze and by highlighting certain methodological issues in the literature, e.g., the problems of applying a psychoanalytic model and textual analysis, that assume a textual spectator, to the study of the meaning-making processes of actual, empirical audiences. I also conducted a thematic analysis on popular idol fanfiction to explore the potential of an active, erotically charged female gaze, and to identify certain common appeals of idols as love objects. The discussion of the findings is structured along four central themes. First, themes related to the narratives are introduced as I explore the function of fame in these stories. Second, the inherent flexibility of the celebrity image is analyzed in regards to its potential to invite fantasy. Third, I focus on the construction of the idealized masculinity of idols, and I argue that amidst the “masculinity crisis” in Japan, male idols represent a new kind masculinity where threatening aspects are omitted. Nonetheless, these images are still perceived as masculine and are sexual by their audience. Fourth, I investigate how work and dreams were presented in the dream novels, and what these texts reveal about femininity in contemporary Japanese society. I suggest that idols embody neoliberal values which center on work and consumption as primary sites for identity-formation. Since my research analyzed dream novels that specifically target women, its scope was naturally limited to female fans of Arashi. A possible avenue for future research could be a comparison between the findings of this study and the gaze of male Arashi fans, or an in-depth comparative analysis of female and male idol fandoms in general

    Sentiment Analysis for Fake News Detection

    Get PDF
    [Abstract] In recent years, we have witnessed a rise in fake news, i.e., provably false pieces of information created with the intention of deception. The dissemination of this type of news poses a serious threat to cohesion and social well-being, since it fosters political polarization and the distrust of people with respect to their leaders. The huge amount of news that is disseminated through social media makes manual verification unfeasible, which has promoted the design and implementation of automatic systems for fake news detection. The creators of fake news use various stylistic tricks to promote the success of their creations, with one of them being to excite the sentiments of the recipients. This has led to sentiment analysis, the part of text analytics in charge of determining the polarity and strength of sentiments expressed in a text, to be used in fake news detection approaches, either as a basis of the system or as a complementary element. In this article, we study the different uses of sentiment analysis in the detection of fake news, with a discussion of the most relevant elements and shortcomings, and the requirements that should be met in the near future, such as multilingualism, explainability, mitigation of biases, or treatment of multimedia elements.Xunta de Galicia; ED431G 2019/01Xunta de Galicia; ED431C 2020/11This work has been funded by FEDER/Ministerio de Ciencia, Innovación y Universidades — Agencia Estatal de Investigación through the ANSWERASAP project (TIN2017-85160-C2-1-R); and by Xunta de Galicia through a Competitive Reference Group grant (ED431C 2020/11). CITIC, as Research Center of the Galician University System, is funded by the Consellería de Educación, Universidade e Formación Profesional of the Xunta de Galicia through the European Regional Development Fund (ERDF/FEDER) with 80%, the Galicia ERDF 2014-20 Operational Programme, and the remaining 20% from the Secretaría Xeral de Universidades (ref. ED431G 2019/01). David Vilares is also supported by a 2020 Leonardo Grant for Researchers and Cultural Creators from the BBVA Foundation. Carlos Gómez-Rodríguez has also received funding from the European Research Council (ERC), under the European Union’s Horizon 2020 research and innovation programme (FASTPARSE, grant No. 714150

    Narratives and Models in the Assessment of Unproven Technology

    Get PDF
    Imaginäre Zukünfte gelten als treibende Kraft der Gegenwart. Politiker, Wissenschaftler, Ingenieure und Ökonomen sind gleichermaßen auf nützliche Spekulationen angewiesen, wenn sie ihre gegenwärtigen Entscheidungen und Handlungen in vielversprechenden, sich entfaltenden Zukunftsvorstellungen umreißen und begründen. Zwar kann man die Zukunft nicht vorhersagen (Immanenz der Gegenwart), jedoch lässt sich empirisch beobachten, wie das Imaginieren und Streiten über Zukunftsvorstellungen an verschiedenen Orten, in verschiedenen Kontexten und zu verschiedenen Zeiten stattfindet. An diesen Orten der Hyperprojektivität entstehen und manifestieren sich die Grenzen plausibler Vorstellung unbewiesener Technologien in Modellen und Narrativen. Techniknarrative offenbaren die verheißungsvolle oder katastrophale Überschreitung einer vorhergehenden Normalität. Modelle untermauern die darin hervorgehobenen Aspekte mit ontischer Kraft und einer gewissen Objektivität. Inwiefern Akteure jedoch die narrativen Drehbücher und Modelle als Requisiten nutzen können, um in der Durchsetzung ihrer Visionen ihre relationale Positionierung zu verbessern, entscheidet letztlich die soziotechnische Praxis. Deshalb stehen Modelle und Narrative in dieser Thesis im Zentrum der Analyse und Unterscheidung imaginierter Zukünfte sowie der Diskussion von Implikationen für die Technikfolgenabschätzung. Der konzeptionelle Ansatz begründet sich in zwei eher voneinander losgelösten Debatten im Umfeld der TA, nämlich in den Sociologies of Expectation und der Philosophie der Imagination und Modellierung. Während die soziologische Debatte die Reichweite und Bedeutung antizipierender Praktiken für neue und aufkommende Technologien aufzeigt, diskutiert die Philosophie Voraussetzungen, um in der Fiktion neue Überzeugungen und Motivation zu erlangen. Die Debatten treffen sich im Verständnis von Modellen und Narrativen als sozial autorisierte Anweisungen für die Imagination. Während Narrative die zeitliche Kohärenz heterogener Elemente in hypothetischen Handlungspfaden herstellen (von A nach B via C), bilden Modelle der Wechselbeziehungen berücksichtigter Faktoren die Grundlage sozio-epistemischer Anfechtung. Da beides für die Gestaltung der Zukunft von zentraler Bedeutung ist, gilt es die gegenseitige Beeinflussung herauszuarbeiten. Dazu richtete sich diese analytische Perspektive auf die integrierte Begleitforschung zu “Visionen der Ernährung mit Mikroalgen”. Anhand der empirischen Beobachtungen zeigt die Doktorarbeit, wie verschiedene Zukunftsnarrative den Machbarkeitsfragen Relevanz geben und Expertisen unterschiedlich arrangieren. Die Arbeit postuliert, dass der Wandel imaginierter Zukünfte durch drei dynamische Faktoren bedingt ist, nämlich durch die aktuelle Datenlage und Modellierung, verfügbare Narrative Framings und die Kontingenz ihrer sozialen Praxis. Die Arbeit kommt zu dem Schluss, dass die zentrale Rolle von Modellen und Narrativen als Boundary Objects und Requisiten der Technikfolgenabschätzung mehr Aufmerksamkeit verdient, um die Zusammenhänge ihrer wissenschaftlichen, politischen und wirtschaftlichen Einbettung besser zu verstehen. Die Artikel der kumulativen Arbeit ergänzen sich in ihrer Frage nach der Rolle von Modellen und Erzählungen in der Bewertung unbewiesener Zukunftstechnologien. Der erste Artikel erörtert aus systemtheoretischer Sicht die Rolle von Narrativen für die Erzeugung von Handlungsfähigkeit sowie für die perspektivische Bewertung von Wissen. Der zweite Artikel zeigt, wie gesellschaftliche Zukünfte mit Delphi-Methoden empirisch erforscht werden und generalisierte Schlüsselnarrative es ermöglichen, diese zu unterscheiden und in transdisziplinären Kontexten zu kommunizieren. Der dritte Artikel überträgt Kendall Waltons Theorie des “make-believe” aus den Debatten repräsentierender Kunst und wissenschaftlicher Modellierung auf die empirische Untersuchung von Visionen, um am Beispiel eines Stakeholder-Workshops die Ambiguität imaginierter Grenzen in der Abschätzung einer Zukunftstechnologie offenzulegen. Der vierte Artikel diskutiert Möglichkeiten, politische und wirtschaftliche Perspektiven der Ökobilanz (LCA) bereits im Studiendesign zu antizipieren unter den Prämissen von Vergleichbarkeit und methodischer Standardisierung. Der fünfte Artikel fasst die systemanalytischen Erkenntnisse des Fallbeispiels in einem TA Opinion Paper über Zukünfte der Mikroalgenernährung zusammen. Zusammengefasst gibt die Arbeit dem Zusammenspiel von Modellen und Narrativen innovativer Technologien eine neue Relevanz in den gegenwärtigen Debatten der TA und ihres wissenschaftlichen Umfelds

    Proceedings of the Seventh Italian Conference on Computational Linguistics CLiC-it 2020

    Get PDF
    On behalf of the Program Committee, a very warm welcome to the Seventh Italian Conference on Computational Linguistics (CLiC-it 2020). This edition of the conference is held in Bologna and organised by the University of Bologna. The CLiC-it conference series is an initiative of the Italian Association for Computational Linguistics (AILC) which, after six years of activity, has clearly established itself as the premier national forum for research and development in the fields of Computational Linguistics and Natural Language Processing, where leading researchers and practitioners from academia and industry meet to share their research results, experiences, and challenges
    corecore