11 research outputs found

    Sentilyzer – A Mashup Application for the Sentiment Analysis of Facebook Pages

    Get PDF
    We present Sentilyzer, a web-based tool that can be used to analyze and visualize the sentiment of German user comments on Facebook pages. The tool collects comments via the Facebook API and uses the TreeTagger to perform basic lemmatization. The lemmatized data is then analyzed with regard to sentiment by using the Berlin Affective Word List – Reloaded (BAWL-R), a lexicon that contains emotional valence ratings for more than 2,900 German words. The results are visualized in an interactive web interface that shows sentiment analyses for single posts, but also provides a timeline view to display trends in the sentiment ratings

    Evaluation in Discourse: a Corpus-Based Study

    Get PDF
    This paper describes the CASOAR corpus, the first manually annotated corpus that explores the impact of discourse structure on sentiment analysis with a study of movie reviews in French and in English as well as letters to the editor in French. While annotating opinions at the expression, the sentence or the document level is a well-established task and relatively straightforward, discourse annotation remains difficult, especially for non-experts. Therefore, combining both annotations poses several methodological problems that we address here. We propose a multi-layered annotation scheme that includes: the complete discourse structure according to the Segmented Discourse Representation Theory, the opinion orientation of elementary discourse units and opinion expressions, and their associated features. We detail each layer, explore the interactions between them and discuss our results. In particular, we examine the correlation between discourse and semantic category of opinion expressions, the impact of discourse relations on both subjectivity and polarity analysis and the impact of discourse on the determination of the overall opinion of a document. Our results demonstrate that discourse is an important cue for sentiment analysis, at least for the corpus genres we have studied

    Lexicon-based Sentiment Analysis in German: Systematic Evaluation of Resources and Preprocessing Techniques

    Get PDF
    We present the results of an evaluation study in the context of lexicon-based sentiment analysis resources for German texts. We have set up a comprehensive compilation of 19 sentiment lexicon resources and 20 sentiment-annotated corpora available for German across multiple domains. In addition to the evaluation of the sentiment lexicons we also investigate the influence of the following preprocessing steps and modifiers: stemming and lemmatization, part-of-speech-tagging, usage of emoticons, stop words removal, usage of valence shifters, intensifiers, and diminishers. We report the best performing lexicons as well as the influence of preprocessing steps and other modifications on average performance across all corpora. We show that larger lexicons with continuous values like SentiWS and SentiMerge perform best across the domains. The best performing configuration of lexicon and modifications considering the f1-value and accuracy averages across all corpora achieves around 67%. Preprocessing, especially stemming or lemmatization increases the performance consistently on average around 6% and for certain lexicons and configurations up to 16.5% while methods like the usage of valence shifters, intensifiers or diminishers rarely influence overall performance. We discuss domain-specific differences and give recommendations for the selection of lexicons, preprocessing and modifications

    Models to represent linguistic linked data

    Get PDF
    As the interest of the Semantic Web and computational linguistics communities in linguistic linked data (LLD) keeps increasing and the number of contributions that dwell on LLD rapidly grows, scholars (and linguists in particular) interested in the development of LLD resources sometimes find it difficult to determine which mechanism is suitable for their needs and which challenges have already been addressed. This review seeks to present the state of the art on the models, ontologies and their extensions to represent language resources as LLD by focusing on the nature of the linguistic content they aim to encode. Four basic groups of models are distinguished in this work: models to represent the main elements of lexical resources (group 1), vocabularies developed as extensions to models in group 1 and ontologies that provide more granularity on specific levels of linguistic analysis (group 2), catalogues of linguistic data categories (group 3) and other models such as corpora models or service-oriented ones (group 4). Contributions encompassed in these four groups are described, highlighting their reuse by the community and the modelling challenges that are still to be faced

    Workshop Proceedings of the 12th edition of the KONVENS conference

    Get PDF
    The 2014 issue of KONVENS is even more a forum for exchange: its main topic is the interaction between Computational Linguistics and Information Science, and the synergies such interaction, cooperation and integrated views can produce. This topic at the crossroads of different research traditions which deal with natural language as a container of knowledge, and with methods to extract and manage knowledge that is linguistically represented is close to the heart of many researchers at the Institut für Informationswissenschaft und Sprachtechnologie of Universität Hildesheim: it has long been one of the institute’s research topics, and it has received even more attention over the last few years

    „Gefühl ist alles; Name ist Schall und Rauch.“ Der Einsatz von Sentiment Analysis in der quantitativen Dramenanalyse

    Get PDF
    In der vorliegenden Masterarbeit wird ein mehrteiliges Projekt vorgestellt, das den Einsatz von Sentiment Analysis (SA) in der quantitativen Dramenanalyse exploriert. Als beispielhafter Untersuchungsgegenstand wird ein Korpus von 11 Dramen des Schriftstellers Gotthold Ephraim Lessing (1729 – 1782) verwendet. Die Arbeit stellt eine Erweiterung eines bestehenden Tools zur quantitativen Dramenanalyse (Katharsis) um eine SA-Komponente dar. Es wurden Python-Programme zur Durchführung der SA entwickelt. Als zentraler SA-Ansatz wird mangels annotierter Trainings-Korpora ein Lexikon-basierter Ansatz gewählt. Um ein optimiertes SA-Verfahren zu identifizieren, werden mehrere Optionen und Herangehensweisen für die SA implementiert und auf ihre Leistung für den spezifischen Anwendungsfall untersucht. Es werden fünf der bekanntesten deutschsprachigen SA-Lexika implementiert sowie eine kombinierte Gesamtversion dieser erstellt. Als weitere Optionen wird der Einfluss einer Lexikonerweiterung mit historischen linguistischen Varianten, von Lemmatisierung über zwei Lemmatisierer und drei Lemmatisierungsarten, von drei verschiedenen Stoppwortlisten und der Beachtung von Groß- und Kleinschreibung implementiert und untersucht. Es werden für alle kombinatorischen Möglichkeiten von Lexika und Optionen verschiedene Sentiment-Metriken auf verschiedenen Ebenen berechnet. Als Ebenen des Dramas werden Sentiment-Metriken für die strukturelle Ebene (Drama, Akt, Szene, Replik), die Sprecher-Ebene (pro Drama, Akt, Szene, Replik) und für Sprecherbeziehungen (pro Dra-ma, Akt, Szene, Replik) kalkuliert. Es werden unterschiedliche Metriken für die Polari-tät (positiv, negativ) und 8 Emotionskategorien auf diesen Ebenen berechnet. Es werden mehrere Evaluationsverfahren durchgeführt. In einer ersten informellen Evaluation wird der Anteil der Wörter der Lexika in Zusammenhang mit den genannten Optionen am Vokabular des Korpus untersucht und diskutiert. Zur Ausführung einer systematischen Evaluation wird ein Gold-Standard von annotierten Repliken erstellt. In einer Annotationsstudie beurteilen 5 Teilnehmer einen repräsentativen Korpus von 200 Repliken bezüglich Polarität und Emotionen. In einem anschließenden Fragebogen konnten Einsichten zu Probleme und Schwierigkeiten bei der Annotation erhoben werden. Die Ergebnisse der Annotation werden statistisch ausgewertet und hinsichtlich Annotationsverhalten untersucht. Als Hauptergebnisse stellt man einen grundsätzlich geringeren Übereinstimmungsgrad als bei anderen Untersuchungsgegenständen in der SA fest. Auffällig ist auch eine starke Ungleichverteilung der Polaritäten im Korpus. Es werden deutlich mehr Repliken als negativ denn als positiv wahr-genommen. Das finale Evaluations-Korpus (Gold Standard, GS) besteht aus 139 negativen und 61 positiven Repliken basierend auf der Mehrheitsentscheidung der Annotatoren. Über ein in Python entwickeltes Evaluationsframework wurde systematisch die SA-Leistung aller Lexika und Methoden hinsichtlich der Prädiktion der Polarität einer Replik untersucht. Verschieden Evaluations-Metriken wurden zur differenzierten Ana-lyse und Diskussion aller Ansätze berechnet. Es können Erkennungsraten von bis zu 70% festgestellt werden. Unter Analyse aller Evaluationsergebnisse wird das leistungsstärkste Verfahren bestimmt. Es setzt sich aus der Methoden-Kombination des Lexikons SentiWS, erweitert durch historische linguistische Varianten, mit einer Lemmatisierung auf Text- und Lexikon-Ebene über den pattern-Lemmatisierer, ohne Stoppwortiste und unter Beachtung von Groß- und Kleinschreibung im letzten Abgleichschritt, zusammen. Für das als am besten identifizierte Verfahren wird ein Front-End zur Visualisierung der SA-Metriken als Web-Anwendung implementiert. Es stehen interaktive Visualisierungen für Polaritäten und Emotionskategorien zur Verfügung. Es können Verteilungen und Verläufe auf Dramen-, Akt-, Szenen-, Replik-, Sprecher- und Sprecherbeziehungs (je pro Drama, Akt, Szene, Replik) exploriert werden. Der mögliche Einsatz in der Dramenanalyse wird anhand vereinzelter Fallbeispiele beschrieben. Ab-schließend werden die Ergebnisse des Gesamtprojekts im Kontext der Forschung diskutiert und mögliche Anknüpfungspunkte besprochen

    Systematic Approaches for Telemedicine and Data Coordination for COVID-19 in Baja California, Mexico

    Get PDF
    Conference proceedings info: ICICT 2023: 2023 The 6th International Conference on Information and Computer Technologies Raleigh, HI, United States, March 24-26, 2023 Pages 529-542We provide a model for systematic implementation of telemedicine within a large evaluation center for COVID-19 in the area of Baja California, Mexico. Our model is based on human-centric design factors and cross disciplinary collaborations for scalable data-driven enablement of smartphone, cellular, and video Teleconsul-tation technologies to link hospitals, clinics, and emergency medical services for point-of-care assessments of COVID testing, and for subsequent treatment and quar-antine decisions. A multidisciplinary team was rapidly created, in cooperation with different institutions, including: the Autonomous University of Baja California, the Ministry of Health, the Command, Communication and Computer Control Center of the Ministry of the State of Baja California (C4), Colleges of Medicine, and the College of Psychologists. Our objective is to provide information to the public and to evaluate COVID-19 in real time and to track, regional, municipal, and state-wide data in real time that informs supply chains and resource allocation with the anticipation of a surge in COVID-19 cases. RESUMEN Proporcionamos un modelo para la implementación sistemática de la telemedicina dentro de un gran centro de evaluación de COVID-19 en el área de Baja California, México. Nuestro modelo se basa en factores de diseño centrados en el ser humano y colaboraciones interdisciplinarias para la habilitación escalable basada en datos de tecnologías de teleconsulta de teléfonos inteligentes, celulares y video para vincular hospitales, clínicas y servicios médicos de emergencia para evaluaciones de COVID en el punto de atención. pruebas, y para el tratamiento posterior y decisiones de cuarentena. Rápidamente se creó un equipo multidisciplinario, en cooperación con diferentes instituciones, entre ellas: la Universidad Autónoma de Baja California, la Secretaría de Salud, el Centro de Comando, Comunicaciones y Control Informático. de la Secretaría del Estado de Baja California (C4), Facultades de Medicina y Colegio de Psicólogos. Nuestro objetivo es proporcionar información al público y evaluar COVID-19 en tiempo real y rastrear datos regionales, municipales y estatales en tiempo real que informan las cadenas de suministro y la asignación de recursos con la anticipación de un aumento de COVID-19. 19 casos.ICICT 2023: 2023 The 6th International Conference on Information and Computer Technologieshttps://doi.org/10.1007/978-981-99-3236-

    MLSA – A Multi-layered Reference Corpus for German Sentiment Analysis

    No full text
    In this paper, we describe MLSA, a publicly available multi-layered reference corpus for German-language sentiment analysis. The construction of the corpus is based on the manual annotation of 270 German-language sentences considering three different layers of granularity. The sentence-layer annotation, as the most coarse-grained annotation, focuses on aspects of objectivity, subjectivity and the overall polarity of the respective sentences. Layer 2 is concerned with polarity on the word- and phrase-level, annotating both subjective and factual language. The annotations on Layer 3 focus on the expression-level, denoting frames of private states such as objective and direct speech events. These three layers and their respective annotations are intended to be fully independent of each other. At the same time, exploring for and discovering interactions that may exist between different layers should also be possible. The reliability of the respective annotations was assessed using the average pairwise agreement and Fleiss’ multi-rater measures. We believe that MLSA is a beneficial resource for sentiment analysis research, algorithms and applications that focus on the German language
    corecore