3 research outputs found

    Genre and Domain Dependencies in Sentiment Analysis

    Get PDF
    Genre and domain influence an author\''s style of writing and therefore a text\''s characteristics. Natural language processing is prone to such variations in textual characteristics: it is said to be genre and domain dependent. This thesis investigates genre and domain dependencies in sentiment analysis. Its goal is to support the development of robust sentiment analysis approaches that work well and in a predictable manner under different conditions, i.e. for different genres and domains. Initially, we show that a prototypical approach to sentiment analysis -- viz. a supervised machine learning model based on word n-gram features -- performs differently on gold standards that originate from differing genres and domains, but performs similarly on gold standards that originate from resembling genres and domains. We show that these gold standards differ in certain textual characteristics, viz. their domain complexity. We find a strong linear relation between our approach\''s accuracy on a particular gold standard and its domain complexity, which we then use to estimate our approach\''s accuracy. Subsequently, we use certain textual characteristics -- viz. domain complexity, domain similarity, and readability -- in a variety of applications. Domain complexity and domain similarity measures are used to determine parameter settings in two tasks. Domain complexity guides us in model selection for in-domain polarity classification, viz. in decisions regarding word n-gram model order and word n-gram feature selection. Domain complexity and domain similarity guide us in domain adaptation. We propose a novel domain adaptation scheme and apply it to cross-domain polarity classification in semi- and unsupervised domain adaptation scenarios. Readability is used for feature engineering. We propose to adopt readability gradings, readability indicators as well as word and syntax distributions as features for subjectivity classification. Moreover, we generalize a framework for modeling and representing negation in machine learning-based sentiment analysis. This framework is applied to in-domain and cross-domain polarity classification. We investigate the relation between implicit and explicit negation modeling, the influence of negation scope detection methods, and the efficiency of the framework in different domains. Finally, we carry out a case study in which we transfer the core methods of our thesis -- viz. domain complexity-based accuracy estimation, domain complexity-based model selection, and negation modeling -- to a gold standard that originates from a genre and domain hitherto not used in this thesis

    Unsupervised Natural Language Processing for Knowledge Extraction from Domain-specific Textual Resources

    Get PDF
    This thesis aims to develop a Relation Extraction algorithm to extract knowledge out of automotive data. While most approaches to Relation Extraction are only evaluated on newspaper data dealing with general relations from the business world their applicability to other data sets is not well studied. Part I of this thesis deals with theoretical foundations of Information Extraction algorithms. Text mining cannot be seen as the simple application of data mining methods to textual data. Instead, sophisticated methods have to be employed to accurately extract knowledge from text which then can be mined using statistical methods from the field of data mining. Information Extraction itself can be divided into two subtasks: Entity Detection and Relation Extraction. The detection of entities is very domain-dependent due to terminology, abbreviations and general language use within the given domain. Thus, this task has to be solved for each domain employing thesauri or another type of lexicon. Supervised approaches to Named Entity Recognition will not achieve reasonable results unless they have been trained for the given type of data. The task of Relation Extraction can be basically approached by pattern-based and kernel-based algorithms. The latter achieve state-of-the-art results on newspaper data and point out the importance of linguistic features. In order to analyze relations contained in textual data, syntactic features like part-of-speech tags and syntactic parses are essential. Chapter 4 presents machine learning approaches and linguistic foundations being essential for syntactic annotation of textual data and Relation Extraction. Chapter 6 analyzes the performance of state-of-the-art algorithms of POS tagging, syntactic parsing and Relation Extraction on automotive data. The findings are: supervised methods trained on newspaper corpora do not achieve accurate results when being applied on automotive data. This is grounded in various reasons. Besides low-quality text, the nature of automotive relations states the main challenge. Automotive relation types of interest (e. g. component – symptom) are rather arbitrary compared to well-studied relation types like is-a or is-head-of. In order to achieve acceptable results, algorithms have to be trained directly on this kind of data. As the manual annotation of data for each language and data type is too costly and inflexible, unsupervised methods are the ones to rely on. Part II deals with the development of dedicated algorithms for all three essential tasks. Unsupervised POS tagging (Chapter 7) is a well-studied task and algorithms achieving accurate tagging exist. All of them do not disambiguate high frequency words, only out-of-lexicon words are disambiguated. Most high frequency words bear syntactic information and thus, it is very important to differentiate between their different functions. Especially domain languages contain ambiguous and high frequent words bearing semantic information (e. g. pump). In order to improve POS tagging, an algorithm for disambiguation is developed and used to enhance an existing state-of-the-art tagger. This approach is based on context clustering which is used to detect a word type’s different syntactic functions. Evaluation shows that tagging accuracy is raised significantly. An approach to unsupervised syntactic parsing (Chapter 8) is developed in order to suffice the requirements of Relation Extraction. These requirements include high precision results on nominal and prepositional phrases as they contain the entities being relevant for Relation Extraction. Furthermore, accurate shallow parsing is more desirable than deep binary parsing as it facilitates Relation Extraction more than deep parsing. Endocentric and exocentric constructions can be distinguished and improve proper phrase labeling. unsuParse is based on preferred positions of word types within phrases to detect phrase candidates. Iterating the detection of simple phrases successively induces deeper structures. The proposed algorithm fulfills all demanded criteria and achieves competitive results on standard evaluation setups. Syntactic Relation Extraction (Chapter 9) is an approach exploiting syntactic statistics and text characteristics to extract relations between previously annotated entities. The approach is based on entity distributions given in a corpus and thus, provides a possibility to extend text mining processes to new data in an unsupervised manner. Evaluation on two different languages and two different text types of the automotive domain shows that it achieves accurate results on repair order data. Results are less accurate on internet data, but the task of sentiment analysis and extraction of the opinion target can be mastered. Thus, the incorporation of internet data is possible and important as it provides useful insight into the customer\''s thoughts. To conclude, this thesis presents a complete unsupervised workflow for Relation Extraction – except for the highly domain-dependent Entity Detection task – improving performance of each of the involved subtasks compared to state-of-the-art approaches. Furthermore, this work applies Natural Language Processing methods and Relation Extraction approaches to real world data unveiling challenges that do not occur in high quality newspaper corpora

    Design und Implementierung eines Software-Ă–kosystems fĂĽr textbasierte Inhaltsanalysen in den Sozialwissenschaften mit Schwerpunkt auf der Detektion schwacher Signale

    Get PDF
    Der Einsatz von automatisierten quantitativen Methoden in den Sozialwissenschaften gewinnt stetig an Bedeutung. Dies hat zum einen mit der rasant wachsenden Menge und Verfügbarkeit digital vorliegender Daten zu tun. Zum anderen erlauben es innovative automatisierte Ansätze, Ergebnisse zu produzieren, welche durch qualitative Arbeit allein nicht möglich wären. Die Implementierung innovativer Algorithmen zur Anwendung quantitativer Verfahren bedarf jedoch eines großen Maßes an Wissen im Bereich der Programmierung sowie der Funktionsweise der anzuwendenden Methoden. Da dieses Expertenwissen aber nur in den wenigsten Fällen in rein sozialwissenschaftlichen Projekten vorhanden ist, ist es notwendig, andere Lösungsmöglichkeiten zur Anwendung automatisierter quantitativer Verfahren in den Sozialwissenschaften zu nutzen. Lediglich die Bereiche der Computational Social Science sowie die Digital Humanities stellen Forschungsbereiche der Sozialwissenschaften dar, welche als Vorreiter bereits Erfahrungen im Umgang mit automatisierten quantitativen Verfahren aufweisen. Eine mögliche Lösung für den breiten Einsatz von automatisierten Verfahren in den gesamten Sozialwissenschaften ist die Erstellung und Anwendung von Text-Mining-Infrastrukturen, die speziell für den Einsatz in den Sozialwissenschaften ausgerichtet sind. Diese erlauben es Sozialwissenschaftlern, mit einer vergleichsweise geringen Einstiegshürde aktuelle Verfahren und Forschungsansätze der Bereiche Text Mining und Machine Learning auf ihre eigenen Forschungsfragen und Daten anwenden zu können. Damit diese Infrastrukturen aber auch tatsächlich einen deutlichen Mehrwert für den Sozialwissenschaftler darstellen, müssen verschiedene Anforderungen erfüllt werden. Diese teilen sich auf in generelle an Software gestellte Forderungen wie beispielsweise Skalierbarkeit und Performanz sowie in spezifische Anforderungen für die Anwendung in den Sozialwissenschaften. Zu diesen speziellen Anforderungen zählt die Möglichkeit des Umgangs mit verschiedenartigen Datengrundlagen. In dieser Arbeit wird der Fokus auf textuelle Daten gelegt, wobei auch diese sehr große Unterschiede in ihrer Charakteristik und damit in deren notwendiger Verarbeitung aufweisen. Es werden darüber hinaus drei Schlüsselanforderungen identifiziert, die für den Einsatz inden Sozialwissenschaften essentiell sind. Die erste Schlüsselanforderung beschreibt die generelle Ausrichtung einer Text-MiningInfrastruktur als generische Plattform, welche durch die Merkmale von Anpassbarkeit, Erweiterbarkeit sowie der Möglichkeit des Exportes von Ergebnissen an die zahlreichen zum Teil sehr diversen Forschungsfragen der Sozialwissenschaften assimiliert werden kann. Die zweite Schlüsselanforderung stellt die Notwendigkeit, qualitative und quantitative Forschungsdesigns durch die Implementierung von dafür vorgesehenen Interfaces vereinen zu können, in den Vordergrund. Beide Forschungsansätze können auf diese Weise voneinander profitieren. Zuletzt wird noch die Bedeutung von schwachen Signalen als Forschungsgrundlage in den Sozialwissenschaften hervorgehoben. Für alle drei dieser Schlüsselanforderungen als auch die übrigen abgeleiteten Anforderungen an eine Text-Mining-Infrastruktur für den Einsatz in den Sozialwissenschaften werden mögliche Implementierungen und Lösungsansätze präsentiert. Dies geschieht zum einen durch die Beschreibung des Designs und der Entwicklung genau einer solchen Text-Mining-Infrastruktur am Beispiel des interactive Leipzig Corpus Miner. Es werden notwendige Abwägungen bezüglich verschiedener Implementierungsstrategien und Softwaredesignentscheidungen, welche zur Umsetzung der gestellten Anforderungen notwendig sind, erläutert. Zum anderen wird ein Maß zur Quantifizierung von diachronen Kontextänderungen in der Form der Kontextvolatilität vorgestellt. Das Maß wird im Laufe der Arbeit zur Detektion und Analyse schwacher Signale in textuellen Daten eingesetzt. Im letzten Teil der Arbeit werden die realisierten Umsetzungen der Schlüsselanforderungen am Beispiel verschiedener durchgeführter Projekte aufgezeigt. Die wichtigsten Beiträge dieser Arbeit sind damit zum Ersten eine Aufstellung spezifischer Anforderungen an Text-Mining-Infrastrukturen für den Einsatz in den Sozialwissenschaften. Zum Zweiten wird darauf aufbauend ein mögliches Design einer daraus resultierenden Forschungsumgebung detailliert erläutert. Den dritten Beitrag dieser Arbeit stellt die Weiterentwicklung der Kontextvolatilität als Verfahren zur Detektion schwacher Signale in diachronen Daten dar
    corecore