9 research outputs found

    University Students’ Ability In Discourse Type Recognition

    Get PDF
    The aim of the study is to identify the discourse type recognition of university students. Descriptive qualitative study was employed to explore the students’ ability in recognizing discourse types. To achieve the objective of the study, a test of discourse type recognition was administered to 25 students of non-English department at a private Islamic university in Yogyakarta. The findings showed that most students found it difficult in recognizing discourse types, the physical form, and the situation in which the discourse types might be found. Other than that, the existence of cultural specificity in discourse types might hinder the students from predicting the proper names for the discourse types. This suggested that the students need to be given more exposures on discourse types and cross cultural understanding to help them identify the discourse types better

    Improving Implicit Discourse Relation Recognition Through Feature Set Optimization

    No full text
    We provide a systematic study of previously proposed features for implicit discourse relation identification, identifying new feature combinations that optimize F1-score. The resulting classifiers achieve the best F1-scores to date for the four top-level discourse relation classes of the Penn Discourse Tree Bank

    Neural Network Approaches to Implicit Discourse Relation Recognition

    Get PDF
    In order to understand a coherent text, humans infer semantic or logical relations between textual units. For example, in ``I am hungry. I did not have lunch today.'' the reader infers a ``causality'' relation even if it is not explicitly stated via a term such as ``because''. The linguistic device used to link textual units without the use of such explicit terms is called an ``implicit discourse relation''. Recognising implicit relations automatically is a much more challenging task than in the explicit case. Previous methods to address this problem relied heavily on conventional machine learning techniques such as CRFs and SVMs which require many hand-engineered features. In this thesis, we investigate the use of various convolutional neural networks and sequence-to-sequence models to address the automatic recognition of implicit discourse relations. We demonstrate how our sequence-to-sequence model can achieve state-of-the-art performance with the use of an attention mechanism. In addition, we investigate the automatic representation learning of discourse relations in high capacity neural networks and show that for certain discourse relations such a network does learn discourse relations in only a few neurons

    Discourse analysis of arabic documents and application to automatic summarization

    Get PDF
    Dans un discours, les textes et les conversations ne sont pas seulement une juxtaposition de mots et de phrases. Ils sont plutôt organisés en une structure dans laquelle des unités de discours sont liées les unes aux autres de manière à assurer à la fois la cohérence et la cohésion du discours. La structure du discours a montré son utilité dans de nombreuses applications TALN, y compris la traduction automatique, la génération de texte et le résumé automatique. L'utilité du discours dans les applications TALN dépend principalement de la disponibilité d'un analyseur de discours performant. Pour aider à construire ces analyseurs et à améliorer leurs performances, plusieurs ressources ont été annotées manuellement par des informations de discours dans des différents cadres théoriques. La plupart des ressources disponibles sont en anglais. Récemment, plusieurs efforts ont été entrepris pour développer des ressources discursives pour d'autres langues telles que le chinois, l'allemand, le turc, l'espagnol et le hindi. Néanmoins, l'analyse de discours en arabe standard moderne (MSA) a reçu moins d'attention malgré le fait que MSA est une langue de plus de 422 millions de locuteurs dans 22 pays. Le sujet de thèse s'intègre dans le cadre du traitement automatique de la langue arabe, plus particulièrement, l'analyse de discours de textes arabes. Cette thèse a pour but d'étudier l'apport de l'analyse sémantique et discursive pour la génération de résumé automatique de documents en langue arabe. Pour atteindre cet objectif, nous proposons d'étudier la théorie de la représentation discursive segmentée (SDRT) qui propose un cadre logique pour la représentation sémantique de phrases ainsi qu'une représentation graphique de la structure du texte où les relations de discours sont de nature sémantique plutôt qu'intentionnelle. Cette théorie a été étudiée pour l'anglais, le français et l'allemand mais jamais pour la langue arabe. Notre objectif est alors d'adapter la SDRT à la spécificité de la langue arabe afin d'analyser sémantiquement un texte pour générer un résumé automatique. Nos principales contributions sont les suivantes : Une étude de la faisabilité de la construction d'une structure de discours récursive et complète de textes arabes. En particulier, nous proposons : Un schéma d'annotation qui couvre la totalité d'un texte arabe, dans lequel chaque constituant est lié à d'autres constituants. Un document est alors représenté par un graphe acyclique orienté qui capture les relations explicites et les relations implicites ainsi que des phénomènes de discours complexes, tels que l'attachement, la longue distance du discours pop-ups et les dépendances croisées. Une nouvelle hiérarchie des relations de discours. Nous étudions les relations rhétoriques d'un point de vue sémantique en se concentrant sur leurs effets sémantiques et non pas sur la façon dont elles sont déclenchées par des connecteurs de discours, qui sont souvent ambigües en arabe. o une analyse quantitative (en termes de connecteurs de discours, de fréquences de relations, de proportion de relations implicites, etc.) et une analyse qualitative (accord inter-annotateurs et analyse des erreurs) de la campagne d'annotation. Un outil d'analyse de discours où nous étudions à la fois la segmentation automatique de textes arabes en unités de discours minimales et l'identification automatique des relations explicites et implicites du discours. L'utilisation de notre outil pour résumer des textes arabes. Nous comparons la représentation de discours en graphes et en arbres pour la production de résumés.Within a discourse, texts and conversations are not just a juxtaposition of words and sentences. They are rather organized in a structure in which discourse units are related to each other so as to ensure both discourse coherence and cohesion. Discourse structure has shown to be useful in many NLP applications including machine translation, natural language generation and language technology in general. The usefulness of discourse in NLP applications mainly depends on the availability of powerful discourse parsers. To build such parsers and improve their performances, several resources have been manually annotated with discourse information within different theoretical frameworks. Most available resources are in English. Recently, several efforts have been undertaken to develop manually annotated discourse information for other languages such as Chinese, German, Turkish, Spanish and Hindi. Surprisingly, discourse processing in Modern Standard Arabic (MSA) has received less attention despite the fact that MSA is a language with more than 422 million speakers in 22 countries. Computational processing of Arabic language has received a great attention in the literature for over twenty years. Several resources and tools have been built to deal with Arabic non concatenative morphology and Arabic syntax going from shallow to deep parsing. However, the field is still very vacant at the layer of discourse. As far as we know, the sole effort towards Arabic discourse processing was done in the Leeds Arabic Discourse Treebank that extends the Penn Discourse TreeBank model to MSA. In this thesis, we propose to go beyond the annotation of explicit relations that link adjacent units, by completely specifying the semantic scope of each discourse relation, making transparent an interpretation of the text that takes into account the semantic effects of discourse relations. In particular, we propose the first effort towards a semantically driven approach of Arabic texts following the Segmented Discourse Representation Theory (SDRT). Our main contributions are: A study of the feasibility of building a recursive and complete discourse structures of Arabic texts. In particular, we propose: An annotation scheme for the full discourse coverage of Arabic texts, in which each constituent is linked to other constituents. A document is then represented by an oriented acyclic graph, which captures explicit and implicit relations as well as complex discourse phenomena, such as long-distance attachments, long-distance discourse pop-ups and crossed dependencies. A novel discourse relation hierarchy. We study the rhetorical relations from a semantic point of view by focusing on their effect on meaning and not on how they are lexically triggered by discourse connectives that are often ambiguous, especially in Arabic. A thorough quantitative analysis (in terms of discourse connectives, relation frequencies, proportion of implicit relations, etc.) and qualitative analysis (inter-annotator agreements and error analysis) of the annotation campaign. An automatic discourse parser where we investigate both automatic segmentation of Arabic texts into elementary discourse units and automatic identification of explicit and implicit Arabic discourse relations. An application of our discourse parser to Arabic text summarization. We compare tree-based vs. graph-based discourse representations for producing indicative summaries and show that the full discourse coverage of a document is definitively a plus

    Unsupervised extraction of semantic relations using discourse information

    Get PDF
    La compréhension du langage naturel repose souvent sur des raisonnements de sens commun, pour lesquels la connaissance de relations sémantiques, en particulier entre prédicats verbaux, peut être nécessaire. Cette thèse porte sur la problématique de l'utilisation d'une méthode distributionnelle pour extraire automatiquement les informations sémantiques nécessaires à ces inférences de sens commun. Des associations typiques entre des paires de prédicats et un ensemble de relations sémantiques (causales, temporelles, de similarité, d'opposition, partie/tout) sont extraites de grands corpus, par l'exploitation de la présence de connecteurs du discours signalant typiquement ces relations. Afin d'apprécier ces associations, nous proposons plusieurs mesures de signifiance inspirées de la littérature ainsi qu'une mesure novatrice conçue spécifiquement pour évaluer la force du lien entre les deux prédicats et la relation. La pertinence de ces mesures est évaluée par le calcul de leur corrélation avec des jugements humains, obtenus par l'annotation d'un échantillon de paires de verbes en contexte discursif. L'application de cette méthodologie sur des corpus de langue française et anglaise permet la construction d'une ressource disponible librement, Lecsie (Linked Events Collection for Semantic Information Extraction). Celle-ci est constituée de triplets: des paires de prédicats associés à une relation; à chaque triplet correspondent des scores de signifiance obtenus par nos mesures.Cette ressource permet de dériver des représentations vectorielles de paires de prédicats qui peuvent être utilisées comme traits lexico-sémantiques pour la construction de modèles pour des applications externes. Nous évaluons le potentiel de ces représentations pour plusieurs applications. Concernant l'analyse du discours, les tâches de la prédiction d'attachement entre unités du discours, ainsi que la prédiction des relations discursives spécifiques les reliant, sont explorées. En utilisant uniquement les traits provenant de notre ressource, nous obtenons des améliorations significatives pour les deux tâches, par rapport à plusieurs bases de référence, notamment des modèles utilisant d'autres types de représentations lexico-sémantiques. Nous proposons également de définir des ensembles optimaux de connecteurs mieux adaptés à des applications sur de grands corpus, en opérant une réduction de dimension dans l'espace des connecteurs, au lieu d'utiliser des groupes de connecteurs composés manuellement et correspondant à des relations prédéfinies. Une autre application prometteuse explorée dans cette thèse concerne les relations entre cadres sémantiques (semantic frames, e.g. FrameNet): la ressource peut être utilisée pour enrichir cette structure par des relations potentielles entre frames verbaux à partir des associations entre leurs verbes. Ces applications diverses démontrent les contributions prometteuses amenées par notre approche permettant l'extraction non supervisée de relations sémantiques.Natural language understanding often relies on common-sense reasoning, for which knowledge about semantic relations, especially between verbal predicates, may be required. This thesis addresses the challenge of using a distibutional method to automatically extract the necessary semantic information for common-sense inference. Typical associations between pairs of predicates and a targeted set of semantic relations (causal, temporal, similarity, opposition, part/whole) are extracted from large corpora, by exploiting the presence of discourse connectives which typically signal these semantic relations. In order to appraise these associations, we provide several significance measures inspired from the literature as well as a novel measure specifically designed to evaluate the strength of the link between the two predicates and the relation. The relevance of these measures is evaluated by computing their correlations with human judgments, based on a sample of verb pairs annotated in context. The application of this methodology to French and English corpora leads to the construction of a freely available resource, Lecsie (Linked Events Collection for Semantic Information Extraction), which consists of triples: pairs of event predicates associated with a relation; each triple is assigned significance scores based on our measures. From this resource, vector-based representations of pairs of predicates can be induced and used as lexical semantic features to build models for external applications. We assess the potential of these representations for several applications. Regarding discourse analysis, the tasks of predicting attachment of discourse units, as well as predicting the specific discourse relation linking them, are investigated. Using only features from our resource, we obtain significant improvements for both tasks in comparison to several baselines, including ones using other representations of the pairs of predicates. We also propose to define optimal sets of connectives better suited for large corpus applications by performing a dimension reduction in the space of the connectives, instead of using manually composed groups of connectives corresponding to predefined relations. Another promising application pursued in this thesis concerns relations between semantic frames (e.g. FrameNet): the resource can be used to enrich this sparse structure by providing candidate relations between verbal frames, based on associations between their verbs. These diverse applications aim to demonstrate the promising contributions provided by our approach, namely allowing the unsupervised extraction of typed semantic relations

    Coherence relations in discourse and cognition : comparing approaches, annotations and interpretations

    Get PDF
    When readers comprehend a discourse, they do not merely interpret each clause or sentence separately; rather, they assign meaning to the text by creating semantic links between the clauses and sentences. These links are known as coherence relations (cf. Hobbs, 1979; Sanders, Spooren & Noordman, 1992). If readers are not able to construct such relations between the clauses and sentences of a text, they will fail to fully understand that text. Discourse coherence is therefore crucial to natural language comprehension in general. Most frameworks that propose inventories of coherence relation types agree on the existence of certain coarse-grained relation types, such as causal relations (relations types belonging to the causal class include Cause or Result relations), and additive relations (e.g., Conjunctions or Specifications). However, researchers often disagree on which finer-grained relation types hold and, as a result, there is no uniform set of relations that the community has agreed on (Hovy & Maier, 1995). Using a combination of corpus-based studies and off-line and on-line experimental methods, the studies reported in this dissertation examine distinctions between types of relations. The studies are based on the argument that coherence relations are cognitive entities, and distinctions of coherence relation types should therefore be validated using observations that speak to both the descriptive adequacy and the cognitive plausibility of the distinctions. Various distinctions between relation types are investigated on several levels, corresponding to the central challenges of the thesis. First, the distinctions that are made in approaches to coherence relations are analysed by comparing the relational classes and assessing the theoretical correspondences between the proposals. An interlingua is developed that can be used to map relational labels from one approach to another, therefore improving the interoperability between the different approaches. Second, practical correspondences between different approaches are studied by evaluating datasets containing coherence relation annotations from multiple approaches. A comparison of the annotations from different approaches on the same data corroborate the interlingua, but also reveal systematic patterns of discrepancies between the frameworks that are caused by different operationalizations. Finally, in the experimental part of the dissertation, readers’ interpretations are investigated to determine whether readers are able to distinguish between specific types of relations that cause the discrepancies between approaches. Results from off-line and online studies provide insight into readers’ interpretations of multi-interpretable relations, individual differences in interpretations, anticipation of discourse structure, and distributional differences between languages on readers’ processing of discourse. In sum, the studies reported in this dissertation contribute to a more detailed understanding of which types of relations comprehenders construct and how these relations are inferred and processed.Wenn Leser einen Diskurs verstehen, interpretieren sie nicht nur jeden Satz einzeln, sondern sie geben dem Text eine Bedeutung, indem sie semantische Verbindungen zwischen den Sätzen bzw. Teilsätzen herstellen. Diese Verbindungen sind bekannt als Kohärenzrelationen (vgl. Hobbs, 1979; Sanders, Spooren & Noordman, 1992). Wenn es einem Leser nicht gelingt, solche Relationen zwischen den Teilsätzen eines Textes herzustellen, wird er den Text nicht vollständig verstehen. Das Erkennen und Verstehen von Diskurskohärenz ist daher entscheidend für das natürliche Sprachverständnis. Kohärenzrelationen bestehen zwischen mindestens zwei Textabschnitten, die als Segmente oder Argumente bezeichnet werden. Es wird allgemein angenommen, dass die Relationen zwischen den Argumente in eine feste, begrenzte Anzahl von Typen unterteilt werden können. Vorschläge, die bestimmte Typen von Kohärenzrelationen unterscheiden, werden als "Frameworks" bezeichnet. Die meisten Frameworks stimmen darin überein, dass es eine bestimmte Anzahl von groben Relationstypen gibt. Dazu gehören z.B. kausale Relationen (Beispiele von Relationstypen, die zur kausalen Klasse gehören, sind Cause oder Result Relationen), negative Relationen (z.B. Contrast oder Concession Relationen), additive Relationen (z.B. Conjunctions oder Lists), und zeitliche Relationen (z.B. Chronological oder Synchronous Relationen). Allerdings sind sich die Forscher oft nicht einig über die genaue Anzahl von feineren Relationstypen. Aufgrund dessen gibt es bis dato keine einheitliche Menge von Relationen, auf die sich die Gemeinschaft geeinigt hat (Hovy & Maier, 1995). Einige Vorschläge präsentieren mehr als 70 Typen von Relationen, wie von Carlson, Marcu & Okurowski (2003) entwickelt, andere präsentieren nur zwei Typen von Relationen (Grosz & Sidner, 1986). Die in dieser Dissertation präsentierten Studien beschäftigen sich alle mit Unterschieden zwischen Relationstypen. Diese Unterschiede werden auf mehreren Ebenen untersucht. Die Unterscheidungen, die die einzelnen Frameworks zu Kohärenzrelationen machen werden analysiert, indem die Relationsklassen verglichen und die Übereinstimmungen zwischen den Frameworks bewertet werden. Ähnlichkeitenn zwischen verschiedenen Ansätzen werden untersucht, indem Datensätze ausgewertet werden, die Annotationen von Kohärenzrelationen von mehreren Ansätzen enthalten. Im experimentellen Teil der Arbeit werden Leserinterpretationen untersucht, um festzustellen, ob die Leser in der Lage sind, zwischen bestimmten Typen von Relationen zu unterscheiden, die Diskrepanzen zwischen den Ansätzen verursachen. Insgesamt liefern die hier präsentierten Studien ein detaillierteres Verständnis dafür, welche Typen von Relationen Leser bei der Sprachverarbeitung konstruieren und wie diese Relationen inferiert und verarbeitet werden. Kapitel 3 gibt einen Überblick über verschiedene Frameworks, die Inventare von Relationsklassen vorgeschlagen haben. Insbesondere konzentriert sich diese Dissertation auf drei konkrete Frameworks: Penn Discourse Treebank (PDTB; Prasad et al., 2008), Rhetorical Structure Theory Discourse Treebank (RST-DT; Carlson & Marcu, 2001), und Cognitive approach to Coherence Relations (CCR; Sanders et al., 1992). Die PDTB- und RST-DT-Frameworks wurden verwendet, um den größten verfügbaren englischen Korpus zu annotieren, und Varianten dieser Frameworks wurden verwendet, um Korpora in anderen Sprachen zu annotieren. Oft bestehen große Unterschiede zwischen den relationalen Inventaren. Dies erschwert es den Forschern oftmals, Daten zu verwenden, die nach dem anderen Framework annotiert wurden. Aufbauend auf CCR wird eine neue Lösung – genannt Unifying Dimensions oder UniDim – vorgeschlagen, um die verschiedenen Ansätze miteinander in Beziehung zu setzen. Unifying Dimensions schlägt eine Interlingua vor, die die Relationslabels von einem Framework auf das andere abbilden kann und so die Übereinstimmung zwischen verschiedenen Ansätzen verbessert. Mit Hilfe der Unifying Dimensions sind Forscher in der Lage Daten zu verwenden die nach einem anderen Ansatz annotiert wurden. Das Mapping von UniDim basiert auf den Definitionen und Beispielen, die in den Annotationsrichtlinien enthalten sind. Im Idealfall entsprechen die theoretischen Erläuterungen in den Richtlinien den tatsächlichen Annotationen in den Korpora, und die theoretische Abbildung würde daher auch der Abbildung in der Praxis entsprechen. Um dies zu untersuchen und die theoretische Kartierung zu validieren, haben wir Annotationen verschiedener Frameworks anhand der gleichen Daten verglichen, um sicherzustellen, dass die bereitgestellten Annotationen einander entsprechen. Dieses Prozedere wurde für zwei Kombinationen von Frameworks durchgeführt: (i) wir haben einen Korpus von gesprochenen Daten sowohl mit PDTB als auch mit CCR annotiert (wie in Rehbein, Scholman & Demberg, 2016, beschrieben), was einen Vergleich der beiden Annotationsschichten ermöglichte; und (ii) wir haben die Annotationen von 385 Zeitungsartikeln des Wall Street Journal verglichen, die sowohl im PDTB als auch im RST-DT enthalten sind (wie in Demberg, Asr & Scholman, submitted, beschrieben). Kapitel 4 präsentiert beide Studien und ihre Ergebnisse. Die wichtigsten Ergebnisse dieser Studien können wie folgt zusammengefasst werden: (i) die Unifying Dimensions konnten erfolgreich Übereinstimmungen zwischen den Frameworks vorhersagen, und (ii) es gab inhärente Muster von Meinungsverschiedenheiten in den Annotationen, die durch die Operationalisierungen der Frameworks verursacht wurden. Diese Cluster werden experimentell in den Studien untersucht, die in späteren Kapiteln vorgestellt werden. Kapitel 5 bietet eine Reflexion darüber, wie relationale Unterschiede in Ansätze begründet werden können. Konkret werden zwei allgemeine Rechtfertigungsmaße diskutiert, die für linguistische Theorien verwendet wurden: beschreibende Angemessenheit (i.e., descriptive adequacy) und kognitive Plausibilität (i.e., cognitive plausibility). Viele Kohärenzrelationsansätze konzentrieren sich hauptsächlich auf die deskriptive Angemessenheit ihrer Inventare, d.h. das Inventar wird entwickelt, um alle Relationen in Texten zu beschreiben. Wir argumentieren, dass, um eine allgemeinere Menge von Relationsstypen zu entwickeln, Unterscheidungen zwischen Kohärenzrelationen, dadurch gerechtfertigt werden können, dass nicht nur die Intuitionen von Experten (in Bezug auf die deskriptive Angemessenheit), sondern auch Erkenntnisse aus Akquisitions-, Produktions- und Verständnisstudien berücksichtigt werden. Mit anderen Worten, deskriptiv adäquate Ansätze können als Ausgangspunkt für die Entwicklung einer allgemeinen Theorie dienen: Sie können eine Bestandsaufnahme aller möglichen relationalen Konstrukte liefern, die dann anhand kognitiver Beweise validiert (verifiziert oder verfälscht) werden können. Theorien, die sich mit beiden Maßnahmen befassen, können unser Verständnis der mentalen Prozesse von Diskursdarstellungen, in der Sprachproduktion und im Sprachverständnis verbessern. Es gibt bisher keine Quelle dazu welche Kriterien herangezogen werden können um zu beurteilen ob eine bestimmte relationale Unterscheidung oder ein Kohärenzrahmen kognitiv plausibel ist. Die Literatur sagt im Allgemeinen, dass Theorien auf empirischen Ergebnissen der Kognitionsforschung basieren müssen. Die spezifischen Arten von empirischen Ergebnissen oder kognitiver Forschung werden jedoch nicht näher ausgeführt. Kapitel 5 macht daher das Kriterium der kognitiven Plausibilität greifbarer, indem es detailliert beschreibt, welche Beweisquellen die Unterschiede zwischen kohärenten relationalen Labels und Klassen verifizieren oder falsifizieren können. Der kognitive Status von Kohärenzrelationen kann mit diesem Ansatz systematisch und schlüssig untersucht werden. Das Kriterium der kognitiven Plausibilität bildet die Motivation für alle weiteren Studien im weiteren Verlauf dieser Arbeit: Spezifische Unterschiede, über die sich die Frameworks nicht einig sind, werden bewertet, indem untersucht wird, ob naïve Leser diese Unterschiede vornehmen können und ob sie ihre Interpretationsprozesse beeinflussen. Der zweite Teil dieser Dissertation beschreibt eine Reihe von experimentellen Studien, die auf Erkenntnissen aus vorherigen Kapiteln aufbauen. Die übergeordnete Frage für diese Kapitel lautet: Können Sprachbenutzer zwischen bestimmten Arten von Relationen unterscheiden, die Diskrepanzen zwischen den Ansätzen verursachen? Kapitel 6 präsentiert eine Untersuchung des Designs und der Zuverlässigkeit einer Methode, die für die Verwendung in den Kapiteln 7 und 8 entwickelt wurde. Traditionelle Aufgaben der Diskursannotation gelten als kostspielig und zeitaufwendig, und die Zuverlässigkeit und Gültigkeit dieser Aufgaben werden in Frage gestellt. Hier wird daher eine neue Crowdsourcing-Methode entwickelt und evaluiert, bei der die Teilnehmer aufgefordert werden, aus einer vordefinierten Liste ein Bindewort auszuwählen, das die Verbindung zwischen den Segmenten einer Relation ausdrücken kann. Diese Methode ermöglicht es, die Diskursinterpretationen der Leser zu elizitieren, aus denen dann wiederum Diskursannotationen abgeleitet werden können. Wir haben auch den Einfluss des Kontextes auf die Zuverlässigkeit der Aufgabe untersucht, um mehr Einblick in die optimale Gestaltung einer solchen Aufgabe zu erhalten. Die Ergebnisse der “Crowdsourced Connective Insertion Task” zeigten, dass die Mehrheit der eingesetzten Bindewörter mit dem Original-Label konvergierte. Weiterhin zeigte die Verteilung der eingefügten Konnektive, dass oft mehrere Bedeutungen für eine einzelne Relation inferiert werden können. In Bezug auf die Anwesenheit von Kontext, zeigten die Ergebnisse keinen signifikanten Unterschied in der Verteilung der eingefügten Konnektive zwischen den Bedingungen insgesamt. Zusammenfassend deuten die Ergebnisse darauf hin, dass die neu entwickelte Crowdsourcing-Methode das Potenzial hat, als zuverlässige Alternative zu herkömmlichen Annotationsmethoden zu fungieren. Darüber hinaus liefern die Verteilungen der eingefügten Konnektive den Beweis, dass Relationen mehrere Interpretationen haben können, was wichtige Auswirkungen auf zukünftige Diskursannotationstudien haben könnte. Kapitel 4 ergab, dass PDTB- und RST-DT-Annotatoren oft über die Annotation der beiden kohärenzrelationalen Typen Beispielen und Spezifikationen anderer Meinung sind; insbesondere gibt es Unterschiede bezüglich der Interpretation dieser beiden Typen als ideelle (additive) oder argumentative (pragmatische kausale) Kohärenzrelationen. Das Kapitel 7 untersuchte daher, wie naïve-Leser diese Relationen interpretieren, indem sie die in Kapitel 6 vorgestellte Crowdsourced-Methode verwendeten. Die Ergebnisse zeigten, dass diese Relationen tatsächlich zwei Funktionen haben können: Sie können sowohl zur Veranschaulichung / Spezifizierung einer Situation als auch als Argument für eine Behauptung verwendet werden. Diese Ergebnisse deuten darauf hin, dass Beispiele und Spezifikationen mehrere, gleichzeitige Interpretationen haben können. Das Kapitel 8 untersucht weiter, wie die Leser Relationen mit mehreren möglichen Interpretationen interpretieren. Konkret haben wir untersucht, ob die Leser Präferenzen für eine bestimmte Interpretation haben und ob es individuelle Unterschiede in diesen Präferenzen gibt. Die Crowdsourced-Methode wurde in einem Messwiederholungsdesign verwendet. Die Ergebnisse zeigten, dass die Teilnehmer konsistente Präferenzen bei der Interpretation von Kohärenzrelationenn hatten und dass sie sich in diesen Präferenzen voneinander unterschieden. Darüber hinaus schienen sich die Teilnehmer in ihrer "standardmäßigen" Verarbeitungstiefe zu unterscheiden, was einige der Unterschiede in der Interpretation erklärt. Doch selbst wenn die Leser eine Aufgabe erfüllten, die von ihnen eine tiefe Verarbeitung verlangte, blieben einige Unterschiede in der Interpretation bestehen. Die Ergebnisse einer verbalen Arbeitsgedächtnisaufgabe zeigten, dass die in der vorherigen Studie gefundenen individuellen Unterschiede nicht durch Unterschiede im Arbeitsgedächtnis erklärt werden konnten. Die Ergebnisse der aktuellen Studie zeigten daher, dass die Leser individuelle Variabilität in ihren Interpretationspräferenzen von ambigen Relationen aufweisen, in Abhängigkeit davon wie tief sie Text verarbeiten. Theorien und Experimente zur Diskursinterpretation sollten deswegen die Unterschiede in den Interpretationspräferenzen und der Verarbeitungstiefe berücksichtigen. In den letzten beiden Kapiteln konzentrieren wir uns auf die Interaktion zwischen Konnektiven und dem Inhalt von Segmenten. Konnektive sind wichtige Signale für Kohärenzrelationen: Die Forschung hat gezeigt, dass sie als Verarbeitungsanweisungen funktionieren, indem sie signalisieren, wie die Segmente miteinander verbunden werden sollen. Es wird davon ausgegangen, dass die Leser sowohl das Konnektiv als auch den Inhalt der Segmente verarbeiten, um eine Relation herzuleiten. Das PDTB– RST-DT-Mapping in Kapitel 4 zeigt jedoch, dass sich Leser mehr auf Konnektiven als auf den Inhalt der Argumente verlassen, um eine Relation abzuleiten: In Abwesenheit eines expliziten Konnektives zeigten die Annotatoren wenig Übereinstimmung über die Art der Relation, die sie inferierten. Der letzte Teil der Arbeit untersucht, ob die Leser sowohl die Konnektive als auch den Inhalt der Segmente nutzen, um Kohärenzrelationen abzuleiten. Die Cue-Phrase “On the one hand” (Einerseits; OT1H) schafft die Erwartung einer kontrastiven Relation. Kapitel 9 testet ob diese Erwartung durch ein kontrastierendes Bindeglied nach OT1H erfüllt werden kann, oder ob die Leser in der Lage sind, den Inhalt der Segmente zu berücksichtigen und eine kontrastive Relation mit dem entsprechenden Segment herzustellen – auch wenn dies nicht das erste kontrastive Segment nach OT1H ist. Wir verwendeten kurze Passagen mit “On the one hand” und “On the other hand” (Andererseits; OTOH) sowie einen dazwischen liegenden kontrastierenden Satz mit but (aber). Es gab zwei Versionen dieses intervenierenden kontrastierenden Satzes: Ein lokal kontrastierender Satz stellte keinen angemessenen Kontrast zum OT1H-Satz her; ein global kontrastierender intervenierender Satz tat es. Wenn die Leser den Inhalt der Segmente berücksichtigen, sollten sie auf den Unterschied zwischen lokal und global kontrastierendem Satz achten. Drei Experimente mit Offline- und Online-Messungen zeigten, dass die Befragten mehr als nur eine passende Form erwarteten (d.h. On the other hand): Leser behielten ihre Erwartung an einen bevorstehenden Kontrast über das dazwischenliegende Material bei, auch wenn der eingebettete Bestandteil selbst Kontrast enthielt. Darüber hinaus führte ein nachfolgender Kontrast, der mit On the other hand markiert war, bei den Lesern zu Verarbeitungsschwierigkeiten, vor allem wenn zuvor ein anderer Textabschnitt Informationen enthielt, die einen angemessenen Kontrast zu On the one hand herstellten. Die Eye-Tracking-Studie in Kapitel 9 untersuchte auch, ob das Vorhandensein von OT1H die Verarbeitung von OTOH erleichtert. Die Ergebnisse zeigten aber keinen solchen Effekt. In diesem Kapitel wurden zwei zentrale Hypothesen getestet. Eine erste Hypothese war, dass ein möglicher facilitativer Effekt von OT1H reduziert wurde, weil die Erwartungen an OTOH insgesamt während der gesamten Studie gestiegen sind, was auf eine große Anzahl von OTOH-Items zurückzuführen ist. Deshalb wurde eine englische Eye-Tracking-Studie mit weniger OTOH-Items durchgeführt. Die Ergebnisse zeigten eine unterstützende Wirkung von OT1H auf die Interpretation von OTOH, was darauf hindeutet, dass die Häufigkeit von OTOH in der früheren Studie tatsächlich einen möglichen Effekt verbarg. Eine zweite Hypothese war, dass OT1H im Englischen keine starke unterstützende Wirkung hat, da OTOH in natürlicher Sprache oft verarbeitet wird ohne dass vorher OT1H erschienen ist. Da OT1H mit OTOH im Niederländischen häufiger auftritt als im Englischen, wurde untersucht, ob die unterstützende Wirkung von OT1H im Niederländischen größer ist. Wieder führten wir eine Eye-Tracking-Studie durch, die tatsächlich eine stärkere unterstützende Wirkung von OT1H im Niederländischen im Vergleich zum Englischen ergab. Dies deutet darauf hin, dass die Verarbeitung von durch sprachspezifische Faktoren wie Verteilungsmerkmale beeinflusst wird, sodass sich daher sprachübergreifend unterschiedliche Präferenzmuster zeigen können. Insgesamt werden in dieser Dissertation verschiedene Studien vorgestellt die die Unterscheidung zwischen den Typen von Kohärenzrelationen untersuchen, indem Ansätze, Annotationen und Interpretationen miteinander verglichen werden. Diese Studien liefern Einblicke in die Ähnlichkeiten und Unterschiede zwischen den Inventaren, die für Unterscheidungen zwischen den Kohärenzrelationen vorgeschlagen wurden„ sowie in die Operationalisierungen dieser Ansätze. Insgesamt wird gezeigt wie sich diese Faktoren auf die resultierenden Annotationen auswirken können. Durch die Untersuchung, wie verschiedene Arten von Relationen von naïve-Lesern interpretiert und verarbeitet werden, lieferte diese Dissertation neue Einblicke in die Prozesse des Diskursverständnisses
    corecore