Search CORE

3 research outputs found

Dysfluencies as intra-utterance dialogue moves

Author: Fernández Raquel
Ginzburg Jonathan
Schlangen David
Publication venue: 'Linguistic Society of America'
Publication date: 01/01/2014
Field of study

Ginzburg J, Fernández R, Schlangen D. Dysfluencies as intra-utterance dialogue moves. Semantics and Pragmatics. 2014;7

Directory of Open Access Journals

HAL Descartes

Hal-Diderot

International Migration, Integration and Social Cohesion online publications

UvA-DARE

Crossref

Publications at Bielefeld University

HAL-Paris 13

Coherence relations in discourse and cognition : comparing approaches, annotations and interpretations

Author: Scholman Merel Cléo Johanna
Publication venue: 'Walter de Gruyter GmbH'
Publication date: 01/01/2019
Field of study

When readers comprehend a discourse, they do not merely interpret each clause or sentence separately; rather, they assign meaning to the text by creating semantic links between the clauses and sentences. These links are known as coherence relations (cf. Hobbs, 1979; Sanders, Spooren & Noordman, 1992). If readers are not able to construct such relations between the clauses and sentences of a text, they will fail to fully understand that text. Discourse coherence is therefore crucial to natural language comprehension in general. Most frameworks that propose inventories of coherence relation types agree on the existence of certain coarse-grained relation types, such as causal relations (relations types belonging to the causal class include Cause or Result relations), and additive relations (e.g., Conjunctions or Specifications). However, researchers often disagree on which finer-grained relation types hold and, as a result, there is no uniform set of relations that the community has agreed on (Hovy & Maier, 1995). Using a combination of corpus-based studies and off-line and on-line experimental methods, the studies reported in this dissertation examine distinctions between types of relations. The studies are based on the argument that coherence relations are cognitive entities, and distinctions of coherence relation types should therefore be validated using observations that speak to both the descriptive adequacy and the cognitive plausibility of the distinctions. Various distinctions between relation types are investigated on several levels, corresponding to the central challenges of the thesis. First, the distinctions that are made in approaches to coherence relations are analysed by comparing the relational classes and assessing the theoretical correspondences between the proposals. An interlingua is developed that can be used to map relational labels from one approach to another, therefore improving the interoperability between the different approaches. Second, practical correspondences between different approaches are studied by evaluating datasets containing coherence relation annotations from multiple approaches. A comparison of the annotations from different approaches on the same data corroborate the interlingua, but also reveal systematic patterns of discrepancies between the frameworks that are caused by different operationalizations. Finally, in the experimental part of the dissertation, readers’ interpretations are investigated to determine whether readers are able to distinguish between specific types of relations that cause the discrepancies between approaches. Results from off-line and online studies provide insight into readers’ interpretations of multi-interpretable relations, individual differences in interpretations, anticipation of discourse structure, and distributional differences between languages on readers’ processing of discourse. In sum, the studies reported in this dissertation contribute to a more detailed understanding of which types of relations comprehenders construct and how these relations are inferred and processed.Wenn Leser einen Diskurs verstehen, interpretieren sie nicht nur jeden Satz einzeln, sondern sie geben dem Text eine Bedeutung, indem sie semantische Verbindungen zwischen den Sätzen bzw. Teilsätzen herstellen. Diese Verbindungen sind bekannt als Kohärenzrelationen (vgl. Hobbs, 1979; Sanders, Spooren & Noordman, 1992). Wenn es einem Leser nicht gelingt, solche Relationen zwischen den Teilsätzen eines Textes herzustellen, wird er den Text nicht vollständig verstehen. Das Erkennen und Verstehen von Diskurskohärenz ist daher entscheidend für das natürliche Sprachverständnis. Kohärenzrelationen bestehen zwischen mindestens zwei Textabschnitten, die als Segmente oder Argumente bezeichnet werden. Es wird allgemein angenommen, dass die Relationen zwischen den Argumente in eine feste, begrenzte Anzahl von Typen unterteilt werden können. Vorschläge, die bestimmte Typen von Kohärenzrelationen unterscheiden, werden als "Frameworks" bezeichnet. Die meisten Frameworks stimmen darin überein, dass es eine bestimmte Anzahl von groben Relationstypen gibt. Dazu gehören z.B. kausale Relationen (Beispiele von Relationstypen, die zur kausalen Klasse gehören, sind Cause oder Result Relationen), negative Relationen (z.B. Contrast oder Concession Relationen), additive Relationen (z.B. Conjunctions oder Lists), und zeitliche Relationen (z.B. Chronological oder Synchronous Relationen). Allerdings sind sich die Forscher oft nicht einig über die genaue Anzahl von feineren Relationstypen. Aufgrund dessen gibt es bis dato keine einheitliche Menge von Relationen, auf die sich die Gemeinschaft geeinigt hat (Hovy & Maier, 1995). Einige Vorschläge präsentieren mehr als 70 Typen von Relationen, wie von Carlson, Marcu & Okurowski (2003) entwickelt, andere präsentieren nur zwei Typen von Relationen (Grosz & Sidner, 1986). Die in dieser Dissertation präsentierten Studien beschäftigen sich alle mit Unterschieden zwischen Relationstypen. Diese Unterschiede werden auf mehreren Ebenen untersucht. Die Unterscheidungen, die die einzelnen Frameworks zu Kohärenzrelationen machen werden analysiert, indem die Relationsklassen verglichen und die Übereinstimmungen zwischen den Frameworks bewertet werden. Ähnlichkeitenn zwischen verschiedenen Ansätzen werden untersucht, indem Datensätze ausgewertet werden, die Annotationen von Kohärenzrelationen von mehreren Ansätzen enthalten. Im experimentellen Teil der Arbeit werden Leserinterpretationen untersucht, um festzustellen, ob die Leser in der Lage sind, zwischen bestimmten Typen von Relationen zu unterscheiden, die Diskrepanzen zwischen den Ansätzen verursachen. Insgesamt liefern die hier präsentierten Studien ein detaillierteres Verständnis dafür, welche Typen von Relationen Leser bei der Sprachverarbeitung konstruieren und wie diese Relationen inferiert und verarbeitet werden. Kapitel 3 gibt einen Überblick über verschiedene Frameworks, die Inventare von Relationsklassen vorgeschlagen haben. Insbesondere konzentriert sich diese Dissertation auf drei konkrete Frameworks: Penn Discourse Treebank (PDTB; Prasad et al., 2008), Rhetorical Structure Theory Discourse Treebank (RST-DT; Carlson & Marcu, 2001), und Cognitive approach to Coherence Relations (CCR; Sanders et al., 1992). Die PDTB- und RST-DT-Frameworks wurden verwendet, um den größten verfügbaren englischen Korpus zu annotieren, und Varianten dieser Frameworks wurden verwendet, um Korpora in anderen Sprachen zu annotieren. Oft bestehen große Unterschiede zwischen den relationalen Inventaren. Dies erschwert es den Forschern oftmals, Daten zu verwenden, die nach dem anderen Framework annotiert wurden. Aufbauend auf CCR wird eine neue Lösung – genannt Unifying Dimensions oder UniDim – vorgeschlagen, um die verschiedenen Ansätze miteinander in Beziehung zu setzen. Unifying Dimensions schlägt eine Interlingua vor, die die Relationslabels von einem Framework auf das andere abbilden kann und so die Übereinstimmung zwischen verschiedenen Ansätzen verbessert. Mit Hilfe der Unifying Dimensions sind Forscher in der Lage Daten zu verwenden die nach einem anderen Ansatz annotiert wurden. Das Mapping von UniDim basiert auf den Definitionen und Beispielen, die in den Annotationsrichtlinien enthalten sind. Im Idealfall entsprechen die theoretischen Erläuterungen in den Richtlinien den tatsächlichen Annotationen in den Korpora, und die theoretische Abbildung würde daher auch der Abbildung in der Praxis entsprechen. Um dies zu untersuchen und die theoretische Kartierung zu validieren, haben wir Annotationen verschiedener Frameworks anhand der gleichen Daten verglichen, um sicherzustellen, dass die bereitgestellten Annotationen einander entsprechen. Dieses Prozedere wurde für zwei Kombinationen von Frameworks durchgeführt: (i) wir haben einen Korpus von gesprochenen Daten sowohl mit PDTB als auch mit CCR annotiert (wie in Rehbein, Scholman & Demberg, 2016, beschrieben), was einen Vergleich der beiden Annotationsschichten ermöglichte; und (ii) wir haben die Annotationen von 385 Zeitungsartikeln des Wall Street Journal verglichen, die sowohl im PDTB als auch im RST-DT enthalten sind (wie in Demberg, Asr & Scholman, submitted, beschrieben). Kapitel 4 präsentiert beide Studien und ihre Ergebnisse. Die wichtigsten Ergebnisse dieser Studien können wie folgt zusammengefasst werden: (i) die Unifying Dimensions konnten erfolgreich Übereinstimmungen zwischen den Frameworks vorhersagen, und (ii) es gab inhärente Muster von Meinungsverschiedenheiten in den Annotationen, die durch die Operationalisierungen der Frameworks verursacht wurden. Diese Cluster werden experimentell in den Studien untersucht, die in späteren Kapiteln vorgestellt werden. Kapitel 5 bietet eine Reflexion darüber, wie relationale Unterschiede in Ansätze begründet werden können. Konkret werden zwei allgemeine Rechtfertigungsmaße diskutiert, die für linguistische Theorien verwendet wurden: beschreibende Angemessenheit (i.e., descriptive adequacy) und kognitive Plausibilität (i.e., cognitive plausibility). Viele Kohärenzrelationsansätze konzentrieren sich hauptsächlich auf die deskriptive Angemessenheit ihrer Inventare, d.h. das Inventar wird entwickelt, um alle Relationen in Texten zu beschreiben. Wir argumentieren, dass, um eine allgemeinere Menge von Relationsstypen zu entwickeln, Unterscheidungen zwischen Kohärenzrelationen, dadurch gerechtfertigt werden können, dass nicht nur die Intuitionen von Experten (in Bezug auf die deskriptive Angemessenheit), sondern auch Erkenntnisse aus Akquisitions-, Produktions- und Verständnisstudien berücksichtigt werden. Mit anderen Worten, deskriptiv adäquate Ansätze können als Ausgangspunkt für die Entwicklung einer allgemeinen Theorie dienen: Sie können eine Bestandsaufnahme aller möglichen relationalen Konstrukte liefern, die dann anhand kognitiver Beweise validiert (verifiziert oder verfälscht) werden können. Theorien, die sich mit beiden Maßnahmen befassen, können unser Verständnis der mentalen Prozesse von Diskursdarstellungen, in der Sprachproduktion und im Sprachverständnis verbessern. Es gibt bisher keine Quelle dazu welche Kriterien herangezogen werden können um zu beurteilen ob eine bestimmte relationale Unterscheidung oder ein Kohärenzrahmen kognitiv plausibel ist. Die Literatur sagt im Allgemeinen, dass Theorien auf empirischen Ergebnissen der Kognitionsforschung basieren müssen. Die spezifischen Arten von empirischen Ergebnissen oder kognitiver Forschung werden jedoch nicht näher ausgeführt. Kapitel 5 macht daher das Kriterium der kognitiven Plausibilität greifbarer, indem es detailliert beschreibt, welche Beweisquellen die Unterschiede zwischen kohärenten relationalen Labels und Klassen verifizieren oder falsifizieren können. Der kognitive Status von Kohärenzrelationen kann mit diesem Ansatz systematisch und schlüssig untersucht werden. Das Kriterium der kognitiven Plausibilität bildet die Motivation für alle weiteren Studien im weiteren Verlauf dieser Arbeit: Spezifische Unterschiede, über die sich die Frameworks nicht einig sind, werden bewertet, indem untersucht wird, ob naïve Leser diese Unterschiede vornehmen können und ob sie ihre Interpretationsprozesse beeinflussen. Der zweite Teil dieser Dissertation beschreibt eine Reihe von experimentellen Studien, die auf Erkenntnissen aus vorherigen Kapiteln aufbauen. Die übergeordnete Frage für diese Kapitel lautet: Können Sprachbenutzer zwischen bestimmten Arten von Relationen unterscheiden, die Diskrepanzen zwischen den Ansätzen verursachen? Kapitel 6 präsentiert eine Untersuchung des Designs und der Zuverlässigkeit einer Methode, die für die Verwendung in den Kapiteln 7 und 8 entwickelt wurde. Traditionelle Aufgaben der Diskursannotation gelten als kostspielig und zeitaufwendig, und die Zuverlässigkeit und Gültigkeit dieser Aufgaben werden in Frage gestellt. Hier wird daher eine neue Crowdsourcing-Methode entwickelt und evaluiert, bei der die Teilnehmer aufgefordert werden, aus einer vordefinierten Liste ein Bindewort auszuwählen, das die Verbindung zwischen den Segmenten einer Relation ausdrücken kann. Diese Methode ermöglicht es, die Diskursinterpretationen der Leser zu elizitieren, aus denen dann wiederum Diskursannotationen abgeleitet werden können. Wir haben auch den Einfluss des Kontextes auf die Zuverlässigkeit der Aufgabe untersucht, um mehr Einblick in die optimale Gestaltung einer solchen Aufgabe zu erhalten. Die Ergebnisse der “Crowdsourced Connective Insertion Task” zeigten, dass die Mehrheit der eingesetzten Bindewörter mit dem Original-Label konvergierte. Weiterhin zeigte die Verteilung der eingefügten Konnektive, dass oft mehrere Bedeutungen für eine einzelne Relation inferiert werden können. In Bezug auf die Anwesenheit von Kontext, zeigten die Ergebnisse keinen signifikanten Unterschied in der Verteilung der eingefügten Konnektive zwischen den Bedingungen insgesamt. Zusammenfassend deuten die Ergebnisse darauf hin, dass die neu entwickelte Crowdsourcing-Methode das Potenzial hat, als zuverlässige Alternative zu herkömmlichen Annotationsmethoden zu fungieren. Darüber hinaus liefern die Verteilungen der eingefügten Konnektive den Beweis, dass Relationen mehrere Interpretationen haben können, was wichtige Auswirkungen auf zukünftige Diskursannotationstudien haben könnte. Kapitel 4 ergab, dass PDTB- und RST-DT-Annotatoren oft über die Annotation der beiden kohärenzrelationalen Typen Beispielen und Spezifikationen anderer Meinung sind; insbesondere gibt es Unterschiede bezüglich der Interpretation dieser beiden Typen als ideelle (additive) oder argumentative (pragmatische kausale) Kohärenzrelationen. Das Kapitel 7 untersuchte daher, wie naïve-Leser diese Relationen interpretieren, indem sie die in Kapitel 6 vorgestellte Crowdsourced-Methode verwendeten. Die Ergebnisse zeigten, dass diese Relationen tatsächlich zwei Funktionen haben können: Sie können sowohl zur Veranschaulichung / Spezifizierung einer Situation als auch als Argument für eine Behauptung verwendet werden. Diese Ergebnisse deuten darauf hin, dass Beispiele und Spezifikationen mehrere, gleichzeitige Interpretationen haben können. Das Kapitel 8 untersucht weiter, wie die Leser Relationen mit mehreren möglichen Interpretationen interpretieren. Konkret haben wir untersucht, ob die Leser Präferenzen für eine bestimmte Interpretation haben und ob es individuelle Unterschiede in diesen Präferenzen gibt. Die Crowdsourced-Methode wurde in einem Messwiederholungsdesign verwendet. Die Ergebnisse zeigten, dass die Teilnehmer konsistente Präferenzen bei der Interpretation von Kohärenzrelationenn hatten und dass sie sich in diesen Präferenzen voneinander unterschieden. Darüber hinaus schienen sich die Teilnehmer in ihrer "standardmäßigen" Verarbeitungstiefe zu unterscheiden, was einige der Unterschiede in der Interpretation erklärt. Doch selbst wenn die Leser eine Aufgabe erfüllten, die von ihnen eine tiefe Verarbeitung verlangte, blieben einige Unterschiede in der Interpretation bestehen. Die Ergebnisse einer verbalen Arbeitsgedächtnisaufgabe zeigten, dass die in der vorherigen Studie gefundenen individuellen Unterschiede nicht durch Unterschiede im Arbeitsgedächtnis erklärt werden konnten. Die Ergebnisse der aktuellen Studie zeigten daher, dass die Leser individuelle Variabilität in ihren Interpretationspräferenzen von ambigen Relationen aufweisen, in Abhängigkeit davon wie tief sie Text verarbeiten. Theorien und Experimente zur Diskursinterpretation sollten deswegen die Unterschiede in den Interpretationspräferenzen und der Verarbeitungstiefe berücksichtigen. In den letzten beiden Kapiteln konzentrieren wir uns auf die Interaktion zwischen Konnektiven und dem Inhalt von Segmenten. Konnektive sind wichtige Signale für Kohärenzrelationen: Die Forschung hat gezeigt, dass sie als Verarbeitungsanweisungen funktionieren, indem sie signalisieren, wie die Segmente miteinander verbunden werden sollen. Es wird davon ausgegangen, dass die Leser sowohl das Konnektiv als auch den Inhalt der Segmente verarbeiten, um eine Relation herzuleiten. Das PDTB– RST-DT-Mapping in Kapitel 4 zeigt jedoch, dass sich Leser mehr auf Konnektiven als auf den Inhalt der Argumente verlassen, um eine Relation abzuleiten: In Abwesenheit eines expliziten Konnektives zeigten die Annotatoren wenig Übereinstimmung über die Art der Relation, die sie inferierten. Der letzte Teil der Arbeit untersucht, ob die Leser sowohl die Konnektive als auch den Inhalt der Segmente nutzen, um Kohärenzrelationen abzuleiten. Die Cue-Phrase “On the one hand” (Einerseits; OT1H) schafft die Erwartung einer kontrastiven Relation. Kapitel 9 testet ob diese Erwartung durch ein kontrastierendes Bindeglied nach OT1H erfüllt werden kann, oder ob die Leser in der Lage sind, den Inhalt der Segmente zu berücksichtigen und eine kontrastive Relation mit dem entsprechenden Segment herzustellen – auch wenn dies nicht das erste kontrastive Segment nach OT1H ist. Wir verwendeten kurze Passagen mit “On the one hand” und “On the other hand” (Andererseits; OTOH) sowie einen dazwischen liegenden kontrastierenden Satz mit but (aber). Es gab zwei Versionen dieses intervenierenden kontrastierenden Satzes: Ein lokal kontrastierender Satz stellte keinen angemessenen Kontrast zum OT1H-Satz her; ein global kontrastierender intervenierender Satz tat es. Wenn die Leser den Inhalt der Segmente berücksichtigen, sollten sie auf den Unterschied zwischen lokal und global kontrastierendem Satz achten. Drei Experimente mit Offline- und Online-Messungen zeigten, dass die Befragten mehr als nur eine passende Form erwarteten (d.h. On the other hand): Leser behielten ihre Erwartung an einen bevorstehenden Kontrast über das dazwischenliegende Material bei, auch wenn der eingebettete Bestandteil selbst Kontrast enthielt. Darüber hinaus führte ein nachfolgender Kontrast, der mit On the other hand markiert war, bei den Lesern zu Verarbeitungsschwierigkeiten, vor allem wenn zuvor ein anderer Textabschnitt Informationen enthielt, die einen angemessenen Kontrast zu On the one hand herstellten. Die Eye-Tracking-Studie in Kapitel 9 untersuchte auch, ob das Vorhandensein von OT1H die Verarbeitung von OTOH erleichtert. Die Ergebnisse zeigten aber keinen solchen Effekt. In diesem Kapitel wurden zwei zentrale Hypothesen getestet. Eine erste Hypothese war, dass ein möglicher facilitativer Effekt von OT1H reduziert wurde, weil die Erwartungen an OTOH insgesamt während der gesamten Studie gestiegen sind, was auf eine große Anzahl von OTOH-Items zurückzuführen ist. Deshalb wurde eine englische Eye-Tracking-Studie mit weniger OTOH-Items durchgeführt. Die Ergebnisse zeigten eine unterstützende Wirkung von OT1H auf die Interpretation von OTOH, was darauf hindeutet, dass die Häufigkeit von OTOH in der früheren Studie tatsächlich einen möglichen Effekt verbarg. Eine zweite Hypothese war, dass OT1H im Englischen keine starke unterstützende Wirkung hat, da OTOH in natürlicher Sprache oft verarbeitet wird ohne dass vorher OT1H erschienen ist. Da OT1H mit OTOH im Niederländischen häufiger auftritt als im Englischen, wurde untersucht, ob die unterstützende Wirkung von OT1H im Niederländischen größer ist. Wieder führten wir eine Eye-Tracking-Studie durch, die tatsächlich eine stärkere unterstützende Wirkung von OT1H im Niederländischen im Vergleich zum Englischen ergab. Dies deutet darauf hin, dass die Verarbeitung von durch sprachspezifische Faktoren wie Verteilungsmerkmale beeinflusst wird, sodass sich daher sprachübergreifend unterschiedliche Präferenzmuster zeigen können. Insgesamt werden in dieser Dissertation verschiedene Studien vorgestellt die die Unterscheidung zwischen den Typen von Kohärenzrelationen untersuchen, indem Ansätze, Annotationen und Interpretationen miteinander verglichen werden. Diese Studien liefern Einblicke in die Ähnlichkeiten und Unterschiede zwischen den Inventaren, die für Unterscheidungen zwischen den Kohärenzrelationen vorgeschlagen wurden„ sowie in die Operationalisierungen dieser Ansätze. Insgesamt wird gezeigt wie sich diese Faktoren auf die resultierenden Annotationen auswirken können. Durch die Untersuchung, wie verschiedene Arten von Relationen von naïve-Lesern interpretiert und verarbeitet werden, lieferte diese Dissertation neue Einblicke in die Prozesse des Diskursverständnisses

Universaar

Acronym

Los truncamientos en la conversación coloquial: estudio de las huellas de formulación discursiva desde un modelo de unidades de lo oral

Author: Pascual Aliaga Elena
Publication venue
Publication date: 01/01/2019
Field of study

Una de las principales características de la conversación coloquial, por oposición a otro tipo de géneros discursivos, es que se produce espontáneamente y sobre la marcha, es decir, sin planificación previa (Beinhauer 1963[1929], Ochs 1979, Narbona 1992, Briz 1998, entre otros). La formulación espontánea del coloquio deja toda una serie de trazas o huellas en el discurso resultante –rupturas, auto-correcciones, cambios abruptos de construcciones, segmentos truncados– que denominamos fenómenos formulativos, ya que permiten entrever los procesos de formulación que subyacen a la construcción del discurso sobre la marcha. La presente investigación se centra en el estudio de un tipo de fenómeno formulativo concreto: los truncamientos morfosintácticos, que definimos como aquellos segmentos que se interrumpen en el habla y que manifiestan algún tipo de alteración morfosintáctica en la estructura superficial del discurso. Concebimos el discurso coloquial espontáneo como una entidad dinámica, no estática, que va construyéndose y configurándose de forma no lineal a medida que el hablante se somete a los constreñimientos de la situación comunicativa e interaccional. Frente a perspectivas como la generativista, que relegan fenómenos como los truncamientos a meros “errores de actuación” (Chomsky 1965: 4, en Eklund [2004: 88]), en esta investigación defendemos la relevancia de estudiar los fenómenos formulativos del habla, puesto que nos proporcionan otra óptica sobre el discurso, entendido este como proceso (y no como producto) y nos permiten desentrañar y los procesos que subyacen a su construcción y formulación, esto es, los procesos de la sintaxis en curso u on-line (Auer 2009, Linell 1982, López Serena 2017). Además, dada la inaplicabilidad que han manifestado las unidades oracionales de la tradición sintáctica para el estudio de determinados fenómenos de la lengua oral coloquial (Narbona 1992, Hidalgo y Pérez Giménez 2004), creemos que el marco teórico y metodológico apropiado para acometer el análisis de los truncamientos es el relativo a los nuevos modelos de unidades para la segmentación del discurso oral (Pons 2014a). Esta tesis tiene dos objetivos fundamentales: en primer lugar, establecer una tipología y caracterización de los fenómenos formulativos y, más concretamente, de los truncamientos; y en segundo lugar, dar cabida a los truncamientos en la descripción sintáctica del español coloquial desde un modelo de unidades conversacionales: el sistema del Grupo Val.Es.Co. (Briz y Grupo Val.Es.Co. 2003, 2014). En resumen, esta tesis pretende aproximarse al estudio de los truncamientos, concebidos estos como un tipo de huella de la formulación que evidencia los procesos de construcción discursiva, desde el marco teórico de un sistema de unidades que pueda ser implementado para integrar estos segmentos y lograr una segmentación completa de la conversación coloquial española. A partir del análisis de 19 conversaciones coloquiales procedentes del Corpus Val.Es.Co. 3.0, se ha diseñado un método para identificar los distintos tipos de truncamientos y para analizar sus rasgos estructurales, morfosintácticos, prosódicos y semántico-pragmáticos. Los análisis estadísticos multivariable realizados (análisis múltiple de correspondencias, análisis de clústers y árbol de decisiones) han permitido, a su vez, complementar la descripción lingüística de los truncamientos determinando la relevancia significativa de los parámetros lingüísticos analizados para la caracterización de la tipología de truncamientos establecida. Los resultados de la tesis comprenden i) una clasificación de los fenómenos formulativos, ii) una clasificación de los distintos tipos de truncamientos y iii) un método para integrarlos en el sistema de unidades discursivas del Grupo Val.Es.Co. En definitiva, esta investigación ha permitido ahondar en el conocimiento de los procesos que intervienen en la construcción y planificación del discurso, de cara a una teoría sobre la formulación y sus fenómenos. Pretendemos, con todo ello, reivindicar la importancia de analizar las unidades truncas, consideradas en muchas ocasiones meros residuos sintácticos, y en última instancia, reivindicar la aplicabilidad de la teoría sintáctica del lenguaje hablado a través del sistema Val.Es.Co.One of the principal characteristics of colloquial speech compared with other discourse genres is its spontaneity and the fact that it is constructed on the spot, without any prior planning (Beinhauer 1963[1929], Ochs 1979, Narbona 1992, Briz 1998, among others). The spontaneity of dialogue leaves numerous traces or signs in the resulting speech––ruptures, self-repairs, abrupt changes of construction, incomplete segments––for which we use the term speech-formulation phenomena, given that they manifest the processes of formulation underlying the extemporaneous construction of discourse. This thesis focuses on a specific speech-formulation phenomenon called morphosyntactic truncations. Morphosyntactic truncations can be defined as speech segments that are interrupted and that manifest some kind of morphosyntactic change with respect to the overall structure of the speech. We understand spontaneous colloquial discourse as a dynamic, unfixed form that is constructed and reconfigured in a non-linear fashion by speakers as they adapt to the constraints of the communicative and interactional situation. Contrary to perspectives such as the generativist, which relegates truncations and other speech-formulation phenomena to the status of mere “performance errors” (Chomsky 1965: 4, in Eklund [2004: 88]), we advocate their significance and legitimacy as an object of study. The study of speech-formulation phenomena provides a valuable lens through which to view discourse and, at the same time, reframes our understanding of discourse as a process rather than a product. The study of these phenomena enables us to unravel the processes underlying the construction and formulation of discourse, that is, the processes of syntax in progress or on-line syntax (Auer 2009, Linell 1982, López Serena 2017). Moreover, given that that the units of traditional syntax have proved unsuitable for studying certain phenomena of spoken, colloquial language (Narbona 1992, Hidalgo and Pérez 2004), we sustain that the appropriate theoretical and methodological framework for undertaking the analysis of truncations is that of the new models of units designed for segmenting spoken language (Pons 2014a). This thesis has two main aims: first, to design a typology and a theoretical characterization of speech-formulation phenomena and, more specifically, of truncated segments; second, to develop a proposal to integrate truncated units in the description of Spanish colloquial syntax within the framework of a system of conversational units: the model formulated by the Val.Es.Co. group (Briz and Grupo Val.Es.Co. 2003, 2014). In summary, this thesis seeks to contribute to the study of truncations, which are understood as a trace of the formulation of speech that enables us to discern the wider processes of speech construction. The thesis works with the theoretical framework of a system of units that can be implemented in order to accommodate these segments and thereby achieve a complete segmentation of colloquial conversation in Spanish. Based on the analysis of 19 colloquial conversations from the Corpus Val.Es.Co. 3.0, a method was designed to identify the different types of truncations and to analyse their structural, morphosyntactic, prosodic, and semantico-pragmatic features. Multivariate statistical analyses (multiple correspondence analysis, cluster analysis, and decision tree) complement the linguistic description of truncations by determining the statistical significance of the linguistic features analysed. These statistical analyses enable us to determine which of the linguistic features analysed are more or less significant for the characterization of different types of truncation. The results of this thesis comprise i) a classification of speech-formulation phenomena, ii) a classification of the different types of truncation and iii) a method to integrate truncations in the Val.Es.Co. system of conversational units. In conclusion, this research has enabled the development of our understanding of the processes involved in the planning and construction of colloquial speech, with the ultimate aim of advancing a theory about formulation and its phenomena. In this way, this thesis seeks to justify the importance of analysing truncated units, which are often considered mere syntactic residues, as well as to demonstrate the applicability of the syntactic theory of spoken language using the Val.Es.Co. system

Repositori d'Objectes Digitals per a l'Ensenyament la Recerca i la Cultura