6 research outputs found

    Reconstructing false start errors in spontaneous speech text

    No full text
    This paper presents a conditional random field-based approach for identifying speaker-produced disfluencies (i.e. if and where they occur) in spontaneous speech transcripts. We emphasize false start regions, which are often missed in current disfluency identification approaches as they lack lexical or structural similarity to the speech immediately following. We find that combining lexical, syntactic, and language model-related features with the output of a state-of-the-art disfluency identification system improves overall word-level identification of these and other errors. Improvements are reinforced under a stricter evaluation metric requiring exact matches between cleaned sentences annotator-produced reconstructions, and altogether show promise for general reconstruction efforts.

    Diszharmóniás jelenségek a beszédben

    Get PDF

    Los truncamientos en la conversación coloquial: estudio de las huellas de formulación discursiva desde un modelo de unidades de lo oral

    Get PDF
    Una de las principales características de la conversación coloquial, por oposición a otro tipo de géneros discursivos, es que se produce espontáneamente y sobre la marcha, es decir, sin planificación previa (Beinhauer 1963[1929], Ochs 1979, Narbona 1992, Briz 1998, entre otros). La formulación espontánea del coloquio deja toda una serie de trazas o huellas en el discurso resultante –rupturas, auto-correcciones, cambios abruptos de construcciones, segmentos truncados– que denominamos fenómenos formulativos, ya que permiten entrever los procesos de formulación que subyacen a la construcción del discurso sobre la marcha. La presente investigación se centra en el estudio de un tipo de fenómeno formulativo concreto: los truncamientos morfosintácticos, que definimos como aquellos segmentos que se interrumpen en el habla y que manifiestan algún tipo de alteración morfosintáctica en la estructura superficial del discurso. Concebimos el discurso coloquial espontáneo como una entidad dinámica, no estática, que va construyéndose y configurándose de forma no lineal a medida que el hablante se somete a los constreñimientos de la situación comunicativa e interaccional. Frente a perspectivas como la generativista, que relegan fenómenos como los truncamientos a meros “errores de actuación” (Chomsky 1965: 4, en Eklund [2004: 88]), en esta investigación defendemos la relevancia de estudiar los fenómenos formulativos del habla, puesto que nos proporcionan otra óptica sobre el discurso, entendido este como proceso (y no como producto) y nos permiten desentrañar y los procesos que subyacen a su construcción y formulación, esto es, los procesos de la sintaxis en curso u on-line (Auer 2009, Linell 1982, López Serena 2017). Además, dada la inaplicabilidad que han manifestado las unidades oracionales de la tradición sintáctica para el estudio de determinados fenómenos de la lengua oral coloquial (Narbona 1992, Hidalgo y Pérez Giménez 2004), creemos que el marco teórico y metodológico apropiado para acometer el análisis de los truncamientos es el relativo a los nuevos modelos de unidades para la segmentación del discurso oral (Pons 2014a). Esta tesis tiene dos objetivos fundamentales: en primer lugar, establecer una tipología y caracterización de los fenómenos formulativos y, más concretamente, de los truncamientos; y en segundo lugar, dar cabida a los truncamientos en la descripción sintáctica del español coloquial desde un modelo de unidades conversacionales: el sistema del Grupo Val.Es.Co. (Briz y Grupo Val.Es.Co. 2003, 2014). En resumen, esta tesis pretende aproximarse al estudio de los truncamientos, concebidos estos como un tipo de huella de la formulación que evidencia los procesos de construcción discursiva, desde el marco teórico de un sistema de unidades que pueda ser implementado para integrar estos segmentos y lograr una segmentación completa de la conversación coloquial española. A partir del análisis de 19 conversaciones coloquiales procedentes del Corpus Val.Es.Co. 3.0, se ha diseñado un método para identificar los distintos tipos de truncamientos y para analizar sus rasgos estructurales, morfosintácticos, prosódicos y semántico-pragmáticos. Los análisis estadísticos multivariable realizados (análisis múltiple de correspondencias, análisis de clústers y árbol de decisiones) han permitido, a su vez, complementar la descripción lingüística de los truncamientos determinando la relevancia significativa de los parámetros lingüísticos analizados para la caracterización de la tipología de truncamientos establecida. Los resultados de la tesis comprenden i) una clasificación de los fenómenos formulativos, ii) una clasificación de los distintos tipos de truncamientos y iii) un método para integrarlos en el sistema de unidades discursivas del Grupo Val.Es.Co. En definitiva, esta investigación ha permitido ahondar en el conocimiento de los procesos que intervienen en la construcción y planificación del discurso, de cara a una teoría sobre la formulación y sus fenómenos. Pretendemos, con todo ello, reivindicar la importancia de analizar las unidades truncas, consideradas en muchas ocasiones meros residuos sintácticos, y en última instancia, reivindicar la aplicabilidad de la teoría sintáctica del lenguaje hablado a través del sistema Val.Es.Co.One of the principal characteristics of colloquial speech compared with other discourse genres is its spontaneity and the fact that it is constructed on the spot, without any prior planning (Beinhauer 1963[1929], Ochs 1979, Narbona 1992, Briz 1998, among others). The spontaneity of dialogue leaves numerous traces or signs in the resulting speech––ruptures, self-repairs, abrupt changes of construction, incomplete segments––for which we use the term speech-formulation phenomena, given that they manifest the processes of formulation underlying the extemporaneous construction of discourse. This thesis focuses on a specific speech-formulation phenomenon called morphosyntactic truncations. Morphosyntactic truncations can be defined as speech segments that are interrupted and that manifest some kind of morphosyntactic change with respect to the overall structure of the speech. We understand spontaneous colloquial discourse as a dynamic, unfixed form that is constructed and reconfigured in a non-linear fashion by speakers as they adapt to the constraints of the communicative and interactional situation. Contrary to perspectives such as the generativist, which relegates truncations and other speech-formulation phenomena to the status of mere “performance errors” (Chomsky 1965: 4, in Eklund [2004: 88]), we advocate their significance and legitimacy as an object of study. The study of speech-formulation phenomena provides a valuable lens through which to view discourse and, at the same time, reframes our understanding of discourse as a process rather than a product. The study of these phenomena enables us to unravel the processes underlying the construction and formulation of discourse, that is, the processes of syntax in progress or on-line syntax (Auer 2009, Linell 1982, López Serena 2017). Moreover, given that that the units of traditional syntax have proved unsuitable for studying certain phenomena of spoken, colloquial language (Narbona 1992, Hidalgo and Pérez 2004), we sustain that the appropriate theoretical and methodological framework for undertaking the analysis of truncations is that of the new models of units designed for segmenting spoken language (Pons 2014a). This thesis has two main aims: first, to design a typology and a theoretical characterization of speech-formulation phenomena and, more specifically, of truncated segments; second, to develop a proposal to integrate truncated units in the description of Spanish colloquial syntax within the framework of a system of conversational units: the model formulated by the Val.Es.Co. group (Briz and Grupo Val.Es.Co. 2003, 2014). In summary, this thesis seeks to contribute to the study of truncations, which are understood as a trace of the formulation of speech that enables us to discern the wider processes of speech construction. The thesis works with the theoretical framework of a system of units that can be implemented in order to accommodate these segments and thereby achieve a complete segmentation of colloquial conversation in Spanish. Based on the analysis of 19 colloquial conversations from the Corpus Val.Es.Co. 3.0, a method was designed to identify the different types of truncations and to analyse their structural, morphosyntactic, prosodic, and semantico-pragmatic features. Multivariate statistical analyses (multiple correspondence analysis, cluster analysis, and decision tree) complement the linguistic description of truncations by determining the statistical significance of the linguistic features analysed. These statistical analyses enable us to determine which of the linguistic features analysed are more or less significant for the characterization of different types of truncation. The results of this thesis comprise i) a classification of speech-formulation phenomena, ii) a classification of the different types of truncation and iii) a method to integrate truncations in the Val.Es.Co. system of conversational units. In conclusion, this research has enabled the development of our understanding of the processes involved in the planning and construction of colloquial speech, with the ultimate aim of advancing a theory about formulation and its phenomena. In this way, this thesis seeks to justify the importance of analysing truncated units, which are often considered mere syntactic residues, as well as to demonstrate the applicability of the syntactic theory of spoken language using the Val.Es.Co. system
    corecore