33 research outputs found

    Syntactic annotation of non-canonical linguistic structures

    Get PDF
    This paper deals with the syntactic annotation of corpora that contain both ‘canonical’ and ‘non-canonical’ sentences

    Wortschreibungsfehler bei fortgeschrittenen Lernenden des Deutschen als Fremdsprache

    Get PDF
    Die Orthographie ist ein wichtiger Baustein des Fremdsprachenunterrichts, in der Schreiberwerbsforschung im Fremdsprachenkontext konzentrierte man sich dagegen auf Phänomene der Textgestaltung (z.B. Portman 1991). Es wird eine korpusbasierte Untersuchung von Orthographiefehlern in Texten fortgeschrittener Lernender des Deutschen als Fremdsprache (DaF) vorgestellt. Als Datengrundlage dient das Lernerkorpus Falko (fehlerannotiertes Lernerkorpus), ein Gemeinschaftsprojekt der Freien Universität und der Humboldt Universität Berlin (http://www2.hu-berlin.de/korpling/projekte/falko/FalkoKernBeschreibung.pdf). In diesem Korpus werden sog. Wortschreibungsfehler (vgl. Eisenberg 2004) analysiert werden. Die Untersuchung geht von der Annahme aus, dass sich, abgesehen von direkten Übertragungen, die Beschaffenheit der Orthographie einer Muttersprache (L1) nicht signifikant auf die Lernerorthographie (die Orthographie der Zielsprache) auswirkt. Diese Annahme soll an ausgewählten Wortschreibungsfehlern überprüft werden, so z.B. an fehlerhaften Dehnungs- und Schärfungsmarkierungen englischer DaF-Lernender. Sollte die L1 einen nachweisbaren Einfluss auf die Lernerorthographie haben, so müssten bspw. signifikant mehr Fehler bei der dem Englischen unbekannten Dehnungsgraphie mit Dehnungs-h auftreten als bei der dem Englischen bekannten Schärfungsgraphie mithilfe von Konsonantendopplung im Silbengelenk. Die Ergebnisse der Korpusuntersuchung werden in einem spracherwerbstheoretischen Rahmen diskutiert werden

    What's hard? : Quantitative evidence for difficult constructions in German learner data

    Get PDF
    Our study is concerned with the identification of ‘difficult’ structure s in the acquisition of a foreign language, which will shed light on theoretical considerations of L2 processing. We argue that – compared to simple vocabulary items or abstract syntactic patterns – structures that contain lexical material as well as categorial variables are especially difficult to acquire. The difficulty level for particular patterns is shown to depend on surface invariability but not on the syntactic categories within which target patterns are embedded. As an example we study the distribution of certain structures which are underused by L2 German learners

    Syntactic Misuse, Overuse and Underuse: A Study of a Parsed Learner Corpus and its Target Hypothesis

    Get PDF
    Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories. Editors: Markus Dickinson, Kaili Müürisep and Marco Passarotti. NEALT Proceedings Series, Vol. 9 (2010), 1-3. © 2010 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/15891

    Falko. Eine Familie vielseitig annotierter Lernerkorpora des Deutschen als Fremdsprache

    Get PDF
    Falko ist ein frei zugängliches Lernerkorpus des schriftsprachlichen Deutschen als Fremdsprache und umfasst nach jahrelanger Erschließung neuer Textressourcen und der Anreicherung mit diversen Annotationsebenen eine Reihe einzelner Korpora, die teilweise sehr komplex strukturiert sind. Im vorliegenden Beitrag stellen wir die komplexeste Datenressource aus der Reihe dieser Korpora vor – das Falko-Essay-Korpus, welches aktuell in einer neuen Version (3.0) erscheint und interessierten Forscherinnen und Forschern frei zur Verfügung steht

    Platzhalterphrasen bei fortgeschrittenen Lernern des Deutschen als Fremdsprache

    Get PDF

    Syntactic annotation of non-canonical linguistic structures

    Get PDF
    This paper deals with the syntactic annotation of corpora that contain both ‘canonical’ and ‘non-canonical’ sentences.Not Reviewe

    Spoken learner corpora: Methodological and technical aspects of collection, indexing and use

    No full text
    This article provides an overview of methodological and technical issues that arise in the collection, indexing and use of spoken learner corpora, i. e. corpora containing spoken utterances of learners of a target language. After an introductory discussion of the most important special features of this type of corpus that distinguish it from written language learner corpora and spoken corpora with L1 speakers, we will go into more detail on questions of corpus design. The main part of the paper is then an overview of the methodological and technical procedures of the individual steps of collecting, indexing, providing and using spoken learner corpora. The main aim of this overview is to highlight practices that can be considered best practices according to the current state of research. Finally, we outline the challenges that still exist for this type of corpus

    Dulko – auf dem Weg zu einem deutsch-ungarischen Lernerkorpus

    No full text
    Dulko ist ein im Aufbau befindliches fehlerannotiertes deutsch-ungarisches Lernerkorpus an der Universität Szeged. Es wird seit Sommer 2017 von der Alexander-von-Humboldt-Stiftung gefördert im Rahmen einer Institutspartnerschaft zwischen dem IDS und dem Institut für Germanistik an der Universität Szeged („Deutsch-ungarischer Sprachvergleich: korpustechnologisch, funktional-semantisch und sprachdidaktisch (DeutUng)“). Die in Dulko erhobenen Lernerdaten setzen sich zusammen aus kontrolliert erhobenen deutschsprachigen Essays und Übersetzungen aus dem Ungarischen ins Deutsche. Die Probanden sind Studierende am Institut für Germanistik der Universität Szeged mit Ungarisch als Muttersprache und Deutsch als erster oder zweiter Fremdsprache

    Towards a syntactically motivated analysis of modifiers in German

    Get PDF
    The Stuttgart-Tübingen Tagset (STTS) is a widely used POS annotation scheme for German which provides 54 different tags for the analysis on the part of speech level. The tagset, however, does not distinguish between adverbs and different types of particles used for expressing modality, intensity, graduation, or to mark the focus of the sentence. In the paper, we present an extension to the STTS which provides tags for a more fine-grained analysis of modification, based on a syntactic perspective on parts of speech. We argue that the new classification not only enables us to do corpus-based linguistic studies on modification, but also improves statistical parsing. We give proof of concept by training a data-driven dependency parser on data from the TiGer treebank, providing the parser a) with the original STTS tags and b) with the new tags. Results show an improved labelled accuracy for the new, syntactically motivated classification