17 research outputs found
Gebrauchsbasierte Grammatik: Statistische Regelhaftigkeit
Das PhĂ€nomen Sprache ist in Form des beobachtbaren Sprachgebrauchs fast allgegenwĂ€rtig, gleichzeitig bleibt das offenkundig Regel- und Systemhafte dieses PhĂ€nomens ĂŒberraschend ungreifbar. Wegen der ĂŒberwĂ€ltigenden KomplexitĂ€t natĂŒrlicher Sprachen entsteht bei jedem Versuch, dieses Systemhafte in einer Theorie mit explanatorischem Anspruch zu fassen, eine breite Kluft zwischen der angestrebten theoretischen Beschreibungsebene einerseits und der phĂ€nomenologisch zugĂ€nglichen Ebene des Sprachgebrauchs andererseits.
Ausgehend von allgemeinen wissenschaftstheoretischen Ăberlegungen, wie man angesichts dieser Kluft ĂŒberhaupt zu hinreichend abgesicherten Erkenntnissen fĂŒr eine explanatorische Theoriebildung kommen kann, betonen die Autoren die Notwendigkeit, sich dem Untersuchungsgegenstand Sprache mit möglichst wenigen Vorannahmen ĂŒber diesen Gegenstand selbst zu nĂ€hern und sich dabei konsequent von der Empirie leiten zu lassen. Sie werben nachdrĂŒcklich fĂŒr eine emergentistische Perspektive auf Sprache, der zufolge alles Regelhafte und Konventionelle in der Sprache ein EpiphĂ€nomen des Sprachgebrauchs ist und von den Sprachteilnehmern fortlaufend ausgehandelt wird. Eine treibende Kraft hierbei ist, so wird argumentiert, der Begriff der Ăhnlichkeit. Auf dieser Grundlage wird schlieĂlich ein Forschungsprogramm entworfen, das die Wirkung des Faktors Ăhnlichkeit auf die Sprache nachzuzeichnen und dadurch schrittweise zu Ă€hnlichen Generalisierungen zu gelangen versucht wie die Sprachgemeinschaft
A brief tutorial on using collocations for uncovering and contrasting meaning potentials of lexical items
This introductory tutorial describes a strictly corpus-driven approach for uncovering indications for aspects of use of lexical items. These aspects include â(lexical) meaningâ in a very broad sense and involve different dimensions, they are established in and emerge from respective discourses. Using data-driven mathematical-statistical methods with minimal (linguistic) premises, a wordâs usage spectrum is summarized as a collocation profile. Self-organizing methods are applied to visualize the complex similarity structure spanned by these profiles. These visualizations point to the typical aspects of a wordâs use, and to the common and distinctive aspects of any two words
"Wörter sind die Schuhe der Gedanken, damit kommt man ĂŒberall hin" : Wissenschaft im Dialog: Das IDS beim Wissenschaftssommer 2006 MĂŒnchen, 15. â 21. Juli 2006
Mathematische HĂ€ufigkeitsmaĂe in der Korpuslinguistik. Eigenschaften und Verwendung
In der Korpuslinguistik und der Quantitativen Linguistik werden ganz verschiedenartige formale MaĂe verwendet, mit denen die GebrauchshĂ€ufigkeit eines Wortes, eines Ausdrucks oder auch abstrakter oder komplexer sprachlicher Elemente in einem gegebenen Korpus gemessen und ggf. mit anderen GebrauchshĂ€ufigkeiten verglichen werden kann. Im Folgenden soll fĂŒr eine Auswahl dieser MaĂe (absolute HĂ€ufigkeit, relative HĂ€ufigkeit, Wahrscheinlichkeitsverteilung, Differenzenkoeffizient, HĂ€ufigkeitsklasse) zusammengefasst werden, wie sie definiert sind, welche Eigenschaften sie haben und unter welchen Bedingungen sie (sinnvoll) anwendbar und interpretierbar sind â dabei kann eine Rolle spielen, ob das HĂ€ufigkeitsmaĂ auf ein Korpus als Ganzes angewendet wird oder auf einzelne Teilkorpora. ZusĂ€tzlich zu den bei den einzelnen HĂ€ufigkeitsmaĂen genannten EinschrĂ€nkungen gilt generell der folgende vereinfachte Zusammenhang: Je seltener ein Wort im gegebenen Korpus insgesamt vorkommt und je kleiner dieses Korpus ist, desto stĂ€rker hĂ€ngt die beobachtete GebrauchshĂ€ufigkeit des Wortes von zufĂ€lligen Faktoren ab, d.h., desto geringer ist die statistische ZuverlĂ€ssigkeit der Beobachtung
Approaching grammar: Detecting, conceptualizing and generalizing paradigmatic variation
This paper presents ongoing research which is embedded in an empirical-linguistic research program, set out to devise viable research strategies for developing an explanatory theory of grammar as a psychological and social phenomenon. As this phenomenon cannot be studied directly, the program attempts to approach it indirectly through its correlates in language corpora, which is justified by referring to the core tenets of Emergent Grammar. The guiding principle for identifying such corpus correlates of grammatical regularities is to imitate the psychological processes underlying the emergent nature of these regularities. While previous work in this program focused on syntagmatic structures, the current paper goes one step further by investigating schematic structures that involve paradigmatic variation. It introduces and explores a general strategy by which corpus correlates of such structures may be uncovered, and it further outlines how these correlates may be used to study the nature of the psychologically real schematic structures
The german reference corpus DeReKo : a primordial sample for linguistic research
^This paper describes DeReKo (Deutsches Referenzkorpus), the Archive of General Reference Corpora of Contemporary Written German at the Institut fĂŒr Deutsche Sprache (IDS) in Mannheim, and the rationale behind its development. We discuss its design, its legal background, how to access it, available metadata, linguistic annotation layers, underlying standards, ongoing developments, and aspects of using the archive for empirical linguistic research. The focus of the paper is on the advantages of DEREKOâs design as a primordial sample from which virtual corpora can be drawn for the specific purposes of individual studies. Both concepts, primordial sample and virtual corpus are explained and illustrated in detail. Furthermore, we describe in more detail how DEREKO deals with the fact that all its texts are subject to third partiesâ intellectual property rights, and how it deals with the issue of replicability, which is particularly challenging given DEREKOâs dynamic growth and the possibility to construct from it an open number of virtual corpora