233 research outputs found

    Building linguistic corpora from Wikipedia articles and discussions

    Get PDF
    Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus - DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings

    CMC-core: a schema for the representation of CMC corpora in TEI

    Get PDF
    Dans cet article, nous dĂ©crivons un schĂ©ma et des modĂšles de reprĂ©sentation dĂ©veloppĂ©s pour structurer les corpus de communication mĂ©diĂ©e par ordinateur (CMC) en suivant les recommandations de la Text Encoding Initiative (TEI). Nous considĂ©rons le discours CMC comme un Ă©change dialogique entre humains, organisĂ© de maniĂšre sĂ©quentielle. Nous insistons d’abord sur le fait que de nombreuses caractĂ©ristiques de la CMC ne sont pas traitĂ©es de maniĂšre adĂ©quate par les schĂ©mas et les outils actuels d’encodage de corpus. Nous formulons donc un ensemble de recommandations pour reprĂ©senter la CMC avec des schĂ©mas d’encodage, en insistant sur le fait que la TEI nous semble ĂȘtre un cadre particuliĂšrement appropriĂ© pour l’encodage des corpus CMC. Nous proposons une modĂ©lisation des unitĂ©s de base de la CMC (Ă©noncĂ©s, messages et actions non verbales) ainsi que des structures de niveaux macro- et micro des interactions dans les environnements de la CMC. À partir de ces modĂšles, nous introduisons le CMC-core, un noyau TEI pour l’encodage des corpus CMC, qui dĂ©finit un ensemble de traits d’encodage spĂ©cifiques Ă  la CMC sur quatre niveaux: (i) élĂ©ments, (ii) classes de modĂšles, (iii) classes d'attributs et (iv) modules de l'infrastructure TEI. La description du noyau proposĂ© est illustrĂ©e au moyen d’exemples extraits des corpus des chercheurs du groupe SIG TEI CMC, reprĂ©sentant une grande variĂ©tĂ© de genres de la CMC (le chat, le wiki talk, le tweet, le blog, les interactions Second Life
). Le matĂ©riel dĂ©crit, i.e. les schĂ©mas, les exemples d’encodage et la documentation, est disponible sur le Wiki du SIG CMC TEI et accompagnera une demande d’enrichissement de la TEI (TEI feature request) au conseil de la TEI Ă  la fin de l’annĂ©e 2019.In this Paper, we describe a schema and models which have been developed for the representation of corpora of computer-mediated communicatin (CMC corpora) using the representation framework provided by the Text Encoding Initiative (TEI). We characterise CMC discourse as dialogic, sequentially organised interchange between humans and point out that many features of CMC are not adequately handled by current corpus encoding schemas and tools. We formulate desiderata for a representation of CMC in encoding schemes and argue why the TEI is a suitable framework for the encoding of CMC corpora. We propose a model of basic CMC units (utterances, posts, and nonverbal activities) and the macro- and micro-level structures of interactions in CMC environments. Based on these models, we introduce CMC-core, a TEI customisation for the encoding of CMC corpora, which defines CMC-specific encoding features on the four levels of elements, model classes, attribute classes, and modules of the TEI infrastructure. The description of our customisation is illustrated by encoding examples from corpora by researchers of the TEI SIG CMC, representing a variety of CMC genres, i.e. chat, wiki talk, twitter, blog, and Second Life interactions. The material described, i.e. schemata, encoding examples, and documentation, is available from the of the TEI CMC SIG Wiki and will accompany a feature request to the TEI council in late 2019

    Zur zukĂŒnftigen Entwicklung der Pflegeversicherung: Eine quantitative AbschĂ€tzung der BeitragssĂ€tze

    Get PDF
    Im Juli will das Bundesministerium fĂŒr Gesundheit Eckpunkte zur Reform der PïŹ‚egeversicherung vorlegen. Inwieweit ist die PïŹ‚egeversicherung reformbedĂŒrftig? In welchem Umfang benötigt sie zusĂ€tzliche Finanzmittel? Sollte das System auf ein Kapitaldeckungsverfahren umgestellt werden? Welcher Reformbedarf und welche Reformoptionen sind auf der in der Diskussion vernachlĂ€ssigten Leistungsseite zu sehen? --

    Enhancing speech corpus resources with multiple lexical tag layers

    Get PDF
    We describe a general two-stage procedure for re-using a custom corpus for spoken language system development involving a transformation from character-based markup to XML, and DSSSL stylesheet-driven XML markup enhancement with multiple lexical tag trees. The procedure was used to generate a fully tagged corpus; alternatively with greater economy of computing resources, it can be employed as a parametrised ‘tagging on demand’ filter. The implementation will shortly be released as a public resource together with the corpus (German spoken dialogue, about 500k word form tokens) and lexicon (about 75k word form types)

    Mining corpora of computer-mediated communication: analysis of linguistic features in Wikipedia talk pages using machine learning methods

    Get PDF
    Machine learning methods offer a great potential to automatically investigate large amounts of data in the humanities. Our contribution to the workshop reports about ongoing work in the BMBF project KobRA (http://www.kobra.tu-dortmund.de) where we apply machine learning methods to the analysis of big corpora in language-focused research of computer-mediated communication (CMC). At the workshop, we will discuss first results from training a Support Vector Machine (SVM) for the classification of selected linguistic features in talk pages of the German Wikipedia corpus in DeReKo provided by the IDS Mannheim. We will investigate different representations of the data to integrate complex syntactic and semantic information for the SVM. The results shall foster both corpus-based research of CMC and the annotation of linguistic features in CMC corpora

    Zwischen Empirie und Ästhetik – AnsĂ€tze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

    Get PDF
    Der Beitrag beschĂ€ftigt sich mit der Frage, wie und inwieweit korpusbasierte AnsĂ€tze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von grĂ¶ĂŸerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zĂ€hlt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berĂŒhrt als auch die empirischen, die eher fĂŒr die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden mĂŒssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer BegrĂŒndung dieser Entscheidung bedarf. Zur AnnĂ€herung an die Fragestellung werden zunĂ€chst gĂ€ngige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora ĂŒberprĂŒft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische AnsĂ€tze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten AnsĂ€tze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert

    Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

    Get PDF
    Very large corpora have been built and used at the IDS since its foundation in 1964. They have been made available on the Internet since the beginning of the 90’s to currently over 30,000 researchers worldwide. The Institute provides the largest archive of written German (Deutsches Referenzkorpus, DeReKe) which has recently been extended to 24 billion words. DeReKe has been managed and analysed by engines known as COSMAS and afterwards COSMAS II, which is currently being replaced by a new, scalable analysis platform called KorAP. KorAP makes it possible to manage and analyse texts that are accompanied by multiple, potentially conflicting, grammatical and structural annotation layers, and is able to handle resources that are distributed across different, and possibly geographically distant, storage systems. The majority of texts in DeReKe are not licensed for free redistribution, hence, the COSMAS and KorAP systems offer technical solutions to facilitate research on very large corpora that are not available (and not suitable) for download. For the new KorAP system, it is also planned to provide sandboxed environments to support non-remote-API access “near the data” through which users can run their own analysis programs

    Valenz und Kookkurrenz

    Get PDF

    The treatment of compounds in a morphological component for speech recognition

    Get PDF
    This paper describes a morphological component in a speech recognition system for German dealing with the construction of complex word form hypotheses out of a lattice of simplex forms.Our example is the recognition of compounds from their individual components. Evaluation results are presented for speech recognition with and without morphologically based word recognition.Dieser Aufsatz beschreibt eine Morphologiekomponente in einem Spracherkennungssystem fĂŒr das Deutsche, welche die Konstruktion von komplexen Worthypothesen aus einem Wörtergitter von Simplizia am Beispiel der Erkennung von Komposita aus ihren Einzelbestandteilen behandelt. Evaluationsergebnisse fur morphologisch und nicht-morphologisch basierte Worterkennung werden vorgestellt
    • 

    corecore