118 research outputs found

    Building linguistic corpora from Wikipedia articles and discussions

    Get PDF
    Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus - DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings

    CMC-core: a schema for the representation of CMC corpora in TEI

    Get PDF
    Dans cet article, nous décrivons un schéma et des modèles de représentation développés pour structurer les corpus de communication médiée par ordinateur (CMC) en suivant les recommandations de la Text Encoding Initiative (TEI). Nous considérons le discours CMC comme un échange dialogique entre humains, organisé de manière séquentielle. Nous insistons d’abord sur le fait que de nombreuses caractéristiques de la CMC ne sont pas traitées de manière adéquate par les schémas et les outils actuels d’encodage de corpus. Nous formulons donc un ensemble de recommandations pour représenter la CMC avec des schémas d’encodage, en insistant sur le fait que la TEI nous semble être un cadre particulièrement approprié pour l’encodage des corpus CMC. Nous proposons une modélisation des unités de base de la CMC (énoncés, messages et actions non verbales) ainsi que des structures de niveaux macro- et micro des interactions dans les environnements de la CMC. À partir de ces modèles, nous introduisons le CMC-core, un noyau TEI pour l’encodage des corpus CMC, qui définit un ensemble de traits d’encodage spécifiques à la CMC sur quatre niveaux: (i) éléments, (ii) classes de modèles, (iii) classes d'attributs et (iv) modules de l'infrastructure TEI. La description du noyau proposé est illustrée au moyen d’exemples extraits des corpus des chercheurs du groupe SIG TEI CMC, représentant une grande variété de genres de la CMC (le chat, le wiki talk, le tweet, le blog, les interactions Second Life…). Le matériel décrit, i.e. les schémas, les exemples d’encodage et la documentation, est disponible sur le Wiki du SIG CMC TEI et accompagnera une demande d’enrichissement de la TEI (TEI feature request) au conseil de la TEI à la fin de l’année 2019.In this Paper, we describe a schema and models which have been developed for the representation of corpora of computer-mediated communicatin (CMC corpora) using the representation framework provided by the Text Encoding Initiative (TEI). We characterise CMC discourse as dialogic, sequentially organised interchange between humans and point out that many features of CMC are not adequately handled by current corpus encoding schemas and tools. We formulate desiderata for a representation of CMC in encoding schemes and argue why the TEI is a suitable framework for the encoding of CMC corpora. We propose a model of basic CMC units (utterances, posts, and nonverbal activities) and the macro- and micro-level structures of interactions in CMC environments. Based on these models, we introduce CMC-core, a TEI customisation for the encoding of CMC corpora, which defines CMC-specific encoding features on the four levels of elements, model classes, attribute classes, and modules of the TEI infrastructure. The description of our customisation is illustrated by encoding examples from corpora by researchers of the TEI SIG CMC, representing a variety of CMC genres, i.e. chat, wiki talk, twitter, blog, and Second Life interactions. The material described, i.e. schemata, encoding examples, and documentation, is available from the of the TEI CMC SIG Wiki and will accompany a feature request to the TEI council in late 2019

    Enhancing speech corpus resources with multiple lexical tag layers

    Get PDF
    We describe a general two-stage procedure for re-using a custom corpus for spoken language system development involving a transformation from character-based markup to XML, and DSSSL stylesheet-driven XML markup enhancement with multiple lexical tag trees. The procedure was used to generate a fully tagged corpus; alternatively with greater economy of computing resources, it can be employed as a parametrised ‘tagging on demand’ filter. The implementation will shortly be released as a public resource together with the corpus (German spoken dialogue, about 500k word form tokens) and lexicon (about 75k word form types)

    Types and annotation of reply relations in computer-mediated communication

    Get PDF
    This paper presents types and annotation layers of reply relations in computer- mediated communication (CMC). Reply relations hold between post units in CMC interactions and describe references from one given post to a previous post. We classify three types of reply relations in CMC interactions: first, technical replies, i. e. the possibility to reply directly to a previous post by clicking a ‘reply’ button; second, indentations, e. g. in wiki talk pages in which users insert their contributions in the existing talk page by indenting them and third, interpretative reply relations, i. e. the reply action is not realised formally but signalled by other structural or linguistics means such as address markers ‘@’, greetings, citations and/or Q-A structures. We take a look at existing practices in the description and representation of such relations in corpora and examples of chat, Wikipedia talk pages, Twitter and blogs. We then provide an annotation proposal that combines the different levels of description and representation of reply relations and which adheres to the schemas and practices for encoding CMC corpus documents within the TEI framework as defined by the TEI CMC SIG. It constitutes a prerequisite for correctly identifying higher levels of interactional relations such as dialogue acts or discussion trees.Der vorliegende Artikel stellt Typen und Annotationsebenen von Antwortrelationen in der internetbasierten Kommunikation (IBK) vor. Antwortrelationen bestehen zwischen Posts in IBK-Interaktionen und beschreiben Referenzen, die zwischen einem Initialbeitrag und einem Folgebeitrag bestehen. Wir klassifizieren drei Arten von Antwortrelationen in IBK-Interaktionen: erstens, technische Antwortrelationen, welche dadurch gekennzeichnet sind, dass durch das Betätigen einer „Antwort“-Schaltfläche eine Antwort initiiert wird, bspw. in Blogs; zweitens, Einrückungen, z. B. auf Wikipedia-Diskussionsseiten, in denen Benutzer ihre Beiträge in die entsprechende Stelle des Diskussionsverlaufs einfügen, indem sie ihre Beiträge einrücken und drittens, interpretative Antwortrelationen, bei denen die Antwort nicht formal realisiert wird, sondern durch andere strukturelle oder linguistische Mittel signalisiert werden, wie z. B. dem Adressierungsmarker „@“, Begrüßungs- und Verabschiedungsformeln, Zitaten und/oder Frage-Antwort-Strukturen. Wir analysieren die bestehenden Praktiken bei der Beschreibung und Darstellung solcher Relationen in Korpora und geben Beispiele für Chat, Wikipedia-Diskussionsseiten, Twitter und Blogs. Anschließend präsentieren wir einen Annotationsvorschlag, der die verschiedenen Ebenen der Beschreibung und Darstellung von Antwortrelationen kombiniert und sich an die Praktiken zur Kodierung von IBK-Korpusdokumenten innerhalb der Text Encoding Initiative (TEI), wie sie von der TEI CMC SIG definiert wurde, hält. Die Annotation von Antwortrelationen stellt eine Voraussetzung für die korrekte Identifizierung höherer interaktionaler Ebenen, wie z. B. die Klassifizierung von Dialogakten oder Baumstrukturen, dar.Este documento introduce tipos y capas de anotación de las relaciones de respuesta en la comunicación mediada por ordenador (CMC). Las relaciones de respuesta se mantienen entre las unidades de mensaje de las interacciones de CMC y describen referencias de un mensaje dado a un mensaje anterior. Clasificamos tres tipos de relaciones de respuesta en las interacciones de CMC: primero, las respuestas técnicas, es decir, la posibilidad de responder directamente a un mensaje anterior usando el botón “responder”; segundo, hendiduras, por ejemplo, en las páginas de discusión de Wikipedia en las que los usuarios insertan sus contribuciones en la página de conversación existente al indentarlos, y la tercera, relaciones interpretativas de respuesta, es decir, la acción de respuesta no se realiza formalmente, sino que se señala por otros medios estructurales o lingüísticos, como los marcadores de dirección ‘@’, saludos, citas y/o estructuras de pregunta y respuesta. Vamos a mirar a las prácticas existentes en la descripción y representación de tales relaciones en los corpus y ejemplos de chat, páginas de discusión de Wikipedia, Twitter y blogs. A continuación, proporcionamos una propuesta de anotación que combina los diferentes niveles de descripción y representación de las relaciones de respuesta y que se adhiere a los esquemas y prácticas para codificar documentos de corpus CMC dentro del marco TEI, tal como se define en el TEI CMC SIG. Esto forma un prerrequisito para identificar correctamente los niveles más elevados de relaciones interaccionales, como los actos de diálogo o los árboles de discusión

    Mining corpora of computer-mediated communication: analysis of linguistic features in Wikipedia talk pages using machine learning methods

    Get PDF
    Machine learning methods offer a great potential to automatically investigate large amounts of data in the humanities. Our contribution to the workshop reports about ongoing work in the BMBF project KobRA (http://www.kobra.tu-dortmund.de) where we apply machine learning methods to the analysis of big corpora in language-focused research of computer-mediated communication (CMC). At the workshop, we will discuss first results from training a Support Vector Machine (SVM) for the classification of selected linguistic features in talk pages of the German Wikipedia corpus in DeReKo provided by the IDS Mannheim. We will investigate different representations of the data to integrate complex syntactic and semantic information for the SVM. The results shall foster both corpus-based research of CMC and the annotation of linguistic features in CMC corpora

    Zwischen Empirie und Ästhetik – Ansätze zur korpuslinguistischen Untersuchung und Bewertung von Sprachwandel

    Get PDF
    Der Beitrag beschäftigt sich mit der Frage, wie und inwieweit korpusbasierte Ansätze zur Untersuchung und Bewertung von Sprachwandel beitragen können. Die Bewertung von Sprachwandel erscheint in dieser Hinsicht interessant, da sie erstens von größerem öffentlichen Interesse ist, zweitens nicht zu den Kernthemen der Sprachwissenschaft zählt und drittens sowohl die geisteswissenschaftlichen Aspekte der Sprachwissenschaft berührt als auch die empirischen, die eher für die so genannten harten Wissenschaften typisch sind. Letzteres trifft bei der Frage nach Sprachverfall (gutem vs. schlechtem Deutsch diachron) vermutlich unbestrittener zu als bei der Frage nach richtigem vs. falschem Deutsch, da zu ihrer Beantwortung offensichtlich einerseits empirische, messbare Kriterien herangezogen werden müssen, andererseits aber auch weitere Kriterien notwendig sind und es außerdem einer Entscheidung zur Einordnung und Gewichtung der verschiedenartigen Kriterien sowie einer Begründung dieser Entscheidung bedarf. Zur Annäherung an die Fragestellung werden zunächst gängige, leicht operationalisierbare Hypothesen zu Symptomen eines potenziellen Verfalls des Deutschen auf verschiedenen DeReKo-basierten Korpora überprüft und im Hinblick auf ihre Verallgemeinerbarkeit und Tragweite diskutiert. Im zweiten Teil werden weitere empirische Ansätze zur Untersuchung von Wandel, Variation und Dynamik skizziert, die zur Diskussion spezieller Aspekte von Sprachverfall beitragen könnten. Im Schlussteil werden die vorgestellten Ansätze in den Gesamtkontext einer sprachwissenschaftlichen Untersuchung von Sprachverfall gestellt und vor dem Hintergrund seines gesellschaftlichen Diskurses reflektiert

    Maximizing the potential of very large corpora: 50 years of big language data at IDS Mannheim

    Get PDF
    Very large corpora have been built and used at the IDS since its foundation in 1964. They have been made available on the Internet since the beginning of the 90’s to currently over 30,000 researchers worldwide. The Institute provides the largest archive of written German (Deutsches Referenzkorpus, DeReKe) which has recently been extended to 24 billion words. DeReKe has been managed and analysed by engines known as COSMAS and afterwards COSMAS II, which is currently being replaced by a new, scalable analysis platform called KorAP. KorAP makes it possible to manage and analyse texts that are accompanied by multiple, potentially conflicting, grammatical and structural annotation layers, and is able to handle resources that are distributed across different, and possibly geographically distant, storage systems. The majority of texts in DeReKe are not licensed for free redistribution, hence, the COSMAS and KorAP systems offer technical solutions to facilitate research on very large corpora that are not available (and not suitable) for download. For the new KorAP system, it is also planned to provide sandboxed environments to support non-remote-API access “near the data” through which users can run their own analysis programs

    Valenz und Kookkurrenz

    Get PDF

    The treatment of compounds in a morphological component for speech recognition

    Get PDF
    This paper describes a morphological component in a speech recognition system for German dealing with the construction of complex word form hypotheses out of a lattice of simplex forms.Our example is the recognition of compounds from their individual components. Evaluation results are presented for speech recognition with and without morphologically based word recognition.Dieser Aufsatz beschreibt eine Morphologiekomponente in einem Spracherkennungssystem für das Deutsche, welche die Konstruktion von komplexen Worthypothesen aus einem Wörtergitter von Simplizia am Beispiel der Erkennung von Komposita aus ihren Einzelbestandteilen behandelt. Evaluationsergebnisse fur morphologisch und nicht-morphologisch basierte Worterkennung werden vorgestellt
    corecore