3,288 research outputs found

    Semantic Wiki

    Get PDF

    Leitfaden zur Beurteilung von Aufbereitungsaufwand und Nachnutzbarkeit von Korpora gesprochener Sprache

    Get PDF
    Korpora gesprochener Sprache werden mindestens seit den 1950er Jahren von Sprachwissenschaftlern und Forschern anderer Disziplinen mit verschiedensten Forschungsinteressen aufgebaut. Die technischen Möglichkeiten für die Erhebung und Bereitstellung solcher Daten haben sich seitdem fortwährend und grundlegend gewandelt. Heute kann es als Normalfall angesehen werden, dass ein Korpus gesprochener Sprache digital erhoben wird. Die wissenschaftliche Community ist außerdem auf dem Wege, sich auf gewisse Mindeststandards zu einigen, die bei der Erhebung bezüglich Dokumentation, Strukturierung und Enkodierung der Daten eingehalten werden sollten, um eine möglichst nachhaltige Nutzung der Korpora zu ermöglichen. Verschiedene Datenzentren schließlich haben sich zum Ziel gesetzt, Korpora gesprochener Sprache zu einer eben solchen Nachnutzung dauerhaft zu archivieren und in digitalen Infrastrukturen bereitzustellen. Eine der wichtigsten Aufgaben solcher Zentren ist es, Korpora aus abgeschlossenen Projekten zu übernehmen und sie so aufzubereiten, dass eine dauerhafte Archivierung und Bereitstellung überhaupt möglich wird. Dieser Leitfaden basiert auf Erfahrungen, die hinsichtlich dieser Aufgabe an zwei Standorten – dem Sonderforschungsbereich 538 ‚Mehrsprachigkeit’ bzw. dem Zentrum für Sprachkorpora (HZSK) an der Universität Hamburg, sowie dem Archiv für gesprochenes Deutsch (AGD) am Institut für Deutsche Sprache in Mannheim – gesammelt wurden.1 Am SFB 538 (Laufzeit: 1999-2011) hatte das Projekt Z2 „Computergestützte Erfassungs- und Analysemethoden“ die Aufgabe übernommen, Korpora aus den Teilprojekten des SFB nach deren Abschluss für eine Archivierung und Nachnutzung vorzubereiten (siehe dazu Schmidt/Bennöhr 2007). Die Archivierung und Bereitstellung der Daten im Gesamtumfang von 30 Korpora erfolgt nun im zum Abschluss des SFB (2011) gegründeten HZSK (Hedeland/Lehmber /Schmidt/Wörner 2011). Das Archiv für Gesprochenes Deutsch bzw. dessen Vorläufer, das Deutsche Spracharchiv (Stift/Schmidt 2014), fungiert bereits seit den 1960er Jahren als eine zentrale Sammelstelle für Korpora des gesprochenen Deutsch. Im Laufe der Jahre hat es aus IDS-internen und -externen Projekten knapp 50 Korpora übernommen, die verschiedene Stadien der Aufbereitung erfahren haben und der wissenschaftlichen Gemeinschaft nun u.a. über die Datenbank für Gesprochenes Deutsch (DGD2, Schmidt/Dickgießer/Gasch 2013) zur Verfügung gestellt werden. Das derzeitige Angebot dieser beiden Einrichtungen zeigt, dass es prinzipiell möglich ist, von den im einleitenden Zitat beschriebenen Sammlungen zu dauerhaft nachnutzbaren digitalen 1 Die Konzeption dieses Leitfadens war Gegenstand eines Arbeitspakets im Projekt „Etablierung eines Schwerpunkts ‚Mehrsprachigkeit und Gesprochene Sprache‘ am Hamburger Zentrum für Sprachkorpora“, das von der Deutschen Forschungsgemeinschaft im Rahmen des Förderprogramms „Literaturversorgungs- und Informationssysteme (LIS)“ gefördert wurde. An der Umsetzung haben sich die genannten MitarbeiterInnen des HZSK und des AGD beteiligt.4 Ressourcen zu gelangen. Die Erfahrung zeigt aber auch, dass dies oft ein langwieriger Prozess mit vielen unvorhergesehenen Hindernissen ist, an dessen Ende man sich zumindest gelegentlich die Frage stellen kann, ob Aufwand und Nutzen der Datenaufbereitung in einem angemessenen Verhältnis zueinander stehen. Zweck dieses Leitfadens ist es, Kriterien für die Beurteilung von Aufbereitungsaufwand und Nachnutzbarkeit von Korpora gesprochener Sprache zu definieren, mittels derer bereits bei der Planung eines entsprechenden Projektes eine Abschätzung der Kosten und Nutzen getroffen werden kann. Kosten bezeichnen in diesem Kontext insbesondere den zeitlichen Arbeitsaufwand, der sich nicht immer leicht in monetäre Kosten umrechnen lässt. Die Nachnutzbarkeit definiert sich vor allem darüber, wie offen oder restriktiv der Zugang zum Korpus gestaltet wird und über die Quantität und Qualität der Korpusbestandteile. Der Leitfaden gliedert sich in sechs Abschnitte, die in Form von strukturierten Fragebäumen die wichtigsten Eigenschaften einer aufzubereitenden Ressource abfragen. Den Fragebäumen sind Erläuterungen zum besseren Verständnis der einzelnen Fragen vorangestellt. Die Pfade in den Fragebäumen führen jeweils zu einem "Ampelsymbol", anhand dessen über das weitere Vorgehen bei der Aufbereitung entschieden werden kann

    Unterstützung von Joi als Programmierstil mit Annotationen und Checkstyle

    Get PDF
    Die vorliegende Arbeit untersucht, wie Tools für die Überprüfung von Quell-Code auf Konformität mit Programmierstilen, die komplexere Entwurfsmuster beinhalten, als Erweiterung des statischen CodeAnalyse-Tools Checkstyle realisiert werden können. Als Beispiel wird der Joi Programmierstil verwendet, der für diese Arbeit aus der Java Spracherweiterung Joi (Java Objects by Interfaces), die die Einhaltung einiger Entwurfsmuster, die auf die Reduzierung von Code-Abhängigkeiten zielen, unterstützt, abgeleitet wurde

    Linguistische Informationsmodellierung mit XML

    Get PDF

    Semi-Weakly Supervised Learning for Label-efficient Semantic Segmentation in Expert-driven Domains

    Get PDF
    Unter Zuhilfenahme von Deep Learning haben semantische Segmentierungssysteme beeindruckende Ergebnisse erzielt, allerdings auf der Grundlage von überwachtem Lernen, das durch die Verfügbarkeit kostspieliger, pixelweise annotierter Bilder limitiert ist. Bei der Untersuchung der Performance dieser Segmentierungssysteme in Kontexten, in denen kaum Annotationen vorhanden sind, bleiben sie hinter den hohen Erwartungen, die durch die Performance in annotationsreichen Szenarien geschürt werden, zurück. Dieses Dilemma wiegt besonders schwer, wenn die Annotationen von lange geschultem Personal, z.B. Medizinern, Prozessexperten oder Wissenschaftlern, erstellt werden müssen. Um gut funktionierende Segmentierungsmodelle in diese annotationsarmen, Experten-angetriebenen Domänen zu bringen, sind neue Lösungen nötig. Zu diesem Zweck untersuchen wir zunächst, wie schlecht aktuelle Segmentierungsmodelle mit extrem annotationsarmen Szenarien in Experten-angetriebenen Bildgebungsdomänen zurechtkommen. Daran schließt sich direkt die Frage an, ob die kostspielige pixelweise Annotation, mit der Segmentierungsmodelle in der Regel trainiert werden, gänzlich umgangen werden kann, oder ob sie umgekehrt ein Kosten-effektiver Anstoß sein kann, um die Segmentierung in Gang zu bringen, wenn sie sparsam eingestetzt wird. Danach gehen wir auf die Frage ein, ob verschiedene Arten von Annotationen, schwache- und pixelweise Annotationen mit unterschiedlich hohen Kosten, gemeinsam genutzt werden können, um den Annotationsprozess flexibler zu gestalten. Experten-angetriebene Domänen haben oft nicht nur einen Annotationsmangel, sondern auch völlig andere Bildeigenschaften, beispielsweise volumetrische Bild-Daten. Der Übergang von der 2D- zur 3D-semantischen Segmentierung führt zu voxelweisen Annotationsprozessen, was den nötigen Zeitaufwand für die Annotierung mit der zusätzlichen Dimension multipliziert. Um zu einer handlicheren Annotation zu gelangen, untersuchen wir Trainingsstrategien für Segmentierungsmodelle, die nur preiswertere, partielle Annotationen oder rohe, nicht annotierte Volumina benötigen. Dieser Wechsel in der Art der Überwachung im Training macht die Anwendung der Volumensegmentierung in Experten-angetriebenen Domänen realistischer, da die Annotationskosten drastisch gesenkt werden und die Annotatoren von Volumina-Annotationen befreit werden, welche naturgemäß auch eine Menge visuell redundanter Regionen enthalten würden. Schließlich stellen wir die Frage, ob es möglich ist, die Annotations-Experten von der strikten Anforderung zu befreien, einen einzigen, spezifischen Annotationstyp liefern zu müssen, und eine Trainingsstrategie zu entwickeln, die mit einer breiten Vielfalt semantischer Information funktioniert. Eine solche Methode wurde hierzu entwickelt und in unserer umfangreichen experimentellen Evaluierung kommen interessante Eigenschaften verschiedener Annotationstypen-Mixe in Bezug auf deren Segmentierungsperformance ans Licht. Unsere Untersuchungen führten zu neuen Forschungsrichtungen in der semi-weakly überwachten Segmentierung, zu neuartigen, annotationseffizienteren Methoden und Trainingsstrategien sowie zu experimentellen Erkenntnissen, zur Verbesserung von Annotationsprozessen, indem diese annotationseffizient, expertenzentriert und flexibel gestaltet werden

    Entwicklung automatischer Installationsroutinen für Services auf Basis von JavaEE

    Get PDF
    Die Diplomarbeit “Entwicklung von automatischen Installationsroutinen von Services auf Basis von JavaEE” beschreibt den Entwurf und die Entwicklung eines Prototypen, um Services automatisiert auf einem JavaEE- Applikationsserver zu installieren. Zu Beginn werden die Konzepte eines JavaEE-Applikationsservers und der manuelle Installationsvorgang von Services auf diesem erläutert, die bei dem Installationsvorgang auftretenden Probleme dargelegt und analysiert. Im Anschluss daran werden mehrere verfügbare Produkte und eine Eigenentwicklung gegenübergestellt und bewertet. Abschließend werden Problemlösungen für den Installationsprozess erläutert sowie die Implementierung eines Prototypen beschrieben.The diploma thesis "Development of automatic installation routines for services based on JavaEE” describes the design and development of a prototype to automate the deployment process of services on a JavaEE application server. The first part of the thesis explains the concepts of a JavaEE application server and the deployment of services, followed by an analysis of the main problems regarding the manual deployment of services. Subsequently, several available products and one self developed software are compared and evaluated. The final part describes the solutions for the deployment problems and the implementation of a prototype

    Videos in der Lehre durch Annotationen reflektieren und aktiv diskutieren

    Full text link
    Der vorliegende Artikel beleuchtet die Chancen der Online-Videoannotation für die Lehre. Nach einer Diskussion didaktischer und technischer Aspekte werden drei Lehrveranstaltungskonzepte vorgestellt, die an der Leibniz Universität Hannover im Studiengang „Landschaftsarchitektur und Umweltplanung“ realisiert wurden. Eine Tabelle fasst zentrale Fragen und Dimensionen zum Einsatz von Videos bzw. Online-Videoannotation in der Lehre zusammen und gibt Hinweise für die eigene Gestaltung entsprechender Lehrveranstaltungskonzepte. Grundsätzlich wird resümiert, dass Online-Videoannotationen einen hohen Nutzen für die Lehre haben. (DIPF/Orig.

    Studying collaboration and annotation as factors in achieving trust in electronic documents

    Get PDF
    This report presents two master student graduation studies on trust and collaboration when searching for information on the Internet. The studies were done as part of the SLIM project with Swedish Law and Informatics Research Institute, Faculty of Law, Stockholm University, financed by The Bank of Sweden Tercentenary Foundation (Stiftelsen Riksbankens Jubileumsfond)
    corecore