71 research outputs found

    Projekt OCR-BW: Automatische Texterkennung von Handschriften

    Get PDF
    Nach der Digitalisierung von historischen Dokumenten ist der nächste konsequente Schritt die Anreicherung der Digitalisate im Präsentationssystem mit einem durchsuchbaren Volltext, um die Zugänglichkeit zu den Texten weiter zu erhöhen und neue Forschungsfragen an das Material zu ermöglichen. Während in vielen Bibliotheken bereits verschiedene Möglichkeiten zur automatischen Texterkennung von Druckwerken genutzt werden, ist die Zurückhaltung bei Handschriften vielfach höher, da handschriftliche Quellen die automatische Texterkennung vor neue Herausforderungen stellen. Mithilfe von Machine Learning wurden auf dem Feld der automatischen Handschriftenerkennung in den letzten Jahren jedoch große Fortschritte gemacht, die von Bibliotheken genutzt werden können, um ihre eigenen Bestände weiter zu erschließen, aber auch, um sich als Servicepartnerin für die Wissenschaft zu etablieren. Im Rahmen des Projekts OCR-BW (https://ocr-bw.bib.uni-mannheim.de/) werden seit 2019 Transkribus und seit 2021 auch eScriptorium für die Erzeugung von automatischen Volltexten für Handschriften systematisch an ausgewählten Korpora getestet. Die im bisherigen Projektverlauf erzielten Ergebnisse sind sehr positiv und zeigen, dass eine automatische Handschriftenerkennung mit einer Zeichenfehlerrate von unter 5 % möglich und erwartbar ist. Bereits veröffentlichte Volltexte haben die Sichtbarkeit und das Forschungsinteresse an diesen Materialien deutlich erhöht. Das Projekt zielt außerdem darauf ab, die Wissenschaft bei der Vorbereitung und Durchführung von Forschungsvorhaben zu unterstützen. An Beispielen vom mittelalterlichen Gebetbuch über Großbestände wie Juristische Konsilien bis hin zum Expeditionstagebuch des 20. Jahrhunderts soll gezeigt werden, mit welchem Ressourcenaufwand welche Ergebnisse erzielt werden können.After the digitization of historical documents, the next logical step is to enrich the digitized material with a searchable full text to further increase the accessibility of the texts and to enable new research questions. While many libraries already use various options for automatic text recognition of printed material, there is much higher reluctance to do so when it comes to manuscripts, since handwritten sources pose new challenges for automatic text recognition. With the help of machine learning, however, great progress has been made in the field of automatic handwritten text recognition in recent years, which libraries can not only use to make their own holdings more accessible, but also to establish themselves as a service partner for science. As part of the OCR-BW project (https://ocr-bw.bib.uni-mannheim.de/), since 2019 the transcription platforms Transkribus and, from 2021, eScriptorium have been systematically tested on selected corpora to generate automatic full texts for manuscripts. The results achieved during the project so far are very positive and show that automatic handwritten text recognition with a character error rate of less than 5 % is possible and can be expected. Full texts that have already been published have significantly increased the visibility and research interest in these materials. The project also aims to support science in the preparation and implementation of research projects. Examples ranging from medieval prayer books to large collections such as legal councils to expedition diaries of the 20th century will be used to show which results can be achieved with which resources.

    Frühneuzeitliche Briefe als Herausforderung automatisierter Handschriftenerkennung: Ein Transkribus-Projektbericht

    Get PDF
    Bericht über die Anwendung der HTR-Software Transkribus auf Briefe einer Schreiberin des frühen 18. Jahrhunderts

    Modellierung und Erkennung dreidimensionaler Handschrift mittels Inertialsensorik

    Get PDF
    In dieser Dissertation wird mit Airwriting eine Technologie präsentiert, die eine freihändige, jederzeit verfügbare und leicht erlernbare Texteingabe für Wearable Computing Systeme durch Schreiben in der Luft erlaubt. Die Bewegungserfassung erfolgt mittels am Körper getragener Inertialsensoren. Zusätzlich wird auch die inertialsensorbasierte Erkennung traditioneller, mit einem Stift geschriebener, Schrift behandelt und die gestenbasierte Texteingabe mit einer Gestensteuerung kombiniert

    Linguistische Untersuchung zur Ökonomisierung des Schreibvorganges am Computer

    Get PDF
    Der Mensch – ein Wesen, das denkt und spricht – schreibt vieles auf, damit es nicht vergessen wird und anderen Menschen, welche in räumlicher und zeitlicher Distanz zum Schreiber leben, zur Verfügung steht. Zur Beschleu-nigung des Schreibvorganges wurden Stenografiesysteme entwickelt, ebenso spezielle Geräte und Eingabehilfen. Auch die Spracherkennung ist eine Methode zur Verschriftlichung. Die vorliegende Untersuchung stellt Parameter auf, wie unter Nutzung einer handelsüblichen PC-Tastatur und einer noch zu programmierenden Software der Schreibvorgang beschleunigt werden könnte. Es besteht heute ein großer Bedarf nach rascher und un¬mittelbarer Verschriftlichung, wie das Untertiteln von Reden und die An¬wendung für schwerhörige oder gehörlose Menschen zeigen

    Trustworthiness of guest reviews : an comprehensive analysis based on selected online customer review websites

    Get PDF
    Immer mehr Personen machen den Kauf eines Produktes von den Meinungen und Bewertungen anderer Nutzer abhängig. Der Einfluss von Kundenrezensionen auf potentielle Käufer ist so groß, dass Kundenrezensionen als wichtigste Währung im Online-Handel angesehen werden. Für den Kaufinteressenten liefern Kundenrezensionen Orientierung und Transparenz. Für Anbieter sind sie der Hebel zu neuen Kunden. Dies hat dazu geführt, dass Kundenrezensionen durch diverse Maßnahmen gezielt beeinflusst oder manipuliert werden. In der vorliegenden Bachelorarbeit wird die Fragestellung „Wie zuverlässig sind Kundenrezensionen auf Bewertungsportalen und inwieweit können Portalbetreiber Maßnahmen zur Steigerung der Zuverlässigkeit ergreifen?“ beantwortet. Mittels einer Literaturrecherche werden zunächst Erkenntnisse zur Relevanz, Glaub- und Vertrauenswürdigkeit von Kundenrezensionen sowie Motive, warum diese gelesen werden, ermittelt. Die Zuverlässigkeit von Kundenrezensionen wird durch die Ergründung der Methoden zur Beeinflussung und Manipulation von Kundenrezensionen untersucht und bestimmt. Berücksichtigt werden die Ergebnisse aus fünf durchgeführten Untersuchungen. Dafür wurden Portalbetreiber interviewt und Analysen von Bewertungsportalen durchgeführt. Weiterhin werden die Gegenmaßnahmen zur Erkennung und Abwehr fingierter Kundenrezensionen in Bewertungsportalen ermittelt und deren Effektivität überprüft. Ergänzend werden die Vorgaben zum Veröffentlichen von Kundenrezensionen und das Angebot am Markt ermittelt sowie die Nachfrage nach fingierten Kundenrezensionen analysiert. Abschließend wird der Einfluss von Kundenrezensionen, die im Rahmen eines Produkttests entstanden sind, überprüft. In der vorliegenden Bachelorarbeit konnte nachgewiesen werden, dass Kundenrezensionen nicht in vollem Umfang als zuverlässig angesehen werden können, obwohl zahlreiche Möglichkeiten zur Steigerung der Zuverlässigkeit existieren, welche als Handlungsempfehlungen für Portalbetreiber vorgestellt werden. Es besteht dringender Handlungsbedarf zur Steigerung der Zuverlässigkeit von Kundenrezensionen, um einen Glaubwürdigkeits- und Vertrauensverlust in Kundenrezensionen zu verhindern

    Die Rolle von Schreibpausen bei der Prozessanalyse reproduktiver Schreibaufgaben

    Get PDF
    [no abstract

    Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten

    Get PDF
    Das noch recht junge Forschungsgebiet "Text Mining" umfaßt eine Verbindung von Verfahren der Sprachverarbeitung mit Datenbank- und Informationssystemtechnologien. Es entstand aus der Beobachtung, dass ca. 85% aller Datenbankinhalte nur in unstrukturierter Form vorliegen, so dass sich die Techniken des klassischen Data Mining zur Wissensgewinnung nicht anwenden lassen. Beispiele für solche Daten sind Volltextdatenbanken mit Büchern, Unternehmenswebseiten, Archive mit Zeitungsartikeln oder wissenschaftlichen Publikationen, aber auch Ströme kontinuierlich auflaufender Emails oder Meldungen von Nachrichtenagenturen (Newswires). Im Gegensatz zum Information Retrieval geht es beim Text Mining nicht darum, lediglich Dokumente anhand von Anfragen aufzufinden, sondern aus einem einzelnen oder einem Satz von Dokumenten neues Wissen zu gewinnen, etwa durch automatische Textzusammenfassungen, die Erkennung und Verfolgung benannter Objekte oder die Aufdeckung neuer Trends in Forschung und Industrie. Durch die ständig wachsende Zahl elektronisch verfügbarer Texte werden automatisch arbeitende Verfahren zur Bewältigung der Informationsflut immer dringender, was Text Mining zu einem sehr aktiven und auch kommerziell interessanten Forschungsgebiet macht. Der vorliegende Bericht enthält eine Auswahl von Themen, die von Studierenden der Universität Karlsruhe im Rahmen eines Hauptseminars am IPD im Wintersemester 2004/2005 erarbeitet wurden. Sie reichen von den Grundlagen der Computerlinguistik über einzelne Algorithmen zur Sprachverarbeitung bis hin zu konkreten Anwendungen im Text Mining. Zahlreiche Literaturreferenzen zu jedem Kapitel sollen dem Leser eine weitergehende Studie der einzelnen Themen ermöglichen
    corecore