Handwritten Text Recognition and text reuse for digital editions using the example of two 17th century alchemical texts

Abstract

Handschriftliche Quellen sind zentrale Zeugnisse für die Wissens- und Kulturgeschichte und unverzichtbar für die historischen Wissenschaften. Ihre digitale Erschließung durch Technologien wie die Handwritten Text Recognition (HTR) ermöglicht nicht nur nachhaltige Archivierung, sondern auch neue Forschungsansätze. Diese Arbeit widmet sich zwei Werken aus dem Bereich der Mythoalchemie des Alchemisten Michael Maier (1568/9–1622). Im Zentrum stehen das Manuskript „De Theosophia Aegyptiorum“ (= Theosophia) und das Druckwerk „Arcana Arcanissima“ (= Arcana). Zur Erschließung des Manuskripts wurde mit der Plattform Transkribus ein spezialisiertes HTR-Modell für Maiers Handschrift trainiert, mit dessen Hilfe ein vollständiges Transkript erstellt wurde. Die dabei gewonnenen Best Practices für das Modelltraining wurden mit Erkenntnissen aus der Forschungsliteratur verglichen. Das Transkript wurde als digitale Edition gemäß der Richtlinien der Text Encoding Initiative (TEI) kodiert, um die strukturellen und semantischen Besonderheiten des Originals digital verfügbar zu machen. Zudem wurde mittels Text-Reuse-Detection (eine Methode des digitalen Textvergleichs) der Zusammenhang zwischen der Theosophia und den Arcana auf wortwörtlicher Ebene untersucht. Hierzu kamen die Python-Pakete text-matcher sowie CollateX zum Einsatz. Die Ergebnisse zeigen wörtliche Überschneidungen zwischen den Werken, deren Umfang jedoch begrenzt bleibt. Diese Erkenntnis ist erstaunlich, da die Theosophia als weit fortgeschrittener Entwurf der Arcana gilt und inhaltlich offensichtliche Parallelen bestehen. Gleichzeitig stellen die Ergebnisse die Forschung vor neue Fragen, zum Beispiel wie intertextuelle Zusammenhänge in frühneuzeitlichen Texten quantifiziert werden können, wenn es sich nicht um wörtliche Übereinstimmungen handelt. Diese Arbeit liefert mit der ersten digitalen Edition der Theosophia in XML-TEI und dem spezialisierten HTR-Modell eine Grundlage für die weitere Erschließung historischer Handschriften Maiers. Des Weiteren bietet sie methodische Impulse für die halbautomatisierte Transkription und Analyse frühneuzeitlicher Manuskriptentwürfe und intertextuell mit diesen in Verbindung stehenden Druckwerken sowie neue Ansätze zur Erforschung der Mythoalchemie in den Digitalen Geisteswissenschaften.Handwritten sources are central testimonies for the history of science and knowledge and thus indispensable historical records. Making them computer-processable by using technologies such as Handwritten Text Recognition (HTR) not only enables sustainable archiving, but also new research approaches. This thesis is dedicated to two works from the field of mythoalchemy by the early modern alchemist Michael Maier (1568/9-1622). At the centre are the manuscript ‘De Theosophia Aegyptiorum’ (= Theosophia) and the print work ‘Arcana Arcanissima’ (= Arcana). To make the manuscript accessible, a specialised HTR-model for Maier's hand was trained using the Transkribus platform, with the help of which a complete transcript was created. The resulting best practices for model training were compared with findings from the research literature. Furthermore, the transcript was encoded as a digital edition in accordance with the guidelines of the Text Encoding Initiative (TEI) in order to make the structural and semantic features of the original digitally available. In addition, the connection between the Theosophia and Arcana was analysed on a literal level using text reuse detection (a method for digital text comparison). The Python packages text-matcher and CollateX were used for this purpose. The results identify textual overlaps between the works on the word-level, although their scope is less than what one might expect given that the Theosophia is thought to be a late draft of the Arcana. At the same time, the results raise new research questions, such as how intertextual relationships between early modern texts can be quantified when they do not constitute literal matches. With the first digital edition of the Theosophia in XML-TEI and the HTR-model specialised on Maier’s hand, this thesis provides a basis for the further digitalisation of Maier's manuscripts. Furthermore, it offers methodological impulses for semi-automated transcription and analysis of the relationship between early modern handwritten drafts and print works related to them, as well as new approaches to researching mythoalchemy in the Digital Humanities.Automatisch erstellte Titelanzeige – Daten nicht geprüftMasterarbeit Universität Graz 202

Similar works

Full text

thumbnail-image

uni≡pub (Univ. Graz)

redirect
Last time updated on 17/04/2025

This paper was published in uni≡pub (Univ. Graz).

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.