research

Entwurf einer Patternbeschreibungssprache für die Informationsextraktion in der Dokumentanalyse

Abstract

Dokumentanalyse befaßt sich mit der Extraktion von relevanten Informationen aus Dokumenten, die in Papierform vorliegen. Um die gewünschten Informationen in einem Text zu finden, können verschiedene Techniken angewendet werden. Sie reichen von einfachen Suchverfahren hin zum Versuch des vollständigen Parsens eines Textes. Häufig stammen diese Techniken aus dem Bereich der NLP, wo sie zur Verarbeitung von elektronischen Texten eingesetzt werden. Unabhängig von der eingesetzten Technik benötigt man jedoch immer eine Sprache, mit der die Syntax und die Semantik der gesuchten Informationen beschrieben werden können. In diesem Dokument wird eine solche Sprache vorgestellt, die insbesondere den Erfordernissen der Dokumentanalyse Rechnung trägt, aber allerdings auch für die Verarbeitung elektronischer Texte genutzt werden kann. Derzeit wird die Sprache zur Informationsextraktion in und zur Klassifikation von deutschen Geschäftsbriefen eingesetzt

    Similar works