15 research outputs found

    Automatische, Deskriptor-basierte Unterstützung der Dokumentanalyse zur Fokussierung und Klassifizierung von Geschäftsbriefen

    Get PDF
    Die vorliegende Arbeit wurde im Rahmen des ALV-Projekts (Automatisches Lesen und Verstehen) am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) erstellt. Ziel des ALV-Projektes ist die Entwicklung einer intelligenten Schnittstelle zwischen Papier und Rechner (paper-computer interface). Hierbei soll durch Nachahmung des menschlichen Leseverhaltens ein Schritt in Richtung papierloses Büro ausgeführt werden. Exemplarisch werden in ALV Geschäftsbriefe als Domäne untersucht. Teilgebiete innerhalb des ALV-Projekts sind Layoutextraktion, Logical Labeling, Texterkennung und Textanalyse. Diese Arbeit fällt in den Bereich der Textanalyse. Die Aufgabenstellung bestand darin, mittels der vorkommenden Wörter (im Brieftext) die Art des Briefes sowie erste Hinweise über die Intention des Briefautors zu ermitteln. Derartige Informationen können von anderen Experten zur weiteren Verarbeitung, Verteilung und Archivierung der Briefe genutzt werden. Das innerhalb einer Diplomarbeit entwickelte und implementierte INFOCLAS-System versucht deshalb auf der Basis statistischer Verfahren und Methodiken aus dem Information Retrieval folgende Funktionalität bereitzustellen: i) Extrahierung und Gewichtung von bedeutungstragenden Wörtern; ii) Ermittelung der Kernaussage (Fokus) eines Geschäftsbriefs; iii) Klassifizierung eines Geschäftsbriefs in vordefinierte Nachrichtentypen. Die dafür entwickelten Module Indexierer, Fokussierer und Klassifizierer benutzen -- neben Konzepten aus dem Information Retrieval -- eine Datenbasis, die eine Sammlung von Geschäftsbriefen enthält, sowie spezifische Wortlisten, die die modellierten Briefklassen repräsentieren. Als weiteres Hilfsmittel dient ein morphologisches Werkzeug zur grammatikalischen Analyse der Wörter. Mit diesen Wissensquellen werden Hypothesen über die Briefklasse und die Kernaussage des Briefinhalts aufgestellt.In this documentation existing techniques of information retrieval (IR) are compared and evaluated for their application in document analysis and understanding. Moreover, we have developed a system called INFOCLAS which uses appropriate statistical methods of IR, primarily for the classification of German business letters into corresponding message types such as order, offer, confirmation, inquiry, and advertisement. INFOCLAS is a first step towards understanding of business letters. Actually, it comprises three modules: the central indexer (extraction and weighting of indexing terms), the classifier (classification of business letters into given types) and the focusser (highlighting relevant parts of the letter). INFOCLAS integrates several knowledge sources including a database of about 120 letters, word frequency statistics for German, message type specific words, morphological knowledge as well as the underlying document model (layout and logical structure). As output, the system computes a set of weighted hypotheses about the type of letter at hand. A classification of documents allows the automatic distribution or archiving of letters and is also an excellent starting point for higher-level document analysis

    Integration von Subsystemen in einem Active Data Warehouse

    Get PDF

    Freestyle Markup Language: Spezifikation einer polyhierarchischen Auszeichnungssprache

    Get PDF
    This paper provides a new generation of a markup language by introducing the Freestyle Markup Language (FML). Demands placed on the language are elaborated, a grammatical definition and a corresponding object graph are presented and a reference implementation is introduced. The result of this paper is a complete specification of FML. Today, the Extensible Markup Language (XML) is broadly accepted as a standardized serialization format and universal transfer syntax. XML allows the markup of content according to the well-formedness constraints ('properly nested') only in strict mono-hierarchical structures markup in non-hierarchical or multi-hierarchical structures is not inherently provided in the language: This deficit is sufficiently commented and represents a problem for many application scenarios. Moreover, further restrictions exist that complicate an unlimited use of XML in practice and prohibit an intuitive 'freestyle' markup. The fact that markup languages are not only used in the original sense in the typographic field but mostly and increasingly for any data structures confirms the necessity to further develop present markup standards, in analogy to the evolution of data structures from lists via table relations and trees up to graphs. The descriptive markup language FML consolidates deficit discourses, discussions as well as solution approaches and will offer a 'freestyle markup' beyond purely hierarchical structures

    CTX - ein Verfahren zur computergestützten Texterschließung

    Get PDF
    Zusammen mit Edith Kroupa und Gerald Keil hat Zimmermann diesen Forschungsbericht für das BMFT, in dessen Mittelpunkt die Entwicklung des computergestützten Texterschließungssystems CTX steht, herausgegeben. Es wird zunächst ausführlich auf Methoden und Probleme des Information Retrieval eingegangen. Es folgt eine detaillierte Beschreibung der Grundlagen, Funktionen und Aufgaben von CTX. Der anwendungsbezogene Teil stellt eine Laboranwendung im Bereich "Datenschutz" mit Schwerpunkten auf den Themen Textsorte, Wörterbucharbeit und Deskriptorermittlung sowie einem Vergleich mit dem System PASSAT vor

    Wissenschaftlich-Technischer Jahresbericht 1993

    Get PDF

    Wissenschaftlich-Technischer Jahresbericht 1993

    Get PDF

    Wissenschaftlich-technischer Jahresbericht 1991

    Get PDF

    Wissenschaftlich-technischer Jahresbericht 1991

    Get PDF

    Wissenschaftlich-Technischer Jahresbericht 1992

    Get PDF

    CTX - ein Verfahren zur computergestützten Texterschließung

    Get PDF
    Zusammen mit Edith Kroupa und Gerald Keil hat Zimmermann diesen Forschungsbericht für das BMFT, in dessen Mittelpunkt die Entwicklung des computergestützten Texterschließungssystems CTX steht, herausgegeben. Es wird zunächst ausführlich auf Methoden und Probleme des Information Retrieval eingegangen. Es folgt eine detaillierte Beschreibung der Grundlagen, Funktionen und Aufgaben von CTX. Der anwendungsbezogene Teil stellt eine Laboranwendung im Bereich "Datenschutz" mit Schwerpunkten auf den Themen Textsorte, Wörterbucharbeit und Deskriptorermittlung sowie einem Vergleich mit dem System PASSAT vor
    corecore