    Using IR techniques for text classification in document analysis

    This paper presents the INFOCLAS system applying statistical methods of information retrieval for the classification of German business letters into corresponding message types such as order, offer, enclosure, etc. INFOCLAS is a first step towards the understanding of documents proceeding to a classification-driven extraction of information. The system is composed of two main modules: the central indexer (extraction and weighting of indexing terms) and the classifier (classification of business letters into given types). The system employs several knowledge sources including a letter database, word frequency statistics for German, lists of message type specific words, morphological knowledge as well as the underlying document structure. As output, the system evaluates a set of weighted hypotheses about the type of the actual letter. Classification of documents allow the automatic distribution or archiving of letters and is also an excellent starting point for higher-level document analysis

    ODA-based modeling for document analysis

    This article proposes the document model of a hybrid knowledge-based document analysis system for business letters. The model combines requirements of object-oriented representation of both, documents as well as knowledge necessary for analysis tasks, and is based on the ODA platform. Model-driven document analysis increases the flexibility of a system because several analysis specialists can be used in co-operation to assist each other and to improve the results of analysis. The inherent modularity of the system allows for a reuse of knowledge sources and integral constituents of the architecture in other document classes such as forms or cheques

    Automatische, Deskriptor-basierte Unterstützung der Dokumentanalyse zur Fokussierung und Klassifizierung von Geschäftsbriefen

    Die vorliegende Arbeit wurde im Rahmen des ALV-Projekts (Automatisches Lesen und Verstehen) am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) erstellt. Ziel des ALV-Projektes ist die Entwicklung einer intelligenten Schnittstelle zwischen Papier und Rechner (paper-computer interface). Hierbei soll durch Nachahmung des menschlichen Leseverhaltens ein Schritt in Richtung papierloses Büro ausgeführt werden. Exemplarisch werden in ALV Geschäftsbriefe als Domäne untersucht. Teilgebiete innerhalb des ALV-Projekts sind Layoutextraktion, Logical Labeling, Texterkennung und Textanalyse. Diese Arbeit fällt in den Bereich der Textanalyse. Die Aufgabenstellung bestand darin, mittels der vorkommenden Wörter (im Brieftext) die Art des Briefes sowie erste Hinweise über die Intention des Briefautors zu ermitteln. Derartige Informationen können von anderen Experten zur weiteren Verarbeitung, Verteilung und Archivierung der Briefe genutzt werden. Das innerhalb einer Diplomarbeit entwickelte und implementierte INFOCLAS-System versucht deshalb auf der Basis statistischer Verfahren und Methodiken aus dem Information Retrieval folgende Funktionalität bereitzustellen: i) Extrahierung und Gewichtung von bedeutungstragenden Wörtern; ii) Ermittelung der Kernaussage (Fokus) eines Geschäftsbriefs; iii) Klassifizierung eines Geschäftsbriefs in vordefinierte Nachrichtentypen. Die dafür entwickelten Module Indexierer, Fokussierer und Klassifizierer benutzen -- neben Konzepten aus dem Information Retrieval -- eine Datenbasis, die eine Sammlung von Geschäftsbriefen enthält, sowie spezifische Wortlisten, die die modellierten Briefklassen repräsentieren. Als weiteres Hilfsmittel dient ein morphologisches Werkzeug zur grammatikalischen Analyse der Wörter. Mit diesen Wissensquellen werden Hypothesen über die Briefklasse und die Kernaussage des Briefinhalts aufgestellt.In this documentation existing techniques of information retrieval (IR) are compared and evaluated for their application in document analysis and understanding. Moreover, we have developed a system called INFOCLAS which uses appropriate statistical methods of IR, primarily for the classification of German business letters into corresponding message types such as order, offer, confirmation, inquiry, and advertisement. INFOCLAS is a first step towards understanding of business letters. Actually, it comprises three modules: the central indexer (extraction and weighting of indexing terms), the classifier (classification of business letters into given types) and the focusser (highlighting relevant parts of the letter). INFOCLAS integrates several knowledge sources including a database of about 120 letters, word frequency statistics for German, message type specific words, morphological knowledge as well as the underlying document model (layout and logical structure). As output, the system computes a set of weighted hypotheses about the type of letter at hand. A classification of documents allows the automatic distribution or archiving of letters and is also an excellent starting point for higher-level document analysis

    Ein Generator mit Anfragesystem für strukturierte Wörterbücher zur Unterstützung von Texterkennung und Textanalyse

    Die vorliegende Arbeit befaßt sich mit der Konzeption eines strukturierten Lexikons, welches den Zugriff auf Wörter und deren Information auf zwei grundsätzlich verschiedene Weisen erlaubt. Zum einen erfolgt der Zugriff über ein 3-faches Hashing, das in Abhängigkeit vom Grad der Erkennung der einzelnen Zeichen automatisch eine der drei verfügbaren Hashfunktionen wählt. Dabei kann der Benutzer zusätzliches Wissen in Form sogenannter Sichten zur Beschleunigung der Anfrage bzw. zur Einschränkung der zurückgelieferten Wortmenge einfließen lassen. Zum anderen ist die Benennung einer Sicht möglich. Diese Art des Zugriffs liefert alle Einträge zurück, die unter dem entsprechenden Sichtnamen zusammengefaßt worden sind. Die Realisierung solcher Sichten ist ein wesentlicher Bestandteil des Systems, da das somit implizierte Wissen von den Benutzern auf vielfältige Art genutzt werden kann: einerseits kann die Mitgliedschaft eines Eintrages zu einer Sicht in Erfahrung gebracht werden, andererseits hat man die Möglichkeit, Sichten und deren logische Verknüpfung zur direkten Abfrage bzw. zur Einschränkung des Suchraumes zu verwenden. Zum Aufbau der dafür benötigten komplexen Struktur des virtuell partitionierten Lexikons wird eine aufwendige Generierungsphase notwendig. Die vorliegende Arbeit beschreibt das zugrundegelegte Konzept und seine Vorteile gegenüber anderen Lösungsansätzen sowie den benötigten Generator und ein Laufzeitsystem, das umfangreiche Zugriffe auf dem virtuell partitionierten Lexikon erlaubt

    Document highlighting - message classification in printed business letters

    This paper presents the INFOCLAS system applying statistical methods of information retrieval primarily for the classification of German business letters into corresponding message types such as order, offer, confirmation, etc. INFOCLAS is a first step towards understanding of documents. Actually, it is composed of three modules: the central indexer (extraction and weighting of indexing terms), the classifier (classification of business letters into given types) and the focuser (highlighting relevant letter parts). The system employs several knowledge sources including a database of about 100 letters, word frequency statistics for German, message type specific words, morphological knowledge as well as the underlying document model. As output, the system evaluates a set of weighted hypotheses about the type of letter at hand, or highlights relevant text (text focus), respectively. Classification of documents allows the automatic distribution or archiving of letters and is also an excellent starting point for higher-level document analysis

    Designing a structured lexicon for document image analysis

    This paper presents a structured, multi-level architecture of a lexicon which is a central component of our knowledge-based document analysis system. Our system has the task to transform incoming business letters into an equivalent electronic representation automatically. Moreover, partial text analysis and understanding of a letter\u27s body and relevant parts are initiated to enrich the conceptual knowledge about the actual document (e.g., by a classification). In such an application domain, a well-designed lexicon has to consider requirements of both, text recognition and text analysis. For that purpose, we propose an appropriate lexicon architecture and the internal structure of corresponding lexical entries being a prerequisite for successful higher-level interpretations of documents

    Eine Übersicht über Information Retrieval (IR) und NLP-Verfahren zur Klassifikation von Texten

    Die vorliegende Arbeit soll einen kurzen Überblick über gängige Ansätze aus dem Information Retrieval (IR) und der Natürlichsprachlichen Verarbeitung (NLP) zur Informationsextraktion geben. Diese Untersuchung wurde primär mit dem Ziel durchgeführt, statistische und wissensbasierte Techniken auf ihre Einsetzbarkeit zur Klassifikation von Texten zu evaluieren. Wir unterscheiden zwischen statistischen, regelbasierten, konzeptbasierten, probabilistischen sowie konnektionistischen Verfahren und stellen exemplarisch hierfür bekannte Systeme vor. Sowohl Information Retrieval- als auch NLP-Systeme gehen von korrekten ASCII-Texten als Eingabe aus. Diese Voraussetzung gilt jedoch in der Dokumentanalyse nicht. Nach dem optischen Abtasten eines Dokuments, der Strukturanalyse und der nachfolgenden Texterkennung treten Wortalternativen mit Erkennungswahrscheinlichkeiten auf, die bei der partiellen inhaltlichen Analyse, d. h. der Informationsextraktion aus Texten, berücksichtigt werden müssen. Deshalb gehen wir am Schluß der Arbeit darauf ein, inwieweit die oben genannten Verfahren prinzipiell auf die Dokumentanalyse übertragbar sind. Vorab soll betont werden, daß die vorliegende Studie zwei im Rahmen des ALV-Projektes am DFKI entwickelte Prototypen zur inhaltsbasierten Klassifikation von Dokumenten motiviert: einer verwendet statistische Methoden zur automatischen Indexierung; der andere beruht auf einem Regelinterpreter, der die bewerteten Worthypothesen als Evidenzen für Konzepte durch ein hierarchisches Netzwerk propagiert

    Dendritic polyglycerol nanoparticles show charge dependent bio-distribution in early human placental explants and reduce hCG secretion

    A thorough understanding of nanoparticle bio-distribution at the feto-maternal interface will be a prerequisite for their diagnostic or therapeutic application in women of childbearing age and for teratologic risk assessment. Therefore, the tissue interaction of biocompatible dendritic polyglycerol nanoparticles (dPG-NPs) with first- trimester human placental explants were analyzed and compared to less sophisticated trophoblast-cell based models. First-trimester human placental explants, BeWo cells and primary trophoblast cells from human term placenta were exposed to fluorescence labeled, ∼5 nm dPG-NPs, with differently charged surfaces, at concentrations of 1 µM and 10 nM, for 6 and 24 h. Accumulation of dPGs was visualized by fluorescence microscopy. To assess the impact of dPG-NP on trophoblast integrity and endocrine function, LDH, and hCG releases were measured. A dose- and charge- dependent accumulation of dPG-NPs was observed at the early placental barrier and in cell lines, with positive dPG-NP-surface causing deposits even in the mesenchymal core of the placental villi. No signs of plasma membrane damage could be detected. After 24 h we observed a significant reduction of hCG secretion in placental explants, without significant changes in trophoblast apoptosis, at low concentrations of charged dPG-NPs. In conclusion, dPG-NP’s surface charge substantially influences their bio-distribution at the feto- maternal interface, with positive charge facilitating trans-trophoblast passage, and in contrast to more artificial models, the first-trimester placental explant culture model reveals potentially hazardous influences of charged dPG-NPs on early placental physiology

    Needs-oriented discharge planning and monitoring for high utilisers of psychiatric services (NODPAM): Design and methods

    <p>Abstract</p> <p>Background</p> <p>Attempts to reduce high utilisation of psychiatric inpatient care by targeting the critical time of hospital discharge have been rare.</p> <p>Methods</p> <p>This paper presents design and methods of the study "Effectiveness and Cost-Effectiveness of Needs-Oriented Discharge Planning and Monitoring for High Utilisers of Psychiatric Services" (NODPAM), a multicentre RCT conducted in five psychiatric hospitals in Germany. Inclusion criteria are receipt of inpatient psychiatric care, adult age, diagnosis of schizophrenia or affective disorder, defined high utilisation of psychiatric care during two years prior to the current admission, and given informed consent. Consecutive recruitment started in April 2006. Since then, during a period of 18 months, comprehensive outcome data of 490 participants is being collected at baseline and during three follow-up measurement points.</p> <p>The manualised intervention applies principles of needs-led care and focuses on the inpatient-outpatient transition. A trained intervention worker provides two intervention sessions: (a) Discharge planning: Just before discharge with the patient and responsible clinician at the inpatient service; (b) Monitoring: Three months after discharge with the patient and outpatient clinician. A written treatment plan is signed by all participants after each session.</p> <p>Primary endpoints are whether participants in the intervention group will show fewer hospital days and readmissions to hospital. Secondary endpoints are better compliance with aftercare, better clinical outcome and quality of life, as well as cost-effectiveness and cost-utility.</p> <p>Discussion</p> <p>If a needs-oriented discharge planning and monitoring proves to be successful in this RCT, a tool will be at hand to improve patient outcome and reduce costs via harmonising fragmented mental health service provision.</p> <p>Trial Registration</p> <p>ISRCTN59603527</p

    "CAN Stop" - Implementation and evaluation of a secondary group prevention for adolescent and young adult cannabis users in various contexts - study protocol

    <p>Abstract</p> <p>Background</p> <p>Current research shows that overall numbers for cannabis use among adolescents and young adults dropped in recent years. However, this trend is much less pronounced in continuous cannabis use. With regard to the heightened risk for detrimental health- and development-related outcomes, adolescents and young adults with continuous cannabis use need special attention. The health services structure for adolescents and young adults with substance related problems in Germany, is multifaceted, because different communal, medical and judicial agencies are involved. This results in a rather decentralized organizational structure of the help system. This and further system-inherent characteristics make the threshold for young cannabis users rather high. Because of this, there is a need to establish evidence-based low-threshold help options for young cannabis users, which can be easily disseminated. Therefore, a training programme for young cannabis users (age 14-21) was developed in the "CAN Stop" project. Within the project, we seek to implement and evaluate the training programme within different institutions of the help system. The evaluation is sensitive to the different help systems and their specific prerequisites. Moreover, within this study, we also test the practicability of a training provision through laypersons.</p> <p>Methods/Design</p> <p>The CAN Stop study is a four-armed randomized wait-list controlled trial. The four arms are needed for the different help system settings, in which the CAN Stop training programme is evaluated: (a) the drug addiction aid and youth welfare system, (b) the out-patient medical system, (c) the in-patient medical system and (d) prisons for juvenile offenders. Data are collected at three points, before and after the training or a treatment as usual, and six months after the end of either intervention.</p> <p>Discussion</p> <p>The CAN Stop study is expected to provide an evidence-based programme for young cannabis users seeking to reduce or quit their cannabis use. Moreover, we seek to gain knowledge about the programme's utility within different settings of the German help system for young cannabis users and information about the settings' specific clientele. The study protocol is discussed with regard to potential difficulties within the different settings.</p> <p>Trial registration</p> <p>ISRCTN: <a href="http://www.controlled-trials.com/ISRCTN57036983">ISRCTN57036983</a></p