44 research outputs found

    CTX - ein Verfahren zur computergestützten Texterschließung

    Get PDF
    Zusammen mit Edith Kroupa und Gerald Keil hat Zimmermann diesen Forschungsbericht für das BMFT, in dessen Mittelpunkt die Entwicklung des computergestützten Texterschließungssystems CTX steht, herausgegeben. Es wird zunächst ausführlich auf Methoden und Probleme des Information Retrieval eingegangen. Es folgt eine detaillierte Beschreibung der Grundlagen, Funktionen und Aufgaben von CTX. Der anwendungsbezogene Teil stellt eine Laboranwendung im Bereich "Datenschutz" mit Schwerpunkten auf den Themen Textsorte, Wörterbucharbeit und Deskriptorermittlung sowie einem Vergleich mit dem System PASSAT vor

    Automatische, Deskriptor-basierte Unterstützung der Dokumentanalyse zur Fokussierung und Klassifizierung von Geschäftsbriefen

    Get PDF
    Die vorliegende Arbeit wurde im Rahmen des ALV-Projekts (Automatisches Lesen und Verstehen) am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) erstellt. Ziel des ALV-Projektes ist die Entwicklung einer intelligenten Schnittstelle zwischen Papier und Rechner (paper-computer interface). Hierbei soll durch Nachahmung des menschlichen Leseverhaltens ein Schritt in Richtung papierloses Büro ausgeführt werden. Exemplarisch werden in ALV Geschäftsbriefe als Domäne untersucht. Teilgebiete innerhalb des ALV-Projekts sind Layoutextraktion, Logical Labeling, Texterkennung und Textanalyse. Diese Arbeit fällt in den Bereich der Textanalyse. Die Aufgabenstellung bestand darin, mittels der vorkommenden Wörter (im Brieftext) die Art des Briefes sowie erste Hinweise über die Intention des Briefautors zu ermitteln. Derartige Informationen können von anderen Experten zur weiteren Verarbeitung, Verteilung und Archivierung der Briefe genutzt werden. Das innerhalb einer Diplomarbeit entwickelte und implementierte INFOCLAS-System versucht deshalb auf der Basis statistischer Verfahren und Methodiken aus dem Information Retrieval folgende Funktionalität bereitzustellen: i) Extrahierung und Gewichtung von bedeutungstragenden Wörtern; ii) Ermittelung der Kernaussage (Fokus) eines Geschäftsbriefs; iii) Klassifizierung eines Geschäftsbriefs in vordefinierte Nachrichtentypen. Die dafür entwickelten Module Indexierer, Fokussierer und Klassifizierer benutzen -- neben Konzepten aus dem Information Retrieval -- eine Datenbasis, die eine Sammlung von Geschäftsbriefen enthält, sowie spezifische Wortlisten, die die modellierten Briefklassen repräsentieren. Als weiteres Hilfsmittel dient ein morphologisches Werkzeug zur grammatikalischen Analyse der Wörter. Mit diesen Wissensquellen werden Hypothesen über die Briefklasse und die Kernaussage des Briefinhalts aufgestellt.In this documentation existing techniques of information retrieval (IR) are compared and evaluated for their application in document analysis and understanding. Moreover, we have developed a system called INFOCLAS which uses appropriate statistical methods of IR, primarily for the classification of German business letters into corresponding message types such as order, offer, confirmation, inquiry, and advertisement. INFOCLAS is a first step towards understanding of business letters. Actually, it comprises three modules: the central indexer (extraction and weighting of indexing terms), the classifier (classification of business letters into given types) and the focusser (highlighting relevant parts of the letter). INFOCLAS integrates several knowledge sources including a database of about 120 letters, word frequency statistics for German, message type specific words, morphological knowledge as well as the underlying document model (layout and logical structure). As output, the system computes a set of weighted hypotheses about the type of letter at hand. A classification of documents allows the automatic distribution or archiving of letters and is also an excellent starting point for higher-level document analysis

    Linguistische Verfahren zur Archivierung und zum Wiederfinden unstrukturierter Texte

    Get PDF
    Hier geht es um linguistische (morphologisch-syntaktische) Verfahren der Texterschließung in der Fachinformation. Insbesondere werden anhand von Texten des Deutschen Patentamts, des Wissenschaftszentrums Berlin und der Bundesanstalt für Materialprüfung sehr konkret die Möglichkeiten der automatischen Textanalyse (morphologische Analyse von Derivationen und Komposita, Erstellung komplexer Deskriptoren) diskutiert. Ein weiterer Schwerpunkt des Artikels ist der Einsatz der vorbeschriebenen Verfahren im Rahmen der Textverarbeitung im Büro, und zwar unter den Gesichtspunkten der "Robustheit und Integrationsfähigkeit der Texterschließungs- und -retrievalsoftware", der "Anpassung "höherwertiger" Verfahren von Großrechner- auf Mikroprozessor-Anwendungen" und "benutzerfreundlicher Retrievalschnittstellen"

    Thesaurusgestützter Zugriff zu Umweltberichten in einem netzübergreifenden Hypertextsystem

    Get PDF
    Das Bewußtsein für Umweltfragen nimmt in der Welt einen immer größeren Raum ein. In dieser Welt, die immer bessere und raschere Informationsflüsse schafft, wächst parallel zu diesem Umweltbewußtsein die Realisierung wissenschaftlicher Systeme, die die Nachfrage nach Informationen befriedigen können. Konzepte wie "Hypertext" sind dazu angelegt, einer breiten Öffentlichkeit einen benutzerfreundlichen Zugang u.a. auch für Umweltdaten zu ermöglichen. Hypertext ist ein Gebiet, das, besonders in Zusammenhang mit World Wide Web, in den letzten Jahren zunehmend an Interesse gewinnt, und das nicht nur in "Computerkreisen". Hypertext erlaubt durch einfache Aktionen das assoziative "Wandern" in Texten, indem beim Anklicken bestimmter Textstellen mit der Maus weitere relevante Informationen zu diesen Textstellen angezeigt werden. Durch World Wide Web können im Internet vorhandene Informationen als Hypertext über eine besonders einfach zu handhabende Benutzeroberfläche zugänglich gemacht werden. Dieser einfache Zugang erscheint auch im Hinblick auf die EWG-Richtlinie vom 07. Juni 1990 über den freien Zugang zu Umweltinformationen besonders wichtig

    CTX - ein Verfahren zur computergestützten Texterschließung

    Get PDF
    Zusammen mit Edith Kroupa und Gerald Keil hat Zimmermann diesen Forschungsbericht für das BMFT, in dessen Mittelpunkt die Entwicklung des computergestützten Texterschließungssystems CTX steht, herausgegeben. Es wird zunächst ausführlich auf Methoden und Probleme des Information Retrieval eingegangen. Es folgt eine detaillierte Beschreibung der Grundlagen, Funktionen und Aufgaben von CTX. Der anwendungsbezogene Teil stellt eine Laboranwendung im Bereich "Datenschutz" mit Schwerpunkten auf den Themen Textsorte, Wörterbucharbeit und Deskriptorermittlung sowie einem Vergleich mit dem System PASSAT vor

    WTO-Thesaurus

    Get PDF
    Ziel dieser Arbeit ist es, einen raschen Überblick über die Thesaurusthematik aus sprachwissenschaftlicher, normativer und wissenschaftstheoretischer Sicht zu geben. Diese Einführung in die Thesaurusarbeit umfasst die Darstellung der historischen Entwicklung von Thesauri und gibt Aufschluss über die Komponenten, die bei der Erstellung und Weiterentwicklung von ein- und mehrsprachigen Thesauri berücksichtigt werden müssen. Neben einer Abgrenzung zur Klassifikation, die zu einem Exkurs in die Thematik der Begriffsbildung führt, wird auch die Thesaurusnormung näher beleuchtet. Gestützt auf das DOT-Modell von Will wird ferner der Nutzen der in der Arbeit terminologisch untersuchten Thesaurusstrukturen für eine dolmetschorientierte Terminologiearbeit im Bereich Tourismus herausgearbeitet. Ausgehend vom WTO-Thesaurus werden weiters Probleme, die bei der Erstellung und Weiterentwicklung von ein- und mehrsprachigen Thesauri, insbesondere Klassifizierungsprobleme sowie die komplexe Thematik der terminologischen und begrifflichen Kontrolle des Thesaurusvokabulars, praxisrelevant analysiert und Lösungsvorschläge geboten. Am Beispiel der aktuell laufenden Arbeiten am Normentwurf ISO WD 25964, der Projektgruppe ISO/TC 46/SC9, kann der Bedarf einer Adaptierung der Normen im Bereich von Information und Dokumentation an den technischen Fortschritt expliziert werden. Auf den Seiten 105, 107, 113, 116, 118 und 119 befinden sich Abbildungen

    Einbindung von Primärdaten in Digitale Bibliotheken

    Full text link
    Obwohl auf Nutzerseite ein hoher Bedarf an einer integrierten Recherche in verschiedenen Informationstypen besteht, ist eine konsequente Einbindung von Primärdaten in Digitale Bibliotheken bislang nur selten anzutreffen. Am Beispiel sozialwissenschaftlicher Studien wird gezeigt, wie Faktendaten auf konzeptioneller Ebene in einer Digitalen Bibliothek verfügbar gemacht und mit den dort vorhandenen textuellen Informationen integriert werden können. Dabei werden auch Konzepte des Semantic Web berücksichtigt. (Autorenreferat

    Abbildungen zwischen der Dewey-Dezimalklassifikation (DDC), der Regensburger Verbundklassifikation (RVK) und der Schlagwortnormdatei (SWD) für die Recherche in heterogen erschlossenen Datenbeständen : Möglichkeiten und Problembereiche

    Get PDF
    Eine einheitliche Sacherschließung in Deutschland wird durch die Vielzahl an vorhandenen und verwendeten Erschließungssystemen, Universal-, Fachklassifikationen und Fachthesauri erschwert. Den Benutzern von Bibliothekskatalogen oder Datenbanken fällt es daher schwer, themenspezifische Recherchen in heterogen erschlossenen Datenbeständen durchzuführen. In diesem Fall müssen die Nutzer derzeit nämlich den Umgang mit mehreren Erschließungsinstrumenten erlernen und verschiedene Suchanfragen anwenden, um das gewünschte Rechercheergebnis datenbankübergreifend zu erreichen. Um dem Benutzer einen einheitlichen Zugang zu heterogen erschlossenen Datenbeständen zu gewährleisten und gleichzeitig auch den Arbeitsaufwand für die Bibliothekare zu reduzieren, ist die Erstellung eines so genannten „Integrierten Retrievals“ sinnvoll. Durch die Verknüpfung der unterschiedlichen Sacherschließungssysteme mit Hilfe von Konkordanzen wird es dem Nutzer ermöglicht, mit einem ihm vertrauten Vokabular eine sachliche Recherche in unterschiedlich erschlossenen Datenbeständen durchzuführen, ohne die spezifischen Besonderheiten der verschiedenen Erschließungsinstrumente kennen zu müssen. In dieser Arbeit sind exemplarisch drei Abbildungen für den Fachbereich der Bibliotheks- und Informationswissenschaften zwischen den für Deutschland wichtigsten Sacherschließungssystemen Dewey-Dezimalklassifikation (DDC), Regensburger Verbundklassifikation (RVK) und Schlagwortnormdatei (SWD) erstellt worden. Die Ergebnisse dieser Arbeit sollen einen ersten Überblick über spezifische Problemfelder und Möglichkeiten der hier erstellten Konkordanzen DDC – RVK, SWD – DDC und SWD – RVK liefern, um damit die Erstellung eines zukünftigen Recherchetools (und gegebenenfalls einer Klassifizierungshilfe) voranzutreiben. Die erstellten Konkordanzen liegen der Arbeit als Anhang bei

    Semi-automatische Verschlagwortung zur Integration externer semantischer Inhalte innerhalb einer medizinischen Kooperationsplattform

    Get PDF
    PubMed stellt mit 21 Mio. Aufsatzzitaten eines der umfangreichsten Informationssysteme in Bereich der Medizin. Durch die Verwendung einer einheitlichen Terminologie (Medical Subject Heading - MeSH) bei der Indizierung von PubMed Inhalten kann die Orientierung in solch großen Datenbeständen optimiert werden. Zwar bietet ein kontrolliertes Vokabular bei der Informationsbeschaffung zahlreiche Vorteile gegenüber einer Freitextsuche doch fällt Nutzern das Abbilden eines Informationsbedarfs auf die verwendete Terminologie oftmals schwer. In dieser Arbeit wird eine Systemunterstützung geschaffen, die den Abbildungsprozess automatisiert indem eine automatische Verschlagwortung textbasierter Inhalte unter Verwendung eines kontrollierten Vokabulars vorgenommen wird. Durch die Verwendung einer einheitliche Terminologie kann so eine konsistente Integration von PubMed Inhalten erreicht werden
    corecore