1 research outputs found

    Informationsbeschaffung aus digitalen Textressourcen - DomÀnenadaptive Verfahren zur Strukturierung heterogener Textdokumente

    Get PDF
    In der heutigen Informationsgesellschaft sind Personen hĂ€ufig mit der sogenannten InformationsĂŒberflutung konfrontiert. Dies bedeutet, dass es aufgrund der enormen Menge insbesondere digital verfĂŒgbarer textueller Ressourcen zu einer Überforderung bei der Identifikation relevanter Informationen kommen kann. Bislang ist eine UnterstĂŒtzung bei dieser Aufgabe vorrangig ĂŒber Volltextsuchen in Textsammlungen möglich, die jedoch keine komplexen Suchanfragen mit Beschreibung unterschiedlicher Aspekte der Suchanfrage erlauben. Werkzeuge zur elaborierten Suche, welche es erlauben, einzelne Aspekte der zu suchenden Information zu beschreiben, existieren nur in spezifischen DomĂ€nen. Ein wesentlicher Grund hierfĂŒr ist, dass die zu durchsuchenden digitalen Textressourcen meist in unstrukturierter Form vorliegen. Damit ist kein einheitlicher, gezielter Zugriff auf spezifische Informationen innerhalb der Dokumente möglich, welcher die Realisierung solcher Werkzeuge vereinfachen wĂŒrde. Strukturierte ReprĂ€sentationen der Dokumente, in denen die Bedeutung einzelner Textfragmente fĂŒr die in den Dokumenten beschriebenen EntitĂ€ten zu erkennen ist, wĂŒrden diesen Zugriff ermöglichen. Im Rahmen dieser Dissertation wird untersucht, mit welchen Verfahren textuelle Dokumente automatisiert in eine strukturierte ReprĂ€sentation ĂŒberfĂŒhrt werden können. Existierende AnsĂ€tze mit gleicher oder Ă€hnlicher Zielsetzung sind meist fĂŒr spezifische AnwendungsdomĂ€nen entwickelt und lassen sich nur schwer in andere DomĂ€nen ĂŒbertragen. Bei Einsatz in neuen DomĂ€nen mĂŒssen bislang somit vollstĂ€ndig neue AnsĂ€tze zur Strukturierung entworfen werden oder zur Übertragung von AnsĂ€tzen ein großer manueller Aufwand erbracht werden. Daraus resultiert die Notwendigkeit, domĂ€nenadaptive Verfahren zur Strukturierung von Textressourcen zu entwickeln. Dem steht als wesentliche Herausforderung die HeterogenitĂ€t von AnwendungsdomĂ€nen hinsichtlich verschiedener Kriterien wie verwendeter Dokumentenformate, vorherrschender TextlĂ€nge und domĂ€nenspezifischer Terminologie entgegen. Die Untersuchung von fĂŒnf ausgewĂ€hlten heterogenen AnwendungsdomĂ€nen zeigte, dass bestimmte Typen von Informationen domĂ€nenĂŒbergreifend von Relevanz sind. Daher wurden fĂŒr drei dieser Typen Verfahren konzipiert, welche Informationen dieser Typen in heterogenen Dokumenten identifizieren können. Hierbei wurde sichergestellt, dass fĂŒr die erstmalige Anwendung der Verfahren in einer spezifischen DomĂ€ne möglichst wenig manueller Aufwand erforderlich ist, um die Anforderung der DomĂ€nenadaptivitĂ€t der Verfahren zu berĂŒcksichtigen. Zur Reduktion des manuellen Aufwands wurden Techniken des maschinellen Lernens, wie der Ansatz des Active Learning, sowie existierende, frei verfĂŒgbare Wissensbasen verwendet. Die konzipierten Verfahren wurden implementiert und unter Verwendung von Textkorpora aus den zuvor analysierten DomĂ€nen evaluiert. Dabei konnte gezeigt werden, dass die Identifikation von Informationen dieser drei Typen mit hoher GĂŒte möglich ist und gleichzeitig eine gute DomĂ€nenadaptivitĂ€t erreicht wird. Weiterhin wurden unabhĂ€ngige Verfahren zur Identifikation von Informationen der einzelnen Typen kombiniert, um eine Strukturierung kompletter Dokumente durchfĂŒhren zu können. Dieses Konzept wurde in einer Fallstudie fĂŒr eine der AnwendungsdomĂ€nen implementiert und unter Verwendung eines Textkorpus aus dieser DomĂ€ne evaluiert. Die Resultate bestĂ€tigen, dass eine Strukturierung mittels Kombination der Verfahren zur Identifikation der Informationen der einzelnen Typen erreicht werden kann. Unter Verwendung der in dieser Dissertation vorgestellten domĂ€nenadaptiven Verfahren lassen sich strukturierte ReprĂ€sentationen aus unstrukturierten digitalen Textressourcen erstellen, die die vereinfachte Realisierung von Werkzeugen zur Informationsbeschaffung ermöglichen. Die daraus resultierenden Möglichkeiten fĂŒr elaborierte Werkzeuge zur Informationsbeschaffung reduzieren die Überforderung der Nutzer bei der Identifikation relevanter Informationen
    corecore