Search CORE

1 research outputs found

Informationsbeschaffung aus digitalen Textressourcen - Domänenadaptive Verfahren zur Strukturierung heterogener Textdokumente

Author: Schmidt Sebastian
Publication venue
Publication date: 27/01/2016
Field of study

In der heutigen Informationsgesellschaft sind Personen häufig mit der sogenannten Informationsüberflutung konfrontiert. Dies bedeutet, dass es aufgrund der enormen Menge insbesondere digital verfügbarer textueller Ressourcen zu einer Überforderung bei der Identifikation relevanter Informationen kommen kann. Bislang ist eine Unterstützung bei dieser Aufgabe vorrangig über Volltextsuchen in Textsammlungen möglich, die jedoch keine komplexen Suchanfragen mit Beschreibung unterschiedlicher Aspekte der Suchanfrage erlauben. Werkzeuge zur elaborierten Suche, welche es erlauben, einzelne Aspekte der zu suchenden Information zu beschreiben, existieren nur in spezifischen Domänen. Ein wesentlicher Grund hierfür ist, dass die zu durchsuchenden digitalen Textressourcen meist in unstrukturierter Form vorliegen. Damit ist kein einheitlicher, gezielter Zugriff auf spezifische Informationen innerhalb der Dokumente möglich, welcher die Realisierung solcher Werkzeuge vereinfachen würde. Strukturierte Repräsentationen der Dokumente, in denen die Bedeutung einzelner Textfragmente für die in den Dokumenten beschriebenen Entitäten zu erkennen ist, würden diesen Zugriff ermöglichen. Im Rahmen dieser Dissertation wird untersucht, mit welchen Verfahren textuelle Dokumente automatisiert in eine strukturierte Repräsentation überführt werden können. Existierende Ansätze mit gleicher oder ähnlicher Zielsetzung sind meist für spezifische Anwendungsdomänen entwickelt und lassen sich nur schwer in andere Domänen übertragen. Bei Einsatz in neuen Domänen müssen bislang somit vollständig neue Ansätze zur Strukturierung entworfen werden oder zur Übertragung von Ansätzen ein großer manueller Aufwand erbracht werden. Daraus resultiert die Notwendigkeit, domänenadaptive Verfahren zur Strukturierung von Textressourcen zu entwickeln. Dem steht als wesentliche Herausforderung die Heterogenität von Anwendungsdomänen hinsichtlich verschiedener Kriterien wie verwendeter Dokumentenformate, vorherrschender Textlänge und domänenspezifischer Terminologie entgegen. Die Untersuchung von fünf ausgewählten heterogenen Anwendungsdomänen zeigte, dass bestimmte Typen von Informationen domänenübergreifend von Relevanz sind. Daher wurden für drei dieser Typen Verfahren konzipiert, welche Informationen dieser Typen in heterogenen Dokumenten identifizieren können. Hierbei wurde sichergestellt, dass für die erstmalige Anwendung der Verfahren in einer spezifischen Domäne möglichst wenig manueller Aufwand erforderlich ist, um die Anforderung der Domänenadaptivität der Verfahren zu berücksichtigen. Zur Reduktion des manuellen Aufwands wurden Techniken des maschinellen Lernens, wie der Ansatz des Active Learning, sowie existierende, frei verfügbare Wissensbasen verwendet. Die konzipierten Verfahren wurden implementiert und unter Verwendung von Textkorpora aus den zuvor analysierten Domänen evaluiert. Dabei konnte gezeigt werden, dass die Identifikation von Informationen dieser drei Typen mit hoher Güte möglich ist und gleichzeitig eine gute Domänenadaptivität erreicht wird. Weiterhin wurden unabhängige Verfahren zur Identifikation von Informationen der einzelnen Typen kombiniert, um eine Strukturierung kompletter Dokumente durchführen zu können. Dieses Konzept wurde in einer Fallstudie für eine der Anwendungsdomänen implementiert und unter Verwendung eines Textkorpus aus dieser Domäne evaluiert. Die Resultate bestätigen, dass eine Strukturierung mittels Kombination der Verfahren zur Identifikation der Informationen der einzelnen Typen erreicht werden kann. Unter Verwendung der in dieser Dissertation vorgestellten domänenadaptiven Verfahren lassen sich strukturierte Repräsentationen aus unstrukturierten digitalen Textressourcen erstellen, die die vereinfachte Realisierung von Werkzeugen zur Informationsbeschaffung ermöglichen. Die daraus resultierenden Möglichkeiten für elaborierte Werkzeuge zur Informationsbeschaffung reduzieren die Überforderung der Nutzer bei der Identifikation relevanter Informationen

TUbiblio

tuprints