2 research outputs found

    Semantically Enriched Text-Based Retrieval in Chemical Digital Libraries

    Get PDF
    During the last decades, the information gathering process has considerably changed in science, research and development, and the private life. Whereas Web pages for private information seeking are usually accessed using well-known text-based search engines, complex documents for scientific research are often stored in digital libraries and will usually be accessed through domain specific Web portals. Considering the specific domain of chemistry, portals usually rely on graphical user-interfaces allowing for pictorial structure queries. The difficulty with purely text-based searches is that information seeking in chemical documents is generally focused on chemical entities, for which current standard search relies on complex and hard to extract structures. In this thesis, we introduce a retrieval workflow for chemical digital libraries enabling text-based searches. First, we explain how to automatically index chemical documents with high completeness by creating enriched index pages containing different entity representations and synonyms. Next, we analyze different similarity measures for chemical entities. We further describe how to model the chemists’ implicit knowledge to personalize the retrieval process. Furthermore, since users often search for chemical entities occurring in a specific context, we also show how to use contextual information to further enhance the retrieval quality. Since, the annotated context terms will not help for contextual search if the users use different vocabulary, we present an approach that semantically enriches documents with Wikipedia concepts to overcome the vocabulary problem. Since for most queries a huge amount of possibly relevant hits are returned to the user, we further present an approach summarizing the documents’ content using Wikipedia categories. Finally, we present an architecture for a chemical digital library provider combining the different steps enabling semantically enriched text-based retrieval for the chemical domain.Über die letzten Jahre hat sich der Prozess der Informationssuche stark verändert. Während im privaten Bereich meistens über eine text-basierte Websuche auf Informationen zugegriffen wird, erfolgt der Zugriff auf Dokumente für den wissenschaftlichen Gebrauch in der Regel über domänenspezifische Web Portale. Betrachtet man beispielsweise die Domäne der Chemie, basieren Web Portale auf speziellen grafischen Benutzeroberflächen, die gezeichnete, strukturbasierte Anfragen ermöglichen. Da die Informationssuche für chemische Dokumente generell auf chemischen Entitäten basiert, die wiederum aus komplexen Strukturen bestehen, birgt eine reine text-basierte Suche eine Vielzahl von Herausforderungen. In dieser Arbeit entwickeln wir einen Retrieval Workflow für eine chemische digitale Bibliothek, der text-basierte Suchen ermöglicht. Als erstes erzeugen wir für chemische Dokumente semantisch angereicherte Indexseiten. Im Folgenden analysieren wir wie man Ähnlichkeit zwischen chemischen Entitäten bestimmen kann. Im Anschluss zeigen wir wie man das subjektive Relevanzempfinden der Chemiker modellieren kann, um ein personalisiertes Retrieval zu ermöglichen. Dann beschäftigen wir uns mit der Tatsache, dass Benutzer häufig nach chemischen Entitäten suchen, die in einem bestimmten Kontext auftreten. Allerdings sind die annotierten Kontext-Terme nutzlos, falls die Benutzer ein völlig anderes Vokabular verwenden. Deshalb reichern wir die Dokumente semantisch mit Wikipedia Konzepten an um das Problem des unterschiedlichen Vokabulars zu beheben. Da für die meisten Anfragen eine Vielzahl von relevanten Treffern zurückgeliefert wird, präsentieren wir eine Methode um den Inhalt der Dokumente auf übersichtliche Weise mit Hilfe von Wikipedia Kategorien darzustellen. Schlussendlich kombinieren wir die gewonnenen Erkenntnisse und stellen eine Architektur für eine chemische digitale Bibliothek vor, die semantisch angereicherte, text-basierte Suchen in der Chemie ermöglicht
    corecore