39 research outputs found

    Textprozessierung - Design und Applikation

    Get PDF
    Die wissenschaftliche Kommunikation und der Austausch von Forschungsergebnissen beruhte lange Zeit einzig auf der Veröffentlichung und der Rezeption von Fachbüchern und -artikeln. Erst in der jüngeren Vergangenheit wurden auch Lösungen entworfen, wie die dem Forschungsprozess zugrundeliegenden sowie die aus diesem resultierenden Daten ausgetauscht werden können. Eine zentrale Rolle spielt dabei die beständig fortschreitende Entwicklung innerhalb der Informationstechnologie. Im Rahmen dieser Arbeit wurde ein Software-System entwickelt, das es erlaubt, Experimente auszutauschen. Damit ist ein Wissenschaftler in der Lage, die Grundlage seiner empirischen Forschung direkt weiterzugeben. Dieses System ist das Text Engineering Software Laboratory, kurz Tesla. Es stellt eine Arbeitsumgebung für Wissenschaftler, die auf textuellen Daten arbeiten, bereit. Innerhalb dieser Arbeitsumgebung können in einem Client Experimente mithilfe eines graphischen Workflow-Editors sowie diverser Konfigurations-Editoren zusammengestellt werden. Diese werden auf einem Server ausgeführt und können dann wieder im Client auf unterschiedliche Arten visualisiert werden. Die Experimente werden dabei vollständig dokumentiert (Ausgangsdaten, angewendete Verfahren, Resultate). Diese Dokumentation kann exportiert und distribuiert werden, so dass die Experimente jederzeit von anderen Nutzern des Systems reproduziert werden können. Die Arbeit geht zunächst darauf ein, welche Bereiche der Wissenschaft in das Feld der Textprozessierung fallen. Daraus werden Anforderungen abgeleitet, welche von diesen Wissenschaften als Basis für Forschungen an ihrem Gegenstandsbereichen und deren Weitergabe gestellt werden. Auf dieser Grundlage wird das System Tesla vorgestellt, das den formulierten Ansprüchen gerecht wird. Dabei werden die wichtigsten Features behandelt, die Tesla dem Anwender bietet. Die Demonstration des Systems erfolgt am Beispiel einer Analyse des sogenannten Voynich-Manuskripts. Dieses Dokument wurde 1912 in Italien entdeckt wurde und stammt mutmaßlich aus dem 15. Jahrhundert. Das Manuskript enthält einen Text eines unbekannten Autors, dessen Inhalt bisher nicht entschlüsselt werden konnte. Bisher wurde auch noch kein Verschlüsselungsverfahren gefunden, das einen vergleichbaren Text erzeugt, was sich mit dieser Arbeit ändert

    A new text representation for the categorization and clustering of textual data

    Get PDF
    Ein großer Anteil der Daten eines Unternehmens besteht aus unstrukturierten Daten in textueller Form. Die Verarbeitung dieser Daten ist mit Kosten verbunden. In dieser Dissertation wird anhand eines Testdatensatzes gezeigt, auf welche Weise und mit welcher Qualität eine automatische Klassifizierung und ein automatisches Clustern durchgeführt werden können. Dabei wird eine neue Vorverarbeitung der Daten verwendet, die auf Suffix Arrays basiert und wortübergreifende Textfragmente zur Repräsentation der textuellen Daten ermittelt. Anhand des Einsatzes verschiedener Algorithmen zur Klassifizierung und zum Clustern und der Bewertung der erreichten Qualität wird die Vorverarbeitung evaluiert. Eine Kostenabschätzung zeigt die möglichen Einsparungspotenziale bei Anwendung der automati­sierten Klassifizierung und des automatisierten Clusterns in der beschriebenen Form.A good deal of organizational data is unstructured textual data. The processing of this data is expensive. This thesis shows in which way and with what quality an automatic categorization and an automatic clustering can be applied by using a test collection. Within this process a new data preprocessing technique is used which is based on suffix arrays. It determines fragments of text independent of word boundaries to represent the textual data. The preprocessing is evaluated by applying different categorization and clustering algorithms and by reviewing the measured quality. A cost estimation shows the potential savings which can be achieved by using the automatic categorization and the automatic clustering in combination with the new preprocessing technique

    Semantische Indexierung mit expliziten Wissensressourcen

    Get PDF

    Corpus-adaptive Named Entity Recognition

    Get PDF
    Named Entity Recognition (NER) is an important step towards the automatic analysis of natural language and is needed for a series of natural language applications. The task of NER requires the recognition and classification of proper names and other unique identifiers according to a predefined category system, e.g. the “traditional” categories PERSON, ORGANIZATION (companies, associations) and LOCATION. While most of the previous work deals with the recognition of these traditional categories within English newspaper texts, the approach presented in this thesis is beyond that scope. The approach is particularly motivated by NER which is more challenging than the classical task, such as German, or the identification of biomedical entities within scientific texts. Additionally, the approach addresses the ease-of-development and maintainability of NER-services by emphasizing the need for “corpus-adaptive” systems, with “corpus-adaptivity” describing whether a system can be easily adapted to new tasks and to new text corpora. In order to implement such a corpus-adaptive system, three design guidelines are proposed: (i) the consequent use of machine-learning techniques instead of manually created linguistic rules; (ii) a strict data-oriented modelling of the phenomena instead of a generalization based on intellectual categories; (iii) the usage of automatically extracted knowledge about Named Entities, gained by analysing large amounts of raw texts. A prototype was implemented according to these guidelines and its evaluation shows the feasibility of the approach. The system originally developed for a German newspaper corpus could easily be adapted and applied to the extraction of biomedical entities within scientific abstracts written in English and therefore gave proof of the corpus-adaptivity of the approach. Despite the limited resources in comparison with other state-of-the-art systems, the prototype scored competitive results for some of the categories

    Grundlagen der Informationssuche, Informationsvisualisierung und Informationsverarbeitung für die Integration von interaktiven Visualisierungen in die Websuche

    Get PDF
    This article gives an overview of the foundations in the areas of Information Search, Information Visualization and Information Processing. They form the basis for developing the model in the previous article (Hienert 2014). The field of Information Search provides various models which describe how users search for information. Several characteristics and methods are presented which are part of the search process. A major challenge is the heterogenous information basis on the Web. The section Information Visualization describes the goals, benefits, processes, models and techniques of interactive visualizations. It can be shown that interactive visualizations are beneficial for the representation of large and complex information collections. The following section Information Processing shows how users process information. For this purpose, basic mechanisms of cognitive processing and properties are presented. Based on this, the process of cognitive processing of visualizations is described. Interactive Visualizations can expand the cognitive process in which an ongoing exchange between external and internal representation takes place. This article is a shortened and revised summary of the chapter in the dissertation of Hienert (2013)

    Activity Tree Harvesting - Entdeckung, Analyse und Verwertung der Nutzungskontexte SCORM-konformer Lernobjekte

    Get PDF
    Der Erstellungsaufwand multimedialer Lernangebote kann durch die Wiederverwendung bestehender Materialien deutlich reduziert werden. Wie aber kann das Auffinden solcher wiederverwendbaren Lernressourcen unterstützt werden? Der Autor stellt ein Retrieval-Verfahren vor, das SCORM-basierte Informationen zu Lernobjekten und Kursstrukturen entdeckt, analysiert und verwertet. Auf Grundlage dieser Daten werden für Lehrende als auch Lernende hilfreiche Such- und Empfehlungsdienste angeboten

    Was lehrt uns das Gettier-Problem über das Verhältnis zwischen Intuitionen und Begriffsanalysen?

    Get PDF
    Der Beitrag beleuchtet einen bisher kaum gewürdigten Grund dafür, dass die Gettier-Debatte nicht zu einer systematisch verbesserten Analyse des Wissensbegriffs geführt hat. Es wird die These entwickelt und verteidigt, dass diejenigen Komplikationen, die einen Gettierfall zu einem solchen machen, sich stets in den blinden Flecken der Situationsrepräsentation des epistemischen Subjekts befinden. Diese These ist in die metaphilosophische Fragestellung eingebettet, was das Gettierproblem uns über das Verhältnis von sprachlichen Intuitionen und Begriffsanalysen lehrt. Es gibt unter kompetenten Sprechern beträchtliche Einmütigkeit darüber, dass paradigmatische Gettierfälle als Fälle von Nichtwissen zu klassifizieren sind, aber ungleich weniger Einigkeit darüber, ob und wie die klassische Analyse des Wissensbegriffs verbessert werden kann. Zu der Frage, warum es so schwer ist, konvergierende sprachliche Intuitionen über Einzelfälle in eine gettierfallsichere allgemeine Analyse zu überführen, werden folgende Thesen entwickelt: Was in Gettierfällen konfligiert, sind nicht Analyse und Intuition als solche, sondern die Charakterisierung eines Situationstyps und die Beurteilung einer einzelnen Situation angesichts einer bestimmten Gettierkomplikation. Die Aufgabe, eine allgemeine Beschreibung der mit Wissen unvereinbaren Komplikationen zu geben, geht weit über die kompetente Beurteilung von Einzelfällen hinaus. Möglicherweise ist sie unlösbar, weil das wörtliche Zutreffen der Beschreibung einer epistemischen Situation niemals garantieren kann, dass sich in den Leerstellen der Beschreibung keine Gettierkomplikation verbirgt

    Keil

    Get PDF
    Der Beitrag beleuchtet einen bisher kaum gewürdigten Grund dafür, dass die Gettier-Debatte nicht zu einer systematisch verbesserten Analyse des Wissensbegriffs geführt hat. Es wird die These entwickelt und verteidigt, dass diejenigen Komplikationen, die einen Gettierfall zu einem solchen machen, sich stets in den blinden Flecken der Situationsrepräsentation des epistemischen Subjekts befinden. Diese These ist in die metaphilosophische Fragestellung eingebettet, was das Gettierproblem uns über das Verhältnis von sprachlichen Intuitionen und Begriffsanalysen lehrt. Es gibt unter kompetenten Sprechern beträchtliche Einmütigkeit darüber, dass paradigmatische Gettierfälle als Fälle von Nichtwissen zu klassifizieren sind, aber ungleich weniger Einigkeit darüber, ob und wie die klassische Analyse des Wissensbegriffs verbessert werden kann. Zu der Frage, warum es so schwer ist, konvergierende sprachliche Intuitionen über Einzelfälle in eine gettierfallsichere allgemeine Analyse zu überführen, werden folgende Thesen entwickelt: Was in Gettierfällen konfligiert, sind nicht Analyse und Intuition als solche, sondern die Charakterisierung eines Situationstyps und die Beurteilung einer einzelnen Situation in Kenntnis einer bestimmten Gettierkomplikation. Die Aufgabe, eine allgemeine Beschreibung derjenigen Komplikationen zu geben, die mit Wissen unvereinbar sind, geht weit über die kompetente Beurteilung von Einzelfällen hinaus. Möglicherweise ist sie unlösbar, weil das wörtliche Zutreffen der Beschreibung einer epistemischen Situation niemals garantieren kann, dass sich in den Leerstellen der Beschreibung keine Gettierkomplikation verbirgt

    Popularität und Relevanz in der Suche

    Get PDF
    In diesem Open-Access-Buch wird mithilfe eines großangelegten Online-Experiments untersucht, wie sich die Anzeige von Zitationen oder Downloads auf die Relevanzbewertung in akademischen Suchsystemenauswirkt. Bei der Suche nach Informationen verwenden Menschen diverse Kriterien, anhand derer sie die Relevanz der Suchergebnisse bewerten. In diesem Buch wird erstmals eine systematische Übersicht über die Einflüsse im Prozess der Relevanzbewertung von Suchergebnissen in akademischen Suchsystemen aufgezeigt. Zudem wird ein anspruchsvolles und komplexes Methodenframework zur experimentellen Untersuchung von Relevanzkriterien vorgestellt. Dieses eignet sich für die weitergehende Erforschung von Relevanzkriterien im informationswissenschaftlichen Bereich
    corecore