61 research outputs found

    Ontologiebasierte Indexierung und Kontextualisierung multimedialer Dokumente für das persönliche Wissensmanagement

    Get PDF
    Die Verwaltung persönlicher, multimedialer Dokumente kann mit Hilfe semantischer Technologien und Ontologien intelligent und effektiv unterstützt werden. Dies setzt jedoch Verfahren voraus, die den grundlegenden Annotations- und Bearbeitungsaufwand für den Anwender minimieren und dabei eine ausreichende Datenqualität und -konsistenz sicherstellen. Im Rahmen der Dissertation wurden notwendige Mechanismen zur semi-automatischen Modellierung und Wartung semantischer Dokumentenbeschreibungen spezifiziert. Diese bildeten die Grundlage für den Entwurf einer komponentenbasierten, anwendungsunabhängigen Architektur als Basis für die Entwicklung innovativer, semantikbasierter Lösungen zur persönlichen Dokumenten- und Wissensverwaltung.Personal multimedia document management benefits from Semantic Web technologies and the application of ontologies. However, an ontology-based document management system has to meet a number of challenges regarding flexibility, soundness, and controllability of the semantic data model. The first part of the dissertation proposes necessary mechanisms for the semi-automatic modeling and maintenance of semantic document descriptions. The second part introduces a component-based, application-independent architecture which forms the basis for the development of innovative, semantic-driven solutions for personal document and information management

    Ähnlichkeitsbasierte Modellierungsunterstützung für Geschäftsprozesse

    Get PDF
    In der Arbeit wird erstmalig ein Unterstützungssystem für die Geschäftsprozessmodellierung vorgestellt, das dem Benutzer zu seinem gerade editierten Prozess Prozessfragmente aus einer Bibliothek vorschlägt. Der Vorschlag von Prozessfragmenten erfolgt auf Basis von Geschäftsregeln und Korrektheits- und Semantikkriterien. Zusätzlich werden Ähnlichkeitsmaße definiert, durch die Prozessteile mit unterschiedlichem Vokabular zur Beschreibung gleicher Prozessobjekte wieder verwendet werden können

    Serviceorientiertes Text Mining am Beispiel von Entitätsextrahierenden Diensten

    Get PDF
    Der Großteil des geschäftsrelevanten Wissens liegt heute als unstrukturierte Information in Form von Textdaten auf Internetseiten, in Office-Dokumenten oder Foreneinträgen vor. Zur Extraktion und Verwertung dieser unstrukturierten Informationen wurde eine Vielzahl von Text-Mining-Lösungen entwickelt. Viele dieser Systeme wurden in der jüngeren Vergangenheit als Webdienste zugänglich gemacht, um die Verwertung und Integration zu vereinfachen. Die Kombination verschiedener solcher Text-Mining-Dienste zur Lösung konkreter Extraktionsaufgaben erscheint vielversprechend, da so bestehende Stärken ausgenutzt, Schwächen der Systeme minimiert werden können und die Nutzung von Text-Mining-Lösungen vereinfacht werden kann. Die vorliegende Arbeit adressiert die flexible Kombination von Text-Mining-Diensten in einem serviceorientierten System und erweitert den Stand der Technik um gezielte Methoden zur Auswahl der Text-Mining-Dienste, zur Aggregation der Ergebnisse und zur Abbildung der eingesetzten Klassifikationsschemata. Zunächst wird die derzeit existierende Dienstlandschaft analysiert und aufbauend darauf eine Ontologie zur funktionalen Beschreibung der Dienste bereitgestellt, so dass die funktionsgesteuerte Auswahl und Kombination der Text-Mining-Dienste ermöglicht wird. Des Weiteren werden am Beispiel entitätsextrahierender Dienste Algorithmen zur qualitätssteigernden Kombination von Extraktionsergebnissen erarbeitet und umfangreich evaluiert. Die Arbeit wird durch zusätzliche Abbildungs- und Integrationsprozesse ergänzt, die eine Anwendbarkeit auch in heterogenen Dienstlandschaften, bei denen unterschiedliche Klassifikationsschemata zum Einsatz kommen, gewährleisten. Zudem werden Möglichkeiten der Übertragbarkeit auf andere Text-Mining-Methoden erörtert

    Automatisierte Verfahren für die Themenanalyse nachrichtenorientierter Textquellen: Automatisierte Verfahren für dieThemenanalyse nachrichtenorientierterTextquellen

    Get PDF
    Im Bereich der medienwissenschaftlichen Inhaltsanalyse stellt die Themenanalyse einen wichtigen Bestandteil dar. Für die Analyse großer digitaler Textbestände hin- sichtlich thematischer Strukturen ist es deshalb wichtig, das Potential automatisierter computergestützter Methoden zu untersuchen. Dabei müssen die methodischen und analytischen Anforderungen der Inhaltsanalyse beachtet und abgebildet werden, wel- che auch für die Themenanalyse gelten. In dieser Arbeit werden die Möglichkeiten der Automatisierung der Themenanalyse und deren Anwendungsperspektiven untersucht. Dabei wird auf theoretische und methodische Grundlagen der Inhaltsanalyse und auf linguistische Theorien zu Themenstrukturen zurückgegriffen,um Anforderungen an ei- ne automatische Analyse abzuleiten. Den wesentlichen Beitrag stellt die Untersuchung der Potentiale und Werkzeuge aus den Bereichen des Data- und Text-Mining dar, die für die inhaltsanalytische Arbeit in Textdatenbanken hilfreich und gewinnbringend eingesetzt werden können. Weiterhin wird eine exemplarische Analyse durchgeführt, um die Anwendbarkeit automatischer Methoden für Themenanalysen zu zeigen. Die Arbeit demonstriert auch Möglichkeiten der Nutzung interaktiver Oberflächen, formu- liert die Idee und Umsetzung einer geeigneten Software und zeigt die Anwendung eines möglichen Arbeitsablaufs für die Themenanalyse auf. Die Darstellung der Potentiale automatisierter Themenuntersuchungen in großen digitalen Textkollektionen in dieser Arbeit leistet einen Beitrag zur Erforschung der automatisierten Inhaltsanalyse. Ausgehend von den Anforderungen, die an eine Themenanalyse gestellt werden, zeigt diese Arbeit, mit welchen Methoden und Automatismen des Text-Mining diesen Anforderungen nahe gekommen werden kann. Zusammenfassend sind zwei Anforde- rungen herauszuheben, deren jeweilige Erfüllung die andere beeinflusst. Zum einen ist eine schnelle thematische Erfassung der Themen in einer komplexen Dokument- sammlung gefordert, um deren inhaltliche Struktur abzubilden und um Themen kontrastieren zu können. Zum anderen müssen die Themen in einem ausreichenden Detailgrad abbildbar sein, sodass eine Analyse des Sinns und der Bedeutung der The- meninhalte möglich ist. Beide Ansätze haben eine methodische Verankerung in den quantitativen und qualitativen Ansätzen der Inhaltsanalyse. Die Arbeit diskutiert diese Parallelen und setzt automatische Verfahren und Algorithmen mit den Anforde- rungen in Beziehung. Es können Methoden aufgezeigt werden, die eine semantische und damit thematische Trennung der Daten erlauben und einen abstrahierten Über- blick über große Dokumentmengen schaffen. Dies sind Verfahren wie Topic-Modelle oder clusternde Verfahren. Mit Hilfe dieser Algorithmen ist es möglich, thematisch kohärente Untermengen in Dokumentkollektion zu erzeugen und deren thematischen Gehalt für Zusammenfassungen bereitzustellen. Es wird gezeigt, dass die Themen trotz der distanzierten Betrachtung unterscheidbar sind und deren Häufigkeiten und Verteilungen in einer Textkollektion diachron dargestellt werden können. Diese Auf- bereitung der Daten erlaubt die Analyse von thematischen Trends oder die Selektion bestimmter thematischer Aspekte aus einer Fülle von Dokumenten. Diachrone Be- trachtungen thematisch kohärenter Dokumentmengen werden dadurch möglich und die temporären Häufigkeiten von Themen können analysiert werden. Für die detaillier- te Interpretation und Zusammenfassung von Themen müssen weitere Darstellungen und Informationen aus den Inhalten zu den Themen erstellt werden. Es kann gezeigt werden, dass Bedeutungen, Aussagen und Kontexte über eine Kookurrenzanalyse im Themenkontext stehender Dokumente sichtbar gemacht werden können. In einer Anwendungsform, welche die Leserichtung und Wortarten beachtet, können häufig auftretende Wortfolgen oder Aussagen innerhalb einer Thematisierung statistisch erfasst werden. Die so generierten Phrasen können zur Definition von Kategorien eingesetzt werden oder mit anderen Themen, Publikationen oder theoretischen An- nahmen kontrastiert werden. Zudem sind diachrone Analysen einzelner Wörter, von Wortgruppen oder von Eigennamen in einem Thema geeignet, um Themenphasen, Schlüsselbegriffe oder Nachrichtenfaktoren zu identifizieren. Die so gewonnenen Infor- mationen können mit einem „close-reading“ thematisch relevanter Dokumente ergänzt werden, was durch die thematische Trennung der Dokumentmengen möglich ist. Über diese methodischen Perspektiven hinaus lassen sich die automatisierten Analysen als empirische Messinstrumente im Kontext weiterer hier nicht besprochener kommu- nikationswissenschaftlicher Theorien einsetzen. Des Weiteren zeigt die Arbeit, dass grafische Oberflächen und Software-Frameworks für die Bearbeitung von automatisier- ten Themenanalysen realisierbar und praktikabel einsetzbar sind. Insofern zeigen die Ausführungen, wie die besprochenen Lösungen und Ansätze in die Praxis überführt werden können. Wesentliche Beiträge liefert die Arbeit für die Erforschung der automatisierten Inhaltsanalyse. Die Arbeit dokumentiert vor allem die wissenschaftliche Auseinan- dersetzung mit automatisierten Themenanalysen. Während der Arbeit an diesem Thema wurden vom Autor geeignete Vorgehensweisen entwickelt, wie Verfahren des Text-Mining in der Praxis für Inhaltsanalysen einzusetzen sind. Unter anderem wur- den Beiträge zur Visualisierung und einfachen Benutzung unterschiedlicher Verfahren geleistet. Verfahren aus dem Bereich des Topic Modelling, des Clustering und der Kookkurrenzanalyse mussten angepasst werden, sodass deren Anwendung in inhalts- analytischen Anwendungen möglich ist. Weitere Beiträge entstanden im Rahmen der methodologischen Einordnung der computergestützten Themenanalyse und in der Definition innovativer Anwendungen in diesem Bereich. Die für die vorliegende Arbeit durchgeführte Experimente und Untersuchungen wurden komplett in einer eigens ent- wickelten Software durchgeführt, die auch in anderen Projekten erfolgreich eingesetzt wird. Um dieses System herum wurden Verarbeitungsketten,Datenhaltung,Visualisie- rung, grafische Oberflächen, Möglichkeiten der Dateninteraktion, maschinelle Lernver- fahren und Komponenten für das Dokumentretrieval implementiert. Dadurch werden die komplexen Methoden und Verfahren für die automatische Themenanalyse einfach anwendbar und sind für künftige Projekte und Analysen benutzerfreundlich verfüg- bar. Sozialwissenschaftler,Politikwissenschaftler oder Kommunikationswissenschaftler können mit der Softwareumgebung arbeiten und Inhaltsanalysen durchführen, ohne die Details der Automatisierung und der Computerunterstützung durchdringen zu müssen

    HiER 2015. Proceedings des 9. Hildesheimer Evaluierungs- und Retrievalworkshop

    Get PDF
    Die Digitalisierung formt unsere Informationsumwelten. Disruptive Technologien dringen verstärkt und immer schneller in unseren Alltag ein und verändern unser Informations- und Kommunikationsverhalten. Informationsmärkte wandeln sich. Der 9. Hildesheimer Evaluierungs- und Retrievalworkshop HIER 2015 thematisiert die Gestaltung und Evaluierung von Informationssystemen vor dem Hintergrund der sich beschleunigenden Digitalisierung. Im Fokus stehen die folgenden Themen: Digital Humanities, Internetsuche und Online Marketing, Information Seeking und nutzerzentrierte Entwicklung, E-Learning

    Abbildung relationaler Daten auf die Ontologie des CIDOC CRM

    Get PDF
    Vor dem Hintergrund des Problems der Datenbankintegration hat diese Arbeit das Mapping der relationalen Daten des Bilddatenbanksystems ConedaKor auf die vom ICOM entwickelte Ontologie CIDOC CRM zum Ziel. Nachdem die beiden zugrunde liegenden Datenmodelle vorgestellt worden sind, diskutiert die Arbeit verschiedene Mapping-Ansätze im Hinblick auf die Automatisierung des Mapping-Prozesses. Aus dieser Diskussion resultierend, wird für das spezifische Problem des Abbildens der relationalen Daten von ConedaKor auf die Ontologie CIDOC CRM ein Mapping-Ansatz vorgestellt, der im Wesentlichen auf linguistischen Kriterien beruht. Zur softwaretechnischen Realisierung des Ansatzes wurde im Rahmen dieser Arbeit ein Tool implementiert, das im Anschluss beschrieben wird. Schließlich werden die erreichten Ergebnisse des Tools evaluiert und diskutiert

    Ontologie-unterstützte Klassifikation von Software-Anforderungen

    Get PDF
    Die Analyse der Lastenhefte für die Planung der Software bringt einen erheblichen manuellen Aufwand mit sich. Bei Robert Bosch GmbH werden die Anforderungen aus den Lastenheften der Kunden auf eine V-Prozessmodell-Datenbank abgebildet. Diese Datenbank besteht aus den sogenannten internen Anforderungen, die Richtlinien für Hardware- und Softwareentwicklung enthalten. Jede Kundenanforderung muss von den Mitarbeitern manuell auf eine oder mehrere Anforderungen abgebildet werden. Im Rahmen dieser Arbeit wurde ein automatisiertes Verfahren entwickelt, welches den Mitarbeiter bei dem Abbildungsprozess unterstützen kann. Dafür wurde aus den Textdaten der Kundenanforderungen eine Ontologie automatisch generiert, die Fachbegriffe und ihre Beziehungen enthält. Aus dieser Ontologie wurden Merkmale erzeugt, welche mit einem unüberwachten Verfahren des maschinellen Lernens, nämlich hierarchisches Clustering gruppiert wurden. Dadurch war es möglich eine neue Kundenanforderung in ein bestehendes Cluster einzuordnen und, basierend auf die Kundenanforderungen in dem Cluster, Vorschläge für die zutreffenden internen Anforderungen zu erhalten. Um die entstandene Ontologie zu evaluieren, wurde diese auf falsch extrahierte Konzepte und Beziehungen überprüft. 16 % der Konzepte und 24% der Relationen erwiesen sich als falsch. Die Voraussage der Vorschläge erreichte ein F-Maß von 58 %, bei den Evaluations Metriken Präzision@5 und Ausbeute@5

    Text Extraction und Semantic Web am Beispiel von Marktstudien

    Get PDF
    Das Erstellen von Textzusammenfassungen ist bei Recherchearbeiten die gängigste Praxis, um einem Text seine Kernaussage zu entnehmen. Aus einer Zusammenfassung leitet man die essenzielle Information ab, mit dem Ziel, einen Text einem Themengebiet zuzuordnen. Dem Benutzer hilft hierbei ein software-gestütztes System zur Textzusammenfassung. Texte beinhalten aus Sicht eines Computersystems eine Aneinanderreihung von Wörtern bzw. Sätzen und besitzen demnach keine feste Struktur. Aus den unstrukturierten Daten im Text müssen Wörter extrahiert werden, die den Kerninhalt eines Textes widerspiegeln. Auf Basis der extrahierten Wörter erfolgt die endgültige Zusammenfassung und anschließend die semantische Auszeichnung des Gesamttextes, was der Themengebietszuordnung entspricht. Bewährte Methoden für die Textzusammenfassung sind das statistische Verfahren und das sogenannte Signalwort-Verfahren. Grundlage dafür sind die theoretischen Arbeiten von H. P. Luhn und Edmundson. Als weitere Hilfsmittel dienen statistische Methoden aus dem Text Mining. Für die Zuordnung des Textes zu einem Themengebiet eignen sich die Semantic Web Standards des W3C. Der auf Basis dieser Theorien entwickelte Lösungsweg dient als Standardverfahren für eine software-gestützte Textzusammenfassung. Durch die definierten Standards ist die Software in der Lage, jegliche Textarten aus beliebiger Quelle einzulesen, zusammenzufassen und semantisch auszuzeichnen. Benutzer, deren Aufgabe im Unternehmen darin besteht, Recherchearbeiten zu betreiben, verwenden diese software-gestützte Textzusammenfassung. Durch diese Unterstützung spart der Benutzer bei einer Zusammenfassung von mehreren Textdaten Zeit und Aufwand, da der Vorgang durch die Software automatisch abläuft. Aus Sicht eines Unternehmens liegt das Hauptaugenmerk auf der schnellen Informationsgewinnung aus Texten, was essenziell für eine Weiterverarbeitung der Textdaten ist.Creating a text summary is a common practice in the research field for withdrawing the main quintessence of the text. From the text summary the main information will be derived in order to assign the text to a topic. A software based solution for Text-Summarization supports the user to achieve the goal. From the computersystems’ point of view, texts contain a series of words and sentences respectively, thus texts do not have a certain structure, which means texts are more or less unstructured. Words have to be extracted from this unstructured data, which reflects the core content of the text. Based on this extracted words follows the summarization and after that the semantic annotation of the text, which is simmilar to the assignment of the text to a topic. The two main methods for Text-Summarization are the statististical procedure and the so-called Cue-Word-Method. The basic principles for these methods are based on the theoretical works of H. P. Luhn and Edmundson. Additionaly statistical methods from the Text Mining field also support the Text-Summarization. The proposals of the Semantic Web standards by the W3C will be used to assign a text to a topic. The developed solution, which is based on the theoretical proposals is used as a standard procedure for a software based Text-Summarization. By defining these standards the software is capable to read, summarize and annotate any form of text from any source. Users who are specialized in conducting text summaries in a company use this softwarebased Text-Summarization. By supporting the user on the summarization process, time and effort are saved, since the Text-Summarization procedure is automated. From the companies’ point of view the main focus lies on the fast and rapid information extraction of texts, which is essential for further data processing

    Digitale Infrastrukturen für die germanistische Forschung

    Get PDF
    Modern research in linguistics is increasingly reliant on digital infrastructure and information systems. This development began at the turn of the millennium and has since accelerated. The volume examines national and European infrastructure networks and the range of language resources in German linguistics that can be discovered, disclosed, and re-applied through digital infrastructure
    corecore