113 research outputs found

    Semantische Informationsintegration - Konzeption eines auf Beschreibungslogiken basierenden Integrationssystems für die Produktentwicklung

    Get PDF
    Aufgrund der Notwendigkeit, unkontrolliert aufkommende Datenfluten zu beherrschen sowie der steigenden Produktkomplexität resultiert der Handlungsbedarf, skalierbare Informationsintegrationslösungen zu finden, die einen effizienten und kontextbezogenen Zugriff auf Wissen unterstützen. Einsatz eines semantischen Integrationskonzepts in der Produktentwicklung erweitert den Wissensbeschaffungsraum des Ingenieurs enorm und ermöglicht die Interoperabilität heterogener Informationssysteme

    Semantic Technologies for Manuscript Descriptions — Concepts and Visions

    Get PDF
    The contribution at hand relates recent developments in the area of the World Wide Web to codicological research. In the last number of years, an informational extension of the internet has been discussed and extensively researched: the Semantic Web. It has already been applied in many areas, including digital information processing of cultural heritage data. The Semantic Web facilitates the organisation and linking of data across websites, according to a given semantic structure. Software can then process this structural and semantic information to extract further knowledge. In the area of codicological research, many institutions are making efforts to improve the online availability of handwritten codices. If these resources could also employ Semantic Web techniques, considerable research potential could be unleashed. However, data acquisition from less structured data sources will be problematic. In particular, data stemming from unstructured sources needs to be made accessible to SemanticWeb tools through information extraction techniques. In the area of museum research, the CIDOC Conceptual Reference Model (CRM) has been widely examined and is being adopted successfully. The CRM translates well to Semantic Web research, and its concentration on contextualization of objects could support approaches in codicological research. Further concepts for the creation and management of bibliographic coherences and structured vocabularies related to the CRM will be considered in this chapter. Finally, a user scenario showing all processing steps in their context will be elaborated on

    E-Commerce und Supply-Chain-Management: Maßnahmen und Instrumente zur Verbesserung der Koordination in Lieferketten

    Get PDF
    Aufgrund mangelnder Koordination zwischen den einzelnen Unternehmen innerhalb einer Lieferkette treten Ineffizienzen auf, durch die Lagerbestände und Kosten aller Beteiligten unnötig erhöht werden. Die Variabilität der Bestellungen und Bestände erhöht sich ausgehend vom Endhändler schrittweise innerhalb der Supply-Chain. Als Ursachen für dieses als Bullwhip-Effekt bekannte Phänomen können fünf Faktoren identifiziert werden, die in dieser Arbeit vorgestellt wurden: unsichere Informationslage und Prognoseprobleme, lange Auftragsdurchlaufzeiten, schubweise Bestellungen durch Losgrößenbildung, Rationierung und Spekulation bei Engpässen, sowie Werbeaktionen und Preisfluktuationen. --

    Ontoverse: Collaborative Knowledge Management in the Life Sciences Network

    Get PDF
    This paper regards the two aspects of knowledge networking: data networks for information integration and social networks for information sharing in communities. The importance of ontologies as a means for effective information integration is discussed and related to the current Web 2.0 trends. The Ontoverse ontology wiki is introduced as a tool for collaborative ontology engineering and knowledge management with particular focus on interlinking the research community within the life sciences

    Der Lehrstuhl Datenbank- und Informationssysteme der Universität Rostock

    Get PDF
    Im Jahr 2014 feierte der Lehrstuhl Datenbank- und Informationssysteme (LS DBIS) an der Universität Rostock sein zwanzigjähriges Bestehen. Zur Jubiläumsveranstaltung mit ehemaligen und aktuellen Studenten, Mitarbeitern, Kollegen und Kooperationspartnern wurde diverses Material aus 20 Jahren aufbereitet. In diesem Beitrag soll daraus ein Rückblick auf 20 Jahre Forschung und Lehre im Bereich Datenbank- und Informationssysteme sowie ein Ein- und Ausblick auf aktuelle Forschungsarbeiten gegeben werden

    Community-Plattformen in der Praxis

    Get PDF

    Übersicht über Crowdsourcing-Ansätze und Plattformen zur Beurteilung von Matchergebnissen

    Get PDF
    Diese Arbeit soll dafür einen Überblick der verschiedenen Crowdsourcing-Ansätze liefern und die Anforderungen und Probleme des Crowdsourcing untersuchen. Dafür wird zunächst das Zusammenführen unterschiedlicher Datenbestände (data matching) betrachtet. Darauf folgt eine allgemeine Vorstellung des Crowdsourcing, um abschließend die unterschiedlichen Ansätze untersuchen zu können

    Leitfaden zur Integration eines klinischen Registers in ein existierendes Informationssystem am Beispiel des klinischen Myelomregisters des Universitätsklinikums Heidelberg

    Get PDF
    Klinische Register können die Forschungs- und Versorgungslücke zwischen evidenzbasierten klinischen Studien einerseits und der Alltagssituation andererseits schließen, indem Patienten aus der Versorgungsrealität eingeschlossen und therapeutische Langzeiteffekte, Nebenendpunkte und Begleiterscheinungen beobachtet werden. Eine systematische Planung und ein standardisiertes Vorgehen gelten dabei als wichtige Faktoren für den unmittelbaren und langfristigen Erfolg eines klinischen Registers. Methodische Richtlinien und Handlungsanleitungen hierfür existieren allerdings kaum und vorhandene Konzepte basieren auf der Annahme, dass mit einem neuen klinischen Register auch neue wissenschaftliche Dokumentationen und Infrastrukturen aufzubauen und einzuführen sind. Entsprechend bleiben bestehende Datenbestände und Informationssysteme bislang meist unberücksichtigt. Ausgehend von einer Literaturrecherche und den daraus abgeleiteten Anforderungen an ein klinisches Register und dessen informationstechnische Infrastruktur wurden ein Vorgehensmodell zur systematischen Planung und eine Referenz-IT-Architektur zum Aufbau und Betrieb einer flexiblen und erweiterbaren IT-Infrastruktur entwickelt. Das Vorgehensmodell kann als Registerprotokoll zur einheitlichen, angemessenen und nachvollziehbaren Beschreibung und zur Herleitung von Zielen, Aufgaben und Fragestellungen eines klinischen Registers eingesetzt werden. Die Referenz-IT-Architektur besteht aus fünf Komponenten: einem prolektiven Dokumentationssystem, den vorhandenen Systemen von Versorgung und Forschung, einem Data Warehouse sowie einem Metadatenmanagementsystem. Es werden Entscheidungen hinsichtlich des Zusammenwirkens spezifiziert, die bei Auswahl und Entwicklung getroffen werden sollten, sodass unterschiedliche Implementierungsvarianten möglich sind. Vorgehensmodell und Referenz-IT-Architektur wurden unter besonderer Berücksichtigung der Integration der Anwendungssysteme des klinischen Registers in die vorhandene Informationsinfrastruktur einer klinisch-wissenschaftlichen Versorgungseinrichtung entwickelt. Damit liegt erstmals ein umfassender allgemeiner Leitfaden für alle Entwicklungsphasen eines klinischen Registers und seiner Integrationsaspekte vor. Der entwickelte Leitfaden konnte erfolgreich für die Planung und den Aufbau des neu am Universitätsklinikum Heidelberg einzuführenden klinischen Myelomregisters angewendet werden. Dabei konnte die Eignung von elektronischen Datenerfassungssystemen für die Realisierung eines klinischen Registers systematische bewertet, ein allgemeines Metadatenmanagementsystem umgesetzt und erprobt und ein automatisiertes Verfahren für die Integration strukturierter Informationen aus dem Heidelberger Krankenhausinformationssystem ausgearbeitet und evaluiert sowie die Eignung von Text Mining Verfahren für die Übernahme unstrukturierter Informationen aus Arztbriefen untersucht werden. Die dabei entstandenen Methoden und Werkzeuge sind größtenteils auch für den Aufbau anderer klinischer Register nutzbar. Es kann davon ausgegangen werden, dass klinische Register auch in Zukunft eine wichtige Methode der klinischen Forschung sein werden. Mit dem entwickelten Leitfaden wurde ein Werkzeug geschaffen, das Nutzen und Nachhaltigkeit klinischer Register durch systematische Planung und Integration erhöhen kann

    Effiziente MapReduce-Parallelisierung von Entity Resolution-Workflows

    Get PDF
    In den vergangenen Jahren hat das neu entstandene Paradigma Infrastructure as a Service die IT-Welt massiv verändert. Die Bereitstellung von Recheninfrastruktur durch externe Dienstleister bietet die Möglichkeit, bei Bedarf in kurzer Zeit eine große Menge von Rechenleistung, Speicherplatz und Bandbreite ohne Vorabinvestitionen zu akquirieren. Gleichzeitig steigt sowohl die Menge der frei verfügbaren als auch der in Unternehmen zu verwaltenden Daten dramatisch an. Die Notwendigkeit zur effizienten Verwaltung und Auswertung dieser Datenmengen erforderte eine Weiterentwicklung bestehender IT-Technologien und führte zur Entstehung neuer Forschungsgebiete und einer Vielzahl innovativer Systeme. Ein typisches Merkmal dieser Systeme ist die verteilte Speicherung und Datenverarbeitung in großen Rechnerclustern bestehend aus Standard-Hardware. Besonders das MapReduce-Programmiermodell hat in den vergangenen zehn Jahren zunehmend an Bedeutung gewonnen. Es ermöglicht eine verteilte Verarbeitung großer Datenmengen und abstrahiert von den Details des verteilten Rechnens sowie der Behandlung von Hardwarefehlern. Innerhalb dieser Dissertation steht die Nutzung des MapReduce-Konzeptes zur automatischen Parallelisierung rechenintensiver Entity Resolution-Aufgaben im Mittelpunkt. Entity Resolution ist ein wichtiger Teilbereich der Informationsintegration, dessen Ziel die Entdeckung von Datensätzen einer oder mehrerer Datenquellen ist, die dasselbe Realweltobjekt beschreiben. Im Rahmen der Dissertation werden schrittweise Verfahren präsentiert, welche verschiedene Teilprobleme der MapReduce-basierten Ausführung von Entity Resolution-Workflows lösen. Zur Erkennung von Duplikaten vergleichen Entity Resolution-Verfahren üblicherweise Paare von Datensätzen mithilfe mehrerer Ähnlichkeitsmaße. Die Auswertung des Kartesischen Produktes von n Datensätzen führt dabei zu einer quadratischen Komplexität von O(n²) und ist deswegen nur für kleine bis mittelgroße Datenquellen praktikabel. Für Datenquellen mit mehr als 100.000 Datensätzen entstehen selbst bei verteilter Ausführung Laufzeiten von mehreren Stunden. Deswegen kommen sogenannte Blocking-Techniken zum Einsatz, die zur Reduzierung des Suchraums dienen. Die zugrundeliegende Annahme ist, dass Datensätze, die eine gewisse Mindestähnlichkeit unterschreiten, nicht miteinander verglichen werden müssen. Die Arbeit stellt eine MapReduce-basierte Umsetzung der Auswertung des Kartesischen Produktes sowie einiger bekannter Blocking-Verfahren vor. Nach dem Vergleich der Datensätze erfolgt abschließend eine Klassifikation der verglichenen Kandidaten-Paare in Match beziehungsweise Non-Match. Mit einer steigenden Anzahl verwendeter Attributwerte und Ähnlichkeitsmaße ist eine manuelle Festlegung einer qualitativ hochwertigen Strategie zur Kombination der resultierenden Ähnlichkeitswerte kaum mehr handhabbar. Aus diesem Grund untersucht die Arbeit die Integration maschineller Lernverfahren in MapReduce-basierte Entity Resolution-Workflows. Eine Umsetzung von Blocking-Verfahren mit MapReduce bedingt eine Partitionierung der Menge der zu vergleichenden Paare sowie eine Zuweisung der Partitionen zu verfügbaren Prozessen. Die Zuweisung erfolgt auf Basis eines semantischen Schlüssels, der entsprechend der konkreten Blocking-Strategie aus den Attributwerten der Datensätze abgeleitet ist. Beispielsweise wäre es bei der Deduplizierung von Produktdatensätzen denkbar, lediglich Produkte des gleichen Herstellers miteinander zu vergleichen. Die Bearbeitung aller Datensätze desselben Schlüssels durch einen Prozess führt bei Datenungleichverteilung zu erheblichen Lastbalancierungsproblemen, die durch die inhärente quadratische Komplexität verschärft werden. Dies reduziert in drastischem Maße die Laufzeiteffizienz und Skalierbarkeit der entsprechenden MapReduce-Programme, da ein Großteil der Ressourcen eines Clusters nicht ausgelastet ist, wohingegen wenige Prozesse den Großteil der Arbeit verrichten müssen. Die Bereitstellung verschiedener Verfahren zur gleichmäßigen Ausnutzung der zur Verfügung stehenden Ressourcen stellt einen weiteren Schwerpunkt der Arbeit dar. Blocking-Strategien müssen stets zwischen Effizienz und Datenqualität abwägen. Eine große Reduktion des Suchraums verspricht zwar eine signifikante Beschleunigung, führt jedoch dazu, dass ähnliche Datensätze, z. B. aufgrund fehlerhafter Attributwerte, nicht miteinander verglichen werden. Aus diesem Grunde ist es hilfreich, für jeden Datensatz mehrere von verschiedenen Attributen abgeleitete semantische Schlüssel zu generieren. Dies führt jedoch dazu, dass ähnliche Datensätze unnötigerweise mehrfach bezüglich verschiedener Schlüssel miteinander verglichen werden. Innerhalb der Arbeit werden deswegen Algorithmen zur Vermeidung solch redundanter Ähnlichkeitsberechnungen präsentiert. Als Ergebnis dieser Arbeit wird das Entity Resolution-Framework Dedoop präsentiert, welches von den entwickelten MapReduce-Algorithmen abstrahiert und eine High-Level-Spezifikation komplexer Entity Resolution-Workflows ermöglicht. Dedoop fasst alle in dieser Arbeit vorgestellten Techniken und Optimierungen in einem nutzerfreundlichen System zusammen. Der Prototyp überführt nutzerdefinierte Workflows automatisch in eine Menge von MapReduce-Jobs und verwaltet deren parallele Ausführung in MapReduce-Clustern. Durch die vollständige Integration der Cloud-Dienste Amazon EC2 und Amazon S3 in Dedoop sowie dessen Verfügbarmachung ist es für Endnutzer ohne MapReduce-Kenntnisse möglich, komplexe Entity Resolution-Workflows in privaten oder dynamisch erstellten externen MapReduce-Clustern zu berechnen

    Evaluierung von Clio zur Transformation von Metamodellen

    Get PDF
    Clio ist ein Tool zur teilautomatischen Erzeugung von Schema Mappings und der anschließenden Transformation der Instanz eines Quellschemas in die Instanz eines Zielschemas. Ein Metamodell ist das Modell eines Modells und dient zur Beschreibung seiner Elemente und ihrer Beziehungen zueinander. Ecore ist eine Implementierung der Meta Object Facility, der standardisierten Sprache der Object Management Group (OMG) zur Beschreibung von Metamodellen. Diese Arbeit untersucht Clio in Anwendung auf Ecore-basierte Metamodelle. Es soll festgestellt werden, ob ein Einsatz von Clio zur Transformation dieser Metamodelle möglich und sinnvoll ist. Dabei wird die Bedienung Clios mit besonderem Augenmerk auf den notwendigen Input untersucht. Anschließend wird eine Methode entwickelt, um Metamodelle entsprechend umzuformen. Schließlich werden diese umgeformten Metamodelle verwendet, um sie mit Clio zu transformieren.Clio is a tool for the semi-automatic generation of schema mappings and the following transformation of an instance of a source schema into the instance of a target schema. A metamodel is the model of a model. It is used to describe model elements and their relationships to each other. Ecore is an implementation of the Meta Object Facility – the standardized language of the Object Management Group (OMG) for the description of metamodels. This thesis evaluates the application of Clio to Ecore-based metamodels. The goal is an evaluation of the pros and cons of using Clio as a tool for the transformation of Ecore-based metamodels. Therefore it is necessary to examine how to use Clio focusing on the required input. Subsequently, a method to translate metamodels is developed. Finally, Clio is used to transform these metamodels
    corecore