19 research outputs found

    Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

    Full text link
    Knowledge graphs have been shown to play an important role in recent knowledge mining and discovery, for example in the field of life sciences or bioinformatics. Although a lot of research has been done on the field of query optimization, query transformation and of course in storing and retrieving large scale knowledge graphs the field of algorithmic optimization is still a major challenge and a vital factor in using graph databases. Few researchers have addressed the problem of optimizing algorithms on large scale labeled property graphs. Here, we present two optimization approaches and compare them with a naive approach of directly querying the graph database. The aim of our work is to determine limiting factors of graph databases like Neo4j and we describe a novel solution to tackle these challenges. For this, we suggest a classification schema to differ between the complexity of a problem on a graph database. We evaluate our optimization approaches on a test system containing a knowledge graph derived biomedical publication data enriched with text mining data. This dense graph has more than 71M nodes and 850M relationships. The results are very encouraging and - depending on the problem - we were able to show a speedup of a factor between 44 and 3839

    Pseudostabile Mengen in Graphen

    Get PDF
    Diese Arbeit beschäftigt sich mit der Überdeckung von einfachen Graphenmit pseudostabilen Mengen und der minimalen Zerlegung von Graphen in pseudostabile Mengen. Dabei ist die Wertigkeit einer minimalen Zerlegung des Graphen G = (V, E) durch ζ(G) gegeben. Pseudostabile Mengen stellen eine Verallgemeinerung von stabilen Mengen dar. Pseudostabile Mengen zerfallen in stabile Mengen, erlauben aber unter verschiedenen Nebenbedingungen bestimmte Pfade zwischen diesen. Zur Charakterisierung dieser Pfade wird der darstellende Graph G P einer Zerlegung P des Graphen G = (V, E) in pseudostabile Mengen betrachtet. Dabei führen bestimmte Voraussetzungen zu verschiedenen Unterproble- men, die in dieser Arbeit definiert und untersucht werden. Alle Probleme sind im Allgemeinen N P-vollständig, wie in der vorliegenden Arbeit gezeigt wird. Es werden allerdings auch Graphenklassen beschrieben, auf denen die einzelnen Probleme in polynomieller Zeit lösbar sind. Pseudostabile Mengen erlauben stets nur einen Pfad zwischen stabilen Teilmengen, mehrfach pseudostabile Mengen mehrere Pfade. Die beiden in die- ser Arbeit betrachteten Hauptprobleme sind minPS – eine minimale Zerlegung eines Graphen G in pseudostabile Mengen – und minMPS – eine Zerlegung eines Graphen G in mehrfach pseudostabile Mengen. Eine Zerlegung in pseudostabile Mengen erlaubt nur einen Pfad der Länge 3 zwischen zwei stabilen Mengen. Für den darstellenden Graphen G P gilt, dass er kreisfrei ist und für alle v ∈ V (G P ) gilt, dass δ(v) ∈ {0, 1, 2}. Diese Zerlegung entspricht der optimalen Lösung verschiedener Rangierprobleme auf Güterbahnhöfen. Dies wird in der vorliegenden Arbeit vertieft und es werden von dieser neuen Formulierung aus weitere Lösungsheuristiken und Schranken hergeleitet. Mehrfach pseudostabile Mengen erlauben mehrere Pfade der Länge 3 zwischen stabilen Mengen. Gibt es keine Einschränkungen auf dem darstellenden Graphen G P so ist dies die allgemeinste Fassung des Problems. In dieser Arbeit wird gezeigt, dass dieses Problem eine graphentheoretische Umformulierung des soft Document Clustering ist. Es ist bereits bekannt, dass hard Document Clustering einer Zerlegung eines Dokumentengraphen in stabile Mengen bzw. Cliquen entspricht. Hier wird die Verallgemeinerung auf das weiter gefasste soft Document Clustering diskutiert und es werden Lösungsheuristiken diskutiert. Neben diesen beiden Unterproblemen und den dazugehörigen Anwendungsproblemen werden auch weitere mögliche Verallgemeinerungen, zum Bei-spiel Pseudocliquen, definiert. Eine minimale Zerlegung eines einfachen Graphen G = (V, E) in Pseudocliquen hat dabei die Wertigkeit ζ(G). Diese betten sich nahtlos in die in der vorliegenden Arbeit diskutierten Grundlagen für pseudostabile Mengen ein, da gezeigt wird, dass für den komplementären Graphen G ζ(G) = ζ(G) gilt

    Social networks in Early Christianity in Acts 1-12

    Get PDF
    Text in German with summaries in German and EnglishIncludes bibliographical references (leaves 197-211)Biblical studies in New Testament are generating considerable interest in the investigation of historical groups, for example by using prosopographic approaches. This thesis presents a new approach to reconstruct the early Christian network in Acts 1-12. We consider the social network analyses (SNA), critical spatiality and Proximal Point Analyses (PPA). Although these approaches show interesting results, they suffer from a global distance measure. Thus, we introduce a novel approach combining SNA and critical spatiality to analyse geographic and social distances. This method represents a valuable alternative to traditional theological tools for answering exegetical questions concerning the social network in Acts 1-12 offering ways for re-thinking and re-interpretation. The network represents the first fulfillment of the promise given in Acts 1:8. Moreover, it allows us to distinguish between protagonists and their influence. Using different distance measurements, we were not only able to describe the high level of solidarity in this network but could also find strong evidences for Peter, Philip and Barnabas being key figures. Acts 1-12 describes mission as led by God and performed by different people with Jerusalem as the centre of activity. This mission is both peripheral and open to people with diverse social, religious and geographic backgrounds. In the novel network of people belonging to the body of Christ human leadership is not important. It was not possible to apply this method to all exegetical questions due to the fact that there are only limited historic sources available.In der neutestamentlichen Wissenschaft wurden verschiedene Methoden wie die Prosopographie zur Erforschung bestimmter Personenkreise verwendet. Diese Arbeit beschäftigt sich mit der Rekonstruktion des frühchristlichen sozialen Netzwerks nach der Darstellung in Apg 1-12. Dazu wird die Methode der sozialen Netzwerkanalyse (SNA), der critical spatiality sowie die Proximal Point Analyse (PPA) verwendet. Dabei werden die methodischen Ansätze von verschiedenen historischen Netzwerkanalysen zusammengetragen und durch eine Verknüpfung von SNA und critical spatiality eine einheitliche Herangehensweise hergeleitet, die auch geographische wie soziale Distanzen darstellen kann. Dabei finden sich in Apg 1-12 sowohl exegetische Fragestellungen, auf die diese Methode aufgrund der schlechten Quellenlage nicht angewendet werden kann, als auch Fragestellungen, die mit dieser Methode unter neuen Gesichtspunkten interpretiert werden kann. So lässt sich im rekonstruierten Netzwerk von Apg 1-12 der erste Abschnitt der Erfüllung der Verheißung aus Apg 1,8 erkennen. Außerdem hilft die SNA, die einzelnen Akteure und ihr Handeln in der Apg besser zu würdigen. So ist ein eigenes Kapitel nicht nur Petrus, sondern auch Philippus und Barnabas gewidmet. Apg 1-12 stellt eine Mission dar, deren alleiniger Urheber Gott ist und die von verschiedensten Menschen mit der Stadt Jerusalem als Zentrum überwiegend dezentral und offen für verschiedene soziale, religiöse und geographische Hintergründe ausgeführt wird. Sie zeichnet ein besonderes Bild vom urchristlichen sozialen Netzwerk, das wenig menschliche Leitung beinhaltet und sich qualitativ unterscheidet. Die Analyse mit verschiedenen Zentralitätsmaßen zeigt ebenfalls die starke Verbundenheit der urchristlichen Gemeinschaft und den signifikanten Beitrag mehrerer PersonenNew TestamentM. Th. (New Testament

    Rule-based detection of access to education and training in Germany

    Full text link
    As a result of transformation processes, the German labor market is highly dependent on vocational training, retraining and continuing education. To match training seekers and offers, we present a novel approach towards the automated detection of access to education and training in German training offers and advertisements. We will in particular focus on (a) general school and education degrees and schoolleaving certificates, (b) professional experience, (c) a previous apprenticeship and (d) a list of skills provided by the German Federal Employment Agency. This novel approach combines several methods: First, we provide a mapping of synonyms in education combining different qualifications and adding deprecated terms. Second, we provide a rule-based matching to identify the need for professional experience or apprenticeship. However, not all access requirements can be matched due to incompatible data schemata or non-standardizes requirements, e.g initial tests or interviews. While we can identify several shortcomings, the presented approach offers promising results for two data sets: training and re-training advertisements

    A Generic Framework for Hidden Markov Models on Biomedical Data

    Full text link
    Background: Biomedical data are usually collections of longitudinal data assessed at certain points in time. Clinical observations assess the presences and severity of symptoms, which are the basis for description and modeling of disease progression. Deciphering potential underlying unknowns solely from the distinct observation would substantially improve the understanding of pathological cascades. Hidden Markov Models (HMMs) have been successfully applied to the processing of possibly noisy continuous signals. The aim was to improve the application HMMs to multivariate time-series of categorically distributed data. Here, we used HHMs to study prediction of the loss of free walking ability as one major clinical deterioration in the most common autosomal dominantly inherited ataxia disorder worldwide. We used HHMs to investigate the prediction of loss of the ability to walk freely, representing a major clinical deterioration in the most common autosomal-dominant inherited ataxia disorder worldwide. Results: We present a prediction pipeline which processes data paired with a configuration file, enabling to construct, validate and query a fully parameterized HMM-based model. In particular, we provide a theoretical and practical framework for multivariate time-series inference based on HMMs that includes constructing multiple HMMs, each to predict a particular observable variable. Our analysis is done on random data, but also on biomedical data based on Spinocerebellar ataxia type 3 disease. Conclusions: HHMs are a promising approach to study biomedical data that naturally are represented as multivariate time-series. Our implementation of a HHMs framework is publicly available and can easily be adapted for further applications

    Wissensgraphen: Interdisziplinäre Perspektiven für Linked Data in den Geistes- und Sozialwissenschaften

    No full text
    Knowledge graphs and network approaches are an increasingly vibrant research topic in quite different disciplines. This article acknowledges their parallel development in applied and mathematical fields, and the various current approaches between computer science, mathematics, data science, and the humanities and social sciences. This gives rise to key interdisciplinary perspectives: first, network approaches in the humanities and social sciences need to be broader, as knowledge networks are already implicit in the use of Linked Data. Second, the methodological breadth of knowledge graphs, in which, for example, social networks can be conceived as knowledge graphs, results in new tools and new methods of analysis. In this respect, this paper is intended as a plea for interdisciplinary exchange and in-depth discussion of methods, algorithms, and Linked Data approaches

    Pseudostabile Mengen in Graphen

    No full text
    Diese Arbeit beschäftigt sich mit der Überdeckung einfacher Graphen mit pseudostabilen Mengen und der minimalen Zerlegung von Graphen in eben solche. Pseudostabile Mengen stellen eine Verallgemeinerung von stabilen Mengen dar. Beim Zerfall pseudostabiler Mengen entstehen wiederum stabile Mengen, die jedoch unter verschiedenen Nebenbedingungen über bestimmte Pfade verbunden bleiben. Dabei führen bestimmte Voraussetzungen zu verschiedenen Unterproblemen, die in dieser Arbeit definiert und untersucht werden. Wie hier ebenfalls gezeigt wird, sind alle diese Probleme im Allgemeinen NP-vollständig. Es werden allerdings darüber hinaus auch Graphenklassen beschrieben, auf denen die einzelnen Probleme in polynomieller Zeit lösbar sind. Als ein Anwendungsproblem wird das ›Train Marshalling‹-Problem betrachtet: eine Zerlegung eines Graphen in pseudostabile Mengen entspricht der optimalen Lösung verschiedener Rangierprobleme auf Güter-bahnhöfen. Dies wird in der vorliegenden Arbeit vertieft. Des Weiteren werden auf Basis dieser neuen Formulierung weitere Lösungsheuristiken und Schranken hergeleitet. Als weiteres Anwendungsproblem wird eine graphentheoretische Umformulierung des ›Soft Document Clusterings‹ betrachtet. Es ist bereits bekannt, dass ›Hard Document Clustering‹ einer Zerlegung eines Dokumenten-graphen in stabile Mengen bzw. Cliquen entspricht. Im Rahmen dieser Arbeit wird die Verallgemeinerung auf das weiter gefasste Soft Document Clustering eingeführt und Lösungsheuristiken diskutiert

    Ein kollaborativer Workflow zur historischen Netzwerkanalyse mit Open Source Software

    No full text
    Die soziale Netzwerkanalyse versucht menschliche Interaktion in einen analytischen und auswertbaren Zusammenhang zu bringen. Sie hat sich als Methode in den letzten Jahrzehnten über die Sozialwissenschaften hinaus in die Geschichtswissenschaften, Archäologie und Religionswissenschaften verbreitet. Dabei fanden verschiedene Paradigmenwechsel statt, zum Beispiel vom statischen Netzwerken mit dem Schwerpunkt auf quantitativ-struktureller Analyse hin zu heterogenen Handlungsnetzwerken wie zum Beispiel in der der Actor Network Theory (ANT) gewandelt. Der Fokus liegt aktuell eher auf der Frage des Informationsaustauschs und der Dynamik nicht statischer Netzwerke
    corecore