19 research outputs found
Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs
Knowledge graphs have been shown to play an important role in recent
knowledge mining and discovery, for example in the field of life sciences or
bioinformatics. Although a lot of research has been done on the field of query
optimization, query transformation and of course in storing and retrieving
large scale knowledge graphs the field of algorithmic optimization is still a
major challenge and a vital factor in using graph databases. Few researchers
have addressed the problem of optimizing algorithms on large scale labeled
property graphs. Here, we present two optimization approaches and compare them
with a naive approach of directly querying the graph database. The aim of our
work is to determine limiting factors of graph databases like Neo4j and we
describe a novel solution to tackle these challenges. For this, we suggest a
classification schema to differ between the complexity of a problem on a graph
database. We evaluate our optimization approaches on a test system containing a
knowledge graph derived biomedical publication data enriched with text mining
data. This dense graph has more than 71M nodes and 850M relationships. The
results are very encouraging and - depending on the problem - we were able to
show a speedup of a factor between 44 and 3839
Pseudostabile Mengen in Graphen
Diese Arbeit beschäftigt sich mit der Überdeckung von einfachen Graphenmit pseudostabilen Mengen und der minimalen Zerlegung von Graphen in pseudostabile Mengen. Dabei ist die Wertigkeit einer minimalen Zerlegung des Graphen G = (V, E) durch ζ(G) gegeben.
Pseudostabile Mengen stellen eine Verallgemeinerung von stabilen Mengen dar. Pseudostabile Mengen zerfallen in stabile Mengen, erlauben aber
unter verschiedenen Nebenbedingungen bestimmte Pfade zwischen diesen. Zur Charakterisierung dieser Pfade wird der darstellende Graph G P einer
Zerlegung P des Graphen G = (V, E) in pseudostabile Mengen betrachtet. Dabei führen bestimmte Voraussetzungen zu verschiedenen Unterproble-
men, die in dieser Arbeit definiert und untersucht werden. Alle Probleme sind im Allgemeinen N P-vollständig, wie in der vorliegenden Arbeit gezeigt wird. Es werden allerdings auch Graphenklassen beschrieben, auf denen die einzelnen Probleme in polynomieller Zeit lösbar sind.
Pseudostabile Mengen erlauben stets nur einen Pfad zwischen stabilen Teilmengen, mehrfach pseudostabile Mengen mehrere Pfade. Die beiden in die-
ser Arbeit betrachteten Hauptprobleme sind minPS – eine minimale Zerlegung eines Graphen G in pseudostabile Mengen – und minMPS – eine
Zerlegung eines Graphen G in mehrfach pseudostabile Mengen. Eine Zerlegung in pseudostabile Mengen erlaubt nur einen Pfad der Länge 3 zwischen zwei stabilen Mengen. Für den darstellenden Graphen G P gilt, dass er kreisfrei ist und für alle v ∈ V (G P ) gilt, dass δ(v) ∈ {0, 1, 2}. Diese
Zerlegung entspricht der optimalen Lösung verschiedener Rangierprobleme auf Güterbahnhöfen. Dies wird in der vorliegenden Arbeit vertieft und es
werden von dieser neuen Formulierung aus weitere Lösungsheuristiken und Schranken hergeleitet.
Mehrfach pseudostabile Mengen erlauben mehrere Pfade der Länge 3 zwischen stabilen Mengen. Gibt es keine Einschränkungen auf dem darstellenden Graphen G P so ist dies die allgemeinste Fassung des Problems. In dieser Arbeit wird gezeigt, dass dieses Problem eine graphentheoretische
Umformulierung des soft Document Clustering ist. Es ist bereits bekannt, dass hard Document Clustering einer Zerlegung eines Dokumentengraphen
in stabile Mengen bzw. Cliquen entspricht. Hier wird die Verallgemeinerung auf das weiter gefasste soft Document Clustering diskutiert und es
werden Lösungsheuristiken diskutiert.
Neben diesen beiden Unterproblemen und den dazugehörigen Anwendungsproblemen werden auch weitere mögliche Verallgemeinerungen, zum Bei-spiel Pseudocliquen, definiert. Eine minimale Zerlegung eines einfachen Graphen G = (V, E) in Pseudocliquen hat dabei die Wertigkeit ζ(G). Diese betten sich nahtlos in die in der vorliegenden Arbeit diskutierten Grundlagen für pseudostabile Mengen ein, da gezeigt wird, dass für den komplementären Graphen G ζ(G) = ζ(G) gilt
Social networks in Early Christianity in Acts 1-12
Text in German with summaries in German and EnglishIncludes bibliographical references (leaves 197-211)Biblical studies in New Testament are generating considerable interest in the investigation
of historical groups, for example by using prosopographic approaches. This thesis presents
a new approach to reconstruct the early Christian network in Acts 1-12. We consider the
social network analyses (SNA), critical spatiality and Proximal Point Analyses (PPA).
Although these approaches show interesting results, they suffer from a global distance
measure. Thus, we introduce a novel approach combining SNA and critical spatiality to
analyse geographic and social distances. This method represents a valuable alternative
to traditional theological tools for answering exegetical questions concerning the social
network in Acts 1-12 offering ways for re-thinking and re-interpretation. The network
represents the first fulfillment of the promise given in Acts 1:8. Moreover, it allows us to
distinguish between protagonists and their influence. Using different distance measurements, we were not only able to describe the high level of solidarity in this network but
could also find strong evidences for Peter, Philip and Barnabas being key figures. Acts
1-12 describes mission as led by God and performed by different people with Jerusalem
as the centre of activity. This mission is both peripheral and open to people with diverse
social, religious and geographic backgrounds. In the novel network of people belonging
to the body of Christ human leadership is not important. It was not possible to apply
this method to all exegetical questions due to the fact that there are only limited historic
sources available.In der neutestamentlichen Wissenschaft wurden verschiedene Methoden wie die Prosopographie zur Erforschung bestimmter Personenkreise verwendet. Diese Arbeit beschäftigt
sich mit der Rekonstruktion des frühchristlichen sozialen Netzwerks nach der Darstellung
in Apg 1-12. Dazu wird die Methode der sozialen Netzwerkanalyse (SNA), der critical
spatiality sowie die Proximal Point Analyse (PPA) verwendet. Dabei werden die methodischen Ansätze von verschiedenen historischen Netzwerkanalysen zusammengetragen und
durch eine Verknüpfung von SNA und critical spatiality eine einheitliche Herangehensweise hergeleitet, die auch geographische wie soziale Distanzen darstellen kann. Dabei finden
sich in Apg 1-12 sowohl exegetische Fragestellungen, auf die diese Methode aufgrund der
schlechten Quellenlage nicht angewendet werden kann, als auch Fragestellungen, die mit
dieser Methode unter neuen Gesichtspunkten interpretiert werden kann. So lässt sich im
rekonstruierten Netzwerk von Apg 1-12 der erste Abschnitt der Erfüllung der Verheißung
aus Apg 1,8 erkennen. Außerdem hilft die SNA, die einzelnen Akteure und ihr Handeln
in der Apg besser zu würdigen. So ist ein eigenes Kapitel nicht nur Petrus, sondern auch
Philippus und Barnabas gewidmet. Apg 1-12 stellt eine Mission dar, deren alleiniger Urheber Gott ist und die von verschiedensten Menschen mit der Stadt Jerusalem als Zentrum
überwiegend dezentral und offen für verschiedene soziale, religiöse und geographische Hintergründe ausgeführt wird. Sie zeichnet ein besonderes Bild vom urchristlichen sozialen
Netzwerk, das wenig menschliche Leitung beinhaltet und sich qualitativ unterscheidet. Die
Analyse mit verschiedenen Zentralitätsmaßen zeigt ebenfalls die starke Verbundenheit der
urchristlichen Gemeinschaft und den signifikanten Beitrag mehrerer PersonenNew TestamentM. Th. (New Testament
Rule-based detection of access to education and training in Germany
As a result of transformation processes, the German labor market is highly
dependent on vocational training, retraining and continuing education. To match
training seekers and offers, we present a novel approach towards the automated
detection of access to education and training in German training offers and
advertisements. We will in particular focus on (a) general school and education
degrees and schoolleaving certificates, (b) professional experience, (c) a
previous apprenticeship and (d) a list of skills provided by the German Federal
Employment Agency. This novel approach combines several methods: First, we
provide a mapping of synonyms in education combining different qualifications
and adding deprecated terms. Second, we provide a rule-based matching to
identify the need for professional experience or apprenticeship. However, not
all access requirements can be matched due to incompatible data schemata or
non-standardizes requirements, e.g initial tests or interviews. While we can
identify several shortcomings, the presented approach offers promising results
for two data sets: training and re-training advertisements
A Generic Framework for Hidden Markov Models on Biomedical Data
Background: Biomedical data are usually collections of longitudinal data
assessed at certain points in time. Clinical observations assess the presences
and severity of symptoms, which are the basis for description and modeling of
disease progression. Deciphering potential underlying unknowns solely from the
distinct observation would substantially improve the understanding of
pathological cascades. Hidden Markov Models (HMMs) have been successfully
applied to the processing of possibly noisy continuous signals. The aim was to
improve the application HMMs to multivariate time-series of categorically
distributed data. Here, we used HHMs to study prediction of the loss of free
walking ability as one major clinical deterioration in the most common
autosomal dominantly inherited ataxia disorder worldwide. We used HHMs to
investigate the prediction of loss of the ability to walk freely, representing
a major clinical deterioration in the most common autosomal-dominant inherited
ataxia disorder worldwide.
Results: We present a prediction pipeline which processes data paired with a
configuration file, enabling to construct, validate and query a fully
parameterized HMM-based model. In particular, we provide a theoretical and
practical framework for multivariate time-series inference based on HMMs that
includes constructing multiple HMMs, each to predict a particular observable
variable. Our analysis is done on random data, but also on biomedical data
based on Spinocerebellar ataxia type 3 disease.
Conclusions: HHMs are a promising approach to study biomedical data that
naturally are represented as multivariate time-series. Our implementation of a
HHMs framework is publicly available and can easily be adapted for further
applications
Wissensgraphen: Interdisziplinäre Perspektiven für Linked Data in den Geistes- und Sozialwissenschaften
Knowledge graphs and network
approaches are an increasingly vibrant research topic in quite
different disciplines. This article acknowledges their parallel development in
applied and mathematical fields, and the various current approaches between
computer science, mathematics, data science, and the humanities and social
sciences. This gives rise to key interdisciplinary perspectives: first, network
approaches in the humanities and social sciences need to be broader, as
knowledge networks are already implicit in the use of Linked
Data. Second, the methodological breadth of knowledge graphs, in
which, for example, social networks can be conceived as knowledge graphs,
results in new tools and new methods of analysis. In this respect, this paper
is intended as a plea for interdisciplinary exchange and in-depth discussion of
methods, algorithms, and Linked Data approaches
Pseudostabile Mengen in Graphen
Diese Arbeit beschäftigt sich mit der Überdeckung einfacher Graphen mit pseudostabilen Mengen und der minimalen Zerlegung von Graphen in eben solche. Pseudostabile Mengen stellen eine Verallgemeinerung von stabilen Mengen dar. Beim Zerfall pseudostabiler Mengen entstehen wiederum stabile Mengen, die jedoch unter verschiedenen Nebenbedingungen über bestimmte Pfade verbunden bleiben. Dabei führen bestimmte Voraussetzungen zu verschiedenen Unterproblemen, die in dieser Arbeit definiert und untersucht werden. Wie hier ebenfalls gezeigt wird, sind alle diese Probleme im Allgemeinen NP-vollständig. Es werden allerdings darüber hinaus auch Graphenklassen beschrieben, auf denen die einzelnen Probleme in polynomieller Zeit lösbar sind. Als ein Anwendungsproblem wird das ›Train Marshalling‹-Problem betrachtet: eine Zerlegung eines Graphen in pseudostabile Mengen entspricht der optimalen Lösung verschiedener Rangierprobleme auf Güter-bahnhöfen. Dies wird in der vorliegenden Arbeit vertieft. Des Weiteren werden auf Basis dieser neuen Formulierung weitere Lösungsheuristiken und Schranken hergeleitet. Als weiteres Anwendungsproblem wird eine graphentheoretische Umformulierung des ›Soft Document Clusterings‹ betrachtet. Es ist bereits bekannt, dass ›Hard Document Clustering‹ einer Zerlegung eines Dokumenten-graphen in stabile Mengen bzw. Cliquen entspricht. Im Rahmen dieser Arbeit wird die Verallgemeinerung auf das weiter gefasste Soft Document Clustering eingeführt und Lösungsheuristiken diskutiert
Ein kollaborativer Workflow zur historischen Netzwerkanalyse mit Open Source Software
Die soziale Netzwerkanalyse versucht menschliche Interaktion in einen analytischen und auswertbaren Zusammenhang zu bringen. Sie hat sich als Methode in den letzten Jahrzehnten über die Sozialwissenschaften hinaus in die Geschichtswissenschaften, Archäologie und Religionswissenschaften verbreitet. Dabei fanden verschiedene Paradigmenwechsel statt, zum Beispiel vom statischen Netzwerken mit dem Schwerpunkt auf quantitativ-struktureller Analyse hin zu heterogenen Handlungsnetzwerken wie zum Beispiel in der der Actor Network Theory (ANT) gewandelt. Der Fokus liegt aktuell eher auf der Frage des Informationsaustauschs und der Dynamik nicht statischer Netzwerke