2 research outputs found

    Analyzing complex data using domain constraints

    Get PDF
    Data-driven research approaches are becoming increasingly popular in a growing number of scientific disciplines. While a data-driven research approach can yield superior results, generating the required data can be very costly. This frequently leads to small and complex data sets, in which it is impossible to rely on volume alone to compensate for all shortcomings of the data. To counter this problem, other reliable sources of information must be incorporated. In this work, domain knowledge, as a particularly reliable type of additional information, is used to inform data-driven analysis methods. This domain knowledge is represented as constraints on the possible solutions, which the presented methods can use to inform their analysis. It focusses on spatial constraints as a particularly common type of constraint, but the proposed techniques are general enough to be applied to other types of constraints. In this thesis, new methods using domain constraints for data-driven science applications are discussed. These methods have applications in feature evaluation, route database repair, and Gaussian Mixture modeling of spatial data. The first application focuses on feature evaluation. The presented method receives two representations of the same data: one as the intended target and the other for investigation. It calculates a score indicating how much the two representations agree. A presented application uses this technique to compare a reference attribute set with different subsets to determine the importance and relevance of individual attributes. A second technique analyzes route data for constraint compliance. The presented framework allows the user to specify constraints and possible actions to modify the data. The presented method then uses these inputs to generate a version of the data, which agrees with the constraints, while otherwise reducing the impact of the modifications as much as possible. Two extensions of this schema are presented: an extension to continuously valued costs, which are minimized, and an extension to constraints involving more than one moving object. Another addressed application area is modeling of multivariate measurement data, which was measured at spatially distributed locations. The spatial information recorded with the data can be used as the basis for constraints. This thesis presents multiple approaches to building a model of this kind of data while complying with spatial constraints. The first approach is an interactive tool, which allows domain scientists to generate a model of the data, which complies with their knowledge about the data. The second is a Monte Carlo approach, which generates a large number of possible models, tests them for compliance with the constraints, and returns the best one. The final two approaches are based on the EM algorithm and use different ways of incorporating the information into their models. At the end of the thesis, two applications of the models, which have been generated in the previous chapter, are presented. The first is prediction of the origin of samples and the other is the visual representation of the extracted models on a map. These tools can be used by domain scientists to augment their tried and tested tools. The developed techniques are applied to a real-world data set collected in the archaeobiological research project FOR 1670 (Transalpine mobility and cultural transfer) of the German Science Foundation. The data set contains isotope ratio measurements of samples, which were discovered at archaeological sites in the Alps region of central Europe. Using the presented data analysis methods, the data is analyzed to answer relevant domain questions. In a first application, the attributes of the measurements are analyzed for their relative importance and their ability to predict the spatial location of samples. Another presented application is the reconstruction of potential migration routes between the investigated sites. Then spatial models are built using the presented modeling approaches. Univariate outliers are determined and used to predict locations based on the generated models. These are cross-referenced with the recorded origins. Finally, maps of the isotope distribution in the investigated regions are presented. The described methods and demonstrated analyses show that domain knowledge can be used to formulate constraints that inform the data analysis process to yield valid models from relatively small data sets and support domain scientists in their analyses.Datengetriebene Forschungsansätze werden für eine wachsende Anzahl von wissenschaftlichen Disziplinen immer wichtiger. Obwohl ein datengetriebener Forschungsansatz bessere Ergebnisse erzielen kann, kann es sehr teuer sein die notwendigen Daten zu gewinnen. Dies hat häufig zur Folge, dass kleine und komplexe Datensätze entstehen, bei denen es nicht möglich ist sich auf die Menge der Datenpunkte zu verlassen um Probleme bei der Analyse auszugleichen. Um diesem Problem zu begegnen müssen andere Informationsquellen verwendet werden. Fachwissen als eine besonders zuverlässige Quelle solcher Informationen kann herangezogen werden, um die datengetriebenen Analysemethoden zu unterstützen. Dieses Fachwissen wird ausgedrückt als Constraints (Nebenbedingungen) der möglichen Lösungen, die die vorgestellten Methoden benutzen können um ihre Analyse zu steuern. Der Fokus liegt dabei auf räumlichen Constraints als eine besonders häufige Art von Constraints, aber die vorgeschlagenen Methoden sind allgemein genug um auf andere Arte von Constraints angewendet zu werden. Es werden neue Methoden diskutiert, die Fachwissen für datengetriebene wissenschaftliche Anwendungen verwenden. Diese Methoden haben Anwendungen auf Feature-Evaluation, die Reparatur von Bewegungsdatenbanken und auf Gaussian-Mixture-Modelle von räumlichen Daten. Die erste Anwendung betrifft Feature-Evaluation. Die vorgestellte Methode erhält zwei Repräsentationen der selben Daten: eine als Zielrepräsentation und eine zur Untersuchung. Sie berechnet einen Wert, der aussagt, wie einig sich die beiden Repräsentationen sind. Eine vorgestellte Anwendung benutzt diese Technik um eine Referenzmenge von Attributen mit verschiedenen Untermengen zu vergleichen, um die Wichtigkeit und Relevanz einzelner Attribute zu bestimmen. Eine zweite Technik analysiert die Einhaltung von Constraints in Bewegungsdaten. Das präsentierte Framework erlaubt dem Benutzer Constraints zu definieren und mögliche Aktionen zur Veränderung der Daten anzuwenden. Die präsentierte Methode benutzt diese Eingaben dann um eine neue Variante der Daten zu erstellen, die die Constraints erfüllt ohne die Datenbank mehr als notwendig zu verändern. Zwei Erweiterungen dieser Grundidee werden vorgestellt: eine Erweiterung auf stetige Kostenfunktionen, die minimiert werden, und eine Erweiterung auf Bedingungen, die mehr als ein bewegliches Objekt betreffen. Ein weiteres behandeltes Anwendungsgebiet ist die Modellierung von multivariaten Messungen, die an räumlich verteilten Orten gemessen wurden. Die räumliche Information, die zusammen mit diesen Daten erhoben wurde, kann als Grundlage genutzt werden um Constraints zu formulieren. Mehrere Ansätze zum Erstellen von Modellen auf dieser Art von Daten werden vorgestellt, die räumliche Constraints einhalten. Der erste dieser Ansätze ist ein interaktives Werkzeug, das Fachwissenschaftlern dabei hilft, Modelle der Daten zu erstellen, die mit ihrem Wissen über die Daten übereinstimmen. Der zweite ist eine Monte-Carlo-Simulation, die eine große Menge möglicher Modelle erstellt, testet ob sie mit den Constraints übereinstimmen und das beste Modell zurückgeben. Zwei letzte Ansätze basieren auf dem EM-Algorithmus und benutzen verschiedene Arten diese Information in das Modell zu integrieren. Am Ende werden zwei Anwendungen der gerade vorgestellten Modelle vorgestellt. Die erste ist die Vorhersage der Herkunft von Proben und die andere ist die grafische Darstellung der erstellten Modelle auf einer Karte. Diese Werkzeuge können von Fachwissenschaftlern benutzt werden um ihre bewährten Methoden zu unterstützen. Die entwickelten Methoden werden auf einen realen Datensatz angewendet, der von dem archäo-biologischen Forschungsprojekt FOR 1670 (Transalpine Mobilität und Kulturtransfer der Deutschen Forschungsgemeinschaft erhoben worden ist. Der Datensatz enthält Messungen von Isotopenverhältnissen von Proben, die in archäologischen Fundstellen in den zentraleuropäischen Alpen gefunden wurden. Die präsentierten Datenanalyse-Methoden werden verwendet um diese Daten zu analysieren und relevante Forschungsfragen zu klären. In einer ersten Anwendung werden die Attribute der Messungen analysiert um ihre relative Wichtigkeit und ihre Fähigkeit zu bewerten, die räumliche Herkunft der Proben vorherzusagen. Eine weitere vorgestellte Anwendung ist die Wiederherstellung von möglichen Migrationsrouten zwischen den untersuchten Fundstellen. Danach werden räumliche Modelle der Daten unter Verwendung der vorgestellten Methoden erstellt. Univariate Outlier werden bestimmt und ihre möglich Herkunft basierend auf der erstellten Karte wird bestimmt. Die vorhergesagte Herkunft wird mit der tatsächlichen Fundstelle verglichen. Zuletzt werden Karten der Isotopenverteilung der untersuchten Region vorgestellt. Die beschriebenen Methoden und vorgestellten Analysen zeigen, dass Fachwissen verwendet werden kann um Constraints zu formulieren, die den Datenanalyseprozess unterstützen, um gültige Modelle aus relativ kleinen Datensätzen zu erstellen und Fachwissenschaftler bei ihren Analysen zu unterstützen

    Anwendung KDD-basierter Methoden zur Interpretation multi-dimensionaler Isotopen-Fingerabdrücke

    Get PDF
    Eine Daten-getriebene Auswertung von Isotopendaten unter Verwendung von KDD-basierten Methoden (KDD = „Knowledge Discovery in Databases“) findet bislang keine oder nur sehr wenig Anwendung in der Archäobiologie. Jedoch ermöglichen diese Methoden neue Einblicke in die Isotopendaten von Tieren, wie auch Menschen, die mit den etablierten Methoden bisher so nicht möglich waren. Die multivariate Untersuchung der Daten resultiert im Vergleich zu uni- oder bivariaten Analysen in vielerlei Hinsicht in einem Informationsgewinn. Der ungewöhnlich große Isotopen-Datensatz aus Haithabu und Schleswig an der Ostseeküste, der aufgrund der Brackwasserumgebung ein komplexes Ökosystem abbildet, erlaubt eine umfassende Anwendung und Etablierung verschiedener Methoden. Clustermodelle werden Hauptkomponentenanalyse (PCA) und „Support Vector Machine“ (SVM) gegenüber gestellt und auf ihre Aussagekraft für die Auswertung von Isotopendaten hin untersucht. Es zeigt sich, dass insbesondere die Clusteranalyse mittels des sogenannten „Gaussian Mixture Model“ (GMM) für Isotopendaten geeignet ist. Die Clusteranalyse ermöglicht die Detektion verschiedener Gruppen von Individuen, wie z. B. nicht lokale Individuen, sowie Individuen, die vom sogenannten „sea spray“-Effekt beeinflusst wurden. Dieser durch Gischt verursachte Effekt kann nicht nur in Schwefelisotopen, für die der Effekt bekannt aber nicht quantifiziert war, sondern auch in Kohlenstoff- und Sauerstoffisotopen des Knochenkarbonats bzw. -phosphats detektiert werden. Weiter ist es möglich, das Ausmaß des Effektes auf die unterschiedlichen Isotopensysteme approximativ zu bestimmen. Der Effekt, der als prozentualer Eintrag betrachtet wird, beträgt je nach Isotopensystem zwischen ca. 14 % und 63 %. Außerdem lässt sich auch ein limnischer Einfluss auf Stickstoffisotope feststellen (ca. 21 %), der ebenfalls berücksichtigt werden muss. Damit ergeben sich z. T. deutliche Verschiebungen der Isotopenwerte in Tieren und Menschen, die entsprechend korrigiert wurden, um so die näherungsweisen, originalen Werte zu erhalten. Die nicht-korrigierten Isotopendaten können zu einer fehlerhaften Interpretation der Daten führen. Die Approximation und Korrektur des „sea spray“-Effektes, sowie des limnischen Einflusses kann mit Hilfe von Clusteranalysen bekräftigt werden. Da archäologisches Material häufig nur in begrenzten Mengen zur Verfügung steht oder die Bedeutsamkeit des Fundguts invasive Verfahren (wie Isotopenanalysen) nur in sehr eingeschränktem Maße erlaubt, ist es wichtig, den Informationsgehalt einzelner Isotopensysteme abzuwägen. Ein Isotopensystem mit höherem Informationsgehalt ist einem anderen System mit nur geringem Informationsgehalt vorzuziehen. Ein „Feature Ranking“-Verfahren ermöglicht es, die einzelnen Isotopensysteme innerhalb unterschiedlicher (Teil-)Datensätze zu vergleichen und so die Isotopensysteme oder auch Kombinationen von Isotopensystemen mit höherem Informationsgehalt zu identifizieren. Auffällig ist hierbei, dass sich je nach Teildatensatz unterschiedliche Einstufungen für die Isotopensysteme ergeben, da bspw. für die Untersuchung von Fischdaten andere Isotope von Bedeutung sind als bei der Untersuchung von terrestrischen, herbivoren Säugern oder auch Menschen. Weiter kann mit Hilfe des Datensatzes aus Haithabu und Schleswig gezeigt werden, dass es nicht möglich ist, die Sauerstoffisotopenwerte des Phosphats aus den entsprechenden Werten des Karbonats zu berechnen. Die Anwendung einer Differenz von 9 ‰ zwischen Karbonat und Phosphat, wie sie häufig verwendet wird, ist im höchsten Maße abhängig von den untersuchten Spezies, deren Ernährungsformen und (damit zusammenhängend) ihrer Physiologie, sowie dem Habitat und dem Klima am untersuchten Fundort. Da zudem δ18OKarbonat und δ18OPhosphat unterschiedlich stark von verschiedenen Faktoren (darunter auch dem „sea spray“-Effekt) beeinflusst werden, ist die Anwendung eines allgemein gültigen Wertes für die Differenz zwischen den beiden Isotopensystemen, zumindest für den vorliegenden Datensatz, nicht ratsam und kann zu fehlerhaften Werten führen. Die auf Basis des Datensatzes aus Haithabu und Schleswig untersuchten Methoden werden in Teilen auch auf andere Datensätze (Vergleichsdatensätze) angewendet, um die allgemeine Anwendbarkeit der Verfahren zu überprüfen. Die relativ begrenzte Zahl an hierfür geeigneten Datensätzen - in erster Linie hinsichtlich der Stichprobengröße - erlaubt dennoch die Demonstration, dass sowohl die Approximation des „sea spray“-Effektes, als auch die Clusteranalyse mittels „Gaussian Mixture Model“ (GMM) auch auf andere Datensätze anwendbar ist. Die GMM-Clusteranalyse stellt hierbei ein nützliches Mittel zur Unterstützung von morphologischen Kontrollgruppen dar, die dadurch ggf. auch ersetzt werden könnten, wenn die morphologischen Daten aufgrund eines schlechten Erhaltungszustandes unvollständig sind
    corecore