7 research outputs found
Uncertainty-Aware Principal Component Analysis
We present a technique to perform dimensionality reduction on data that is
subject to uncertainty. Our method is a generalization of traditional principal
component analysis (PCA) to multivariate probability distributions. In
comparison to non-linear methods, linear dimensionality reduction techniques
have the advantage that the characteristics of such probability distributions
remain intact after projection. We derive a representation of the PCA sample
covariance matrix that respects potential uncertainty in each of the inputs,
building the mathematical foundation of our new method: uncertainty-aware PCA.
In addition to the accuracy and performance gained by our approach over
sampling-based strategies, our formulation allows us to perform sensitivity
analysis with regard to the uncertainty in the data. For this, we propose
factor traces as a novel visualization that enables to better understand the
influence of uncertainty on the chosen principal components. We provide
multiple examples of our technique using real-world datasets. As a special
case, we show how to propagate multivariate normal distributions through PCA in
closed form. Furthermore, we discuss extensions and limitations of our
approach
Void-and-Cluster Sampling of Large Scattered Data and Trajectories
We propose a data reduction technique for scattered data based on statistical
sampling. Our void-and-cluster sampling technique finds a representative subset
that is optimally distributed in the spatial domain with respect to the blue
noise property. In addition, it can adapt to a given density function, which we
use to sample regions of high complexity in the multivariate value domain more
densely. Moreover, our sampling technique implicitly defines an ordering on the
samples that enables progressive data loading and a continuous level-of-detail
representation. We extend our technique to sample time-dependent trajectories,
for example pathlines in a time interval, using an efficient and iterative
approach. Furthermore, we introduce a local and continuous error measure to
quantify how well a set of samples represents the original dataset. We apply
this error measure during sampling to guide the number of samples that are
taken. Finally, we use this error measure and other quantities to evaluate the
quality, performance, and scalability of our algorithm.Comment: To appear in IEEE Transactions on Visualization and Computer Graphics
as a special issue from the proceedings of VIS 201
Multivariate Pointwise Information-Driven Data Sampling and Visualization
With increasing computing capabilities of modern supercomputers, the size of
the data generated from the scientific simulations is growing rapidly. As a
result, application scientists need effective data summarization techniques
that can reduce large-scale multivariate spatiotemporal data sets while
preserving the important data properties so that the reduced data can answer
domain-specific queries involving multiple variables with sufficient accuracy.
While analyzing complex scientific events, domain experts often analyze and
visualize two or more variables together to obtain a better understanding of
the characteristics of the data features. Therefore, data summarization
techniques are required to analyze multi-variable relationships in detail and
then perform data reduction such that the important features involving multiple
variables are preserved in the reduced data. To achieve this, in this work, we
propose a data sub-sampling algorithm for performing statistical data
summarization that leverages pointwise information theoretic measures to
quantify the statistical association of data points considering multiple
variables and generates a sub-sampled data that preserves the statistical
association among multi-variables. Using such reduced sampled data, we show
that multivariate feature query and analysis can be done effectively. The
efficacy of the proposed multivariate association driven sampling algorithm is
presented by applying it on several scientific data sets.Comment: 25 page
Temporal Lossy In-Situ Compression for Computational Fluid Dynamics Simulations
Während CFD Simulationen für Metallschmelze im Rahmen des SFB920 fallen auf dem Taurus HPC Cluster in Dresden sehr große Datenmengen an, deren Handhabung den wissenschaftlichen Arbeitsablauf stark verlangsamen. Zum einen ist der Transfer in Visualisierungssysteme nur unter hohem Zeitaufwand möglich. Zum anderen ist interaktive Analyse von zeitlich abhängigen Prozessen auf Grund des Speicherflaschenhalses nahezu unmöglich. Aus diesen Gründen beschäftigt sich die vorliegende Dissertation mit der Entwicklung sog. Temporaler In-Situ Kompression für wissenschaftliche Daten direkt innerhalb von CFD Simulationen. Dabei werden mittels neuer Quantisierungsverfahren die Daten auf ~10% komprimiert, wobei dekomprimierte Daten einen Fehler von maximal 1% aufweisen. Im Gegensatz zu nicht-temporaler Kompression, wird bei temporaler Kompression der Unterschied zwischen Zeitschritten komprimiert, um den Kompressionsgrad zu erhöhen. Da die Datenmenge um ein Vielfaches kleiner ist, werden Kosten für die Speicherung und die Übertragung gesenkt. Da Kompression, Transfer und Dekompression bis zu 4 mal schneller ablaufen als der Transfer von unkomprimierten Daten, wird der wissenschaftliche Arbeitsablauf beschleunigt
Visuelle Analyse großer Partikeldaten
Partikelsimulationen sind eine bewährte und weit verbreitete numerische Methode in der Forschung und Technik. Beispielsweise werden Partikelsimulationen zur Erforschung der Kraftstoffzerstäubung in Flugzeugturbinen eingesetzt. Auch die Entstehung des Universums wird durch die Simulation von dunkler Materiepartikeln untersucht. Die hierbei produzierten Datenmengen sind immens. So enthalten aktuelle Simulationen Billionen von Partikeln, die sich über die Zeit bewegen und miteinander interagieren. Die Visualisierung bietet ein großes Potenzial zur Exploration, Validation und Analyse wissenschaftlicher Datensätze sowie der zugrundeliegenden
Modelle. Allerdings liegt der Fokus meist auf strukturierten Daten mit einer regulären Topologie. Im Gegensatz hierzu bewegen sich Partikel frei durch Raum und Zeit. Diese Betrachtungsweise ist aus der Physik als das lagrange Bezugssystem bekannt. Zwar können Partikel aus dem lagrangen in ein reguläres eulersches Bezugssystem, wie beispielsweise in ein uniformes Gitter, konvertiert werden. Dies ist bei einer großen Menge an Partikeln jedoch mit einem erheblichen Aufwand verbunden. Darüber hinaus führt diese Konversion meist zu einem Verlust der Präzision bei gleichzeitig erhöhtem Speicherverbrauch. Im Rahmen dieser Dissertation werde ich neue Visualisierungstechniken erforschen, welche speziell auf der lagrangen Sichtweise basieren. Diese ermöglichen eine effiziente und effektive visuelle Analyse großer Partikeldaten
Visualising Geographically-Embedded Origin-Destination Flows: in 2D and immersive environments
This thesis develops and evaluates effective techniques for visualisation of
flows (e.g. of people, trade, knowledge) between places on geographic maps.
This geographically-embedded flow data contains information about geographic
locations, and flows from origin locations to destination locations. We
explored the design space of OD flow visualisation in both 2D and immersive
environments. We do so by creating novel OD flow visualisations in both
environments, and then conducting controlled user studies to evaluate different
designs.Comment: PhD Thesis, Monash University, Australia, December 2018. Update:
corrected typos in arXiv comment