118 research outputs found

    Discovering Dynamic Patterns from Spatiotemporal Data with Time-Varying Low-Rank Autoregression

    Full text link
    The problem of broad practical interest in spatiotemporal data analysis, i.e., discovering interpretable dynamic patterns from spatiotemporal data, is studied in this paper. Towards this end, we develop a time-varying reduced-rank vector autoregression (VAR) model whose coefficient matrices are parameterized by low-rank tensor factorization. Benefiting from the tensor factorization structure, the proposed model can simultaneously achieve model compression and pattern discovery. In particular, the proposed model allows one to characterize nonstationarity and time-varying system behaviors underlying spatiotemporal data. To evaluate the proposed model, extensive experiments are conducted on various spatiotemporal data representing different nonlinear dynamical systems, including fluid dynamics, sea surface temperature, USA surface temperature, and NYC taxi trips. Experimental results demonstrate the effectiveness of modeling spatiotemporal data and characterizing spatial/temporal patterns with the proposed model. In the spatial context, the spatial patterns can be automatically extracted and intuitively characterized by the spatial modes. In the temporal context, the complex time-varying system behaviors can be revealed by the temporal modes in the proposed model. Thus, our model lays an insightful foundation for understanding complex spatiotemporal data in real-world dynamical systems. The adapted datasets and Python implementation are publicly available at https://github.com/xinychen/vars

    High-Dimensional Low-Rank Tensor Autoregressive Time Series Modeling

    Full text link
    Modern technological advances have enabled an unprecedented amount of structured data with complex temporal dependence, urging the need for new methods to efficiently model and forecast high-dimensional tensor-valued time series. This paper provides the first practical tool to accomplish this task via autoregression (AR). By considering a low-rank Tucker decomposition for the transition tensor, the proposed tensor autoregression can flexibly capture the underlying low-dimensional tensor dynamics, providing both substantial dimension reduction and meaningful dynamic factor interpretation. For this model, we introduce both low-dimensional rank-constrained estimator and high-dimensional regularized estimators, and derive their asymptotic and non-asymptotic properties. In particular, by leveraging the special balanced structure of the AR transition tensor, a novel convex regularization approach, based on the sum of nuclear norms of square matricizations, is proposed to efficiently encourage low-rankness of the coefficient tensor. A truncation method is further introduced to consistently select the Tucker ranks. Simulation experiments and real data analysis demonstrate the advantages of the proposed approach over various competing ones.Comment: 61 pages, 6 figure

    Tensor Methods In Time Series Analysis

    Get PDF
    Οι χρονοσειρές μελετώνται εδώ και δεκαετίες, με αποτέλεσμα τη δημιουργία πολλών μοντέλων με εφαρμογές σε πολλές επιστήμες. Καθώς διανύουμε την εποχή τον μεγάλων δεδομένων, νέες προκλήσεις εμφανίζονται καθημερινά και τα μοντέλα που υπάρχουν αντιμετωπίζουν διάφορες δυσκολίες. Σε πολλές εφαρμογές τα δεδομένα έχουν τη δομή πινάκων ή τανυστών με αποτέλεσμα να καλούμαστε να διαχειριστούμε σύνολα δεδομένων υψηλής διαστασιμότητας. Λαμβάνοντας υπ'όψην όχι μόνο την χρονική αλλά και την χωρική εξάρτηση που πιθανόν να είναι διαθέσιμη σε αυτή τη σύνθετη μορφή δεδομένων αναπτύχθηκαν νέοι αλγόριθμοι και μέθοδοι. Επιπλέον, σε πολλές εφαρμογές η συλλογή πολλών χρονικών δεδομένων είναι δύσκολη λόγω της φύσης του προβλήματος, όπως για παράδειγμα η πρόβλεψη της τιμής ενός προϊόντος τεχνολογίας με σχετικά μικρό διάστημα κυκλοφορίας. Τέτοιες περιπτώσεις χαρακτιρίζονται ως σύντομες χρονοσειρές. Η μοντελοποίηση τους αποτελεί ένα δύσκολο εγχείρημα καθώς η απόδοση των παραδοσιακών μοντέλων σχετίζεται στενά με τον όγκο των δεδομένων στα οποία έχουν εκπαιδευτεί. Επιπλέον, στην εποχή των Μεγάλων Δεδομένων η διαστασιμότητα των δεδομένων καθιστά ακόμα πιο περίπλοκη τη διαδικασία επιλογής και εκπαίδευσης ενός αποτελεσματικού μοντέλου. Συνεπώς, προβάλει επιτακτική η ανάγκη για δημιουργία νέων και εκλεπτυσμένων μοντέλων και αλγόριθμων που θα διαχειρίζονται την αυξημένη διαστασιμότητα και θα αξιοποιούν τις διαθέσιμες χωρικές αλληλεξαρτήσεις σε συνδυασμό με τις περιορισμένες χρονικές για τη δημιουργία αποτελεσματικών μοντέλων. Τα τελευταία χρόνια, πολλές γνωστές μέθοδοι αποσύνθεσης τανυστών επανεξετάστηκαν στο πλαίσιο των Χρονοσειρών Τανυστών. Η Αποσύνθεση Tucker αποτελεί μια από τις πιο δημοφιλείς μεθόδους αποσύνθεσης, κατά την οποία ένας Τανυστής αποσυνθέτεται ως ένα γινόμενο ενός τανυστή-πυρήνα με ένα σύνολο από πίνακες-παράγοντες. Ο τανυστής-πυρήνας καταγράφει τις εγγενείς συσχετίσεις των δεδομένων. Επιπλέον διάφορες μέθοδοι τάνυσης βρήκαν θέση σε πολλές εφαρμογές χρονοσειρών τανυστών. Η μέθοδος Hankel είναι μια μέθοδος τάνυσης η οποία συνδυάζει ένα βήμα επαύξησης των δεδομένων με αντίγραφα τους και ένα βήμα μετατροπής αυτής της επαυξημένης δομής σε έναν τανυστή μεγαλύτερης τάξης. Ένας τανυστής Hankel αποτελείται από συλλογές των αρχικών δεδομένων οργανωμένα σε μια συμμετρική δομή. Αυτή η ιδιαίτερη δομή υποβοηθα στον εντοπισμό εξαρτήσεων που δεν ήταν εύκολα προσβάσιμες στην αρχική μορφή των δεδομένων. Επιπλέον, η μέθοδος αυτή έχει μελετηθεί σε διάφορες εργασίες στην πρόσφατη βιβλιογραφία με καλά αποτελέσματα. Όταν στα δεδομένα προϋπάρχει μια δομή μικρού βαθμού η τάνυση Hankel την φέρνει στην επιφάνεια. Έχει αποδειχθεί πειραματικά ότι για δεδομένα χαμηλού βαθμού ο αντίστοιχος τανυστής Hankel μπορεί να αναπαρασταθεί με σχετικά μικρό βαθμό ή μια ομαλή πολλαπλότητα στον χώρο προβολής. Συνεπώς, η αποσύνθεση Tucker μπορεί να συνδυαστεί με τη μέθοδο τάνυσης Hankel πολύ αποτελεσματικά. Γνωρίζουμε ότι ο υπολογισμός του βαθμού ενός τανυστή αποτελεί ένα πρόβλημα κλάσης NP και συνεπώς η αποσύνθεση του τανυστή στον αρχικό χώρο μπορεί να αποτελέσει ένα υπολογιστικά κοστοβόρο πρόβλημα συγκριτικά με την αποσύνθεση ενός τανυστή Hankel. Με άλλα λόγια η τάνυση Hankel μας επιτρέπει να αποκτήσουμε τανυστές-πυρήνες, με σχετικά μικρές διαστάσεις, οι οποίοι περιλαμβάνουν το πιο σημαντικό κομμάτι της πληροφορίας των δεδομένων. Η εργασία αυτή ξεκινάει με μια ανασκόπηση επιλεγμένων προκαταρκτικών θεμάτων, όπως η άλγεβρα πινάκων και τανυστών, οι αποσυνθέσεις τανυστών καθώς και οι διαδικασίες τάνυσης. Στόχος αυτής της ανασκόπησης είναι να παρέχουμε στον αναγνώστη τις απαραίτητες πληροφορίες που χρειάζεται για να αποκτήσει μια σφαιρική εικόνα του πεδίου. Πρώιμες προσεγγίσεις στον χώρο των χρονοσειρών τανυστών μετέτρεπαν τους τανυστές σε διανύσματα ώστε να χρησιμοποιηθούν τα υπάρχοντα μοντέλα. Αυτό οδήγησε σε αύξηση της απαιτούμενης μνήμης και των χρονικών απαιτήσεων. Αντιλαμβανόμενοι την ανάγκη για διαφορετικές προσεγγίσεις, προέκυψαν διάφορες εργασίες που χρησιμοποιούν τις αποσυνθέσεις τανυστών και/ή τις μεθόδους τάνυσης. Στην παρούσα εργασία θα εξετάσουμε τον αλγόριθμο Block Hankel Tensor Autoregression ο οποίος συνδυάζει την αποσύνθεση Tucker και τη μέθοδο τάνυσης Hankel. Αρχικά, η χρονοσειρά μετατρέπεται σε έναν τανυστή Hankel ανώτερου βαθμού. Στη συνέχεια εφαρμόζουμε την αποσύνθεση Tucker σε όλες τις διαστάσεις εκτός της χρονικής για να εκτιμήσουμε τους τανυστές-πυρήνες και τους πίνακες-παράγοντες. Με αυτό τον τρόπο διατηρείται η χρονική συνέχεια μεταξύ των τανυστών-πυρήνων που έχει ως στόχο την αποτελεσματική αποτύπωση των χρονικών εξαρτήσεων. Παράλληλα, χρησιμοποιούμε τους τανυστές-πυρήνες για την εκπαίδευση ενός μοντέλου αυτοπαλινδρόμισης με ακέραιους συντελεστές. Τέλος, χρησιμοποιούμε το μοντέλο για να προβλέψουμε τον επόμενο τανυστή-πυρήνα ο οποίος στη συνέχεια προβάλεται στον αρχικό χώρο του προβλήματος μέσω των αντίστροφων διαδικασιών αποσύνθεσης Tucker και τάνυσης Hankel. Συνοψίζοντας, ο αλγόριθμος που θα εξετάσουμε εξάγει την σημαντική εσωτερική πληροφορία των δεδομένων μέσω της αποσύνθεσης Tucker. Επειδή η εκτίμηση του βαθμού ενός τανυστή είναι μια υπολογιστικά κοστοβόρα διαδικασία, προβάλλουμε τα δεδομένα σε έναν χώρο μεγαλύτερου βαθμου μέσω τάνυσης Hankel. Εκμεταλλευόμενοι τις ιδιότητες ενός τανυστή Hankel λύνουμε το πρόβλημα ελαχιστοποίησης σε αυτό τον χώρο. Παράλληλα χρησιμοποιούμε τους τανυστές-πυρήνες για την πρόβλεψη των επόμενων τανυστών-πυρήνων και τέλος, χρησιμοποιούμε τις αντίστροφες διαδικασίες αποσύνθεσης και τάνυσης για να επαναφέρουμε τις προβλέψεις στον αρχικό χώρο. Η συνεισφορά μου είναι ένα πρώτο βήμα για τη γενίκευση του παραπάνω αλγόριθμου. Οι πραγματικοί συντελεστές αποτυπώνουν ελλειπώς τις χωρικές και χρονικές εξαρτήσεις των δεδομένων όταν αυτά περιγράφονται από ένα μοντέλο με συντελεστές πίνακες. Έτσι, σε μια προσπάθεια να γενικευτεί το παραπάνω μοντέλο αντικαθιστούμε τους πραγματικούς συντελεστές με πίνακες ώστε να μπορούμε να αποτυπώσουμε χωροχρονικές εξαρτήσεις δεδομένων που περιγράφονται από το γενικότερο μοντέλο. Τέλος, αξιολογούμε τον αλγόριθμο και την προτεινόμενη γενίκευση του. Τους συγκρίνουμε με άλλα κλασικά μοντέλα χρονοσειρών και τον Prophet του Facebook ως προς το σφάλμα πρόβλεψης σε συνδυασμό με τον όγκο των δεδομένων που χρησιμοποιούνται για την εκπαίδευση του μοντέλου, τον ορίζοντα πρόβλεψης καθώς και την χρονική αποδοτικότητα η οποία αντιστοιχεί στη χρονική διάρκεια εκπαίδευσης.Time Series have been studied for decades, resulting in the creation of various models with applications in many sciences. However, as we traverse the Big Data era, new challenges arise every day and existing models face certain difficulties. In many real world applications, data appear in the form of matrices or tensors resulting in datasets with high dimensionality structures. Taking into consideration not only the temporal but also any spatial information that is present in these higher order structures, new algorithms and methods were developed. In addition, in many cases we have limited access to a sufficient amount of data because of the problem's nature e.g predicting the market price of a technology item with a relatively short lifespan. In such cases the time series are referred to as Short Time Series. Modeling Short Time Series is challenging since traditional time series models generally perform better when provided with relatively large training datasets. Additionally, in the Big Data setting, the dimensionality increases the complexity even more. To address these problems we need to create new sophisticated models that deal with the increased dimensionality in an efficient way and maximally utilize any spatiotemporal correlations. In recent years, different tensor decomposition methods were revisited in the context of Tensor Time Series. Tucker Decomposition is one of the most commonly used methods. It decomposes a tensor as a product of a core tensor with lower dimensions and a set of factor matrices. The core tensor ultimately is a summary that captures the intrinsic correlations of the data. Additionally, Tensorization, the process of embedding data into higher order tensors, found its way into the Tensor Time Series setting. Hankelization is a Tensorization method that uses data duplication combined with a folding step in order to create higher order tensors. A Hankel Tensor contains different sub-windows of the original data arranged in a symmetric way. This structure reveals local correlations that were not easily accessible in the original form of the data. In addition, Hankelization has been studied and utilized in various works, showing good results. In cases where low-rank pre-exists in the data, Hankelization reveals it in a more clear way. In the aforementioned works it has been shown experimentally, that such data, in their Hankel tensor form, can be represented by low-rank or a smooth manifold in the embedded space. Therefore, Tucker Decomposition can be very effective when combined with Hankelization and its assumed low-rank property. That is because computing a tensor's rank is an NP-hard task and thus, decomposing a tensor in its original space can be computationally exhausting when compared to decomposing its Hankelized form. In other words, Hankelization enables us to obtain relatively low dimensional core tensors that capture the important information of the data. In this work, firstly we review some preliminary topics like Matrix and Tensor Algebra, Tensor Decompositions and Tensorization methods in order to familiarize the reader with the necessary concepts and operations and provide a general overview which is needed in order to dive into the Tensor Time Series setting. Early approaches vectorized the observations in order to make use of already existing models and methods. However, this reforming resulted in increased time complexity and high memory demands. Realizing the need for different approaches various works emerged that utilize tensor decompositions and/or tensorization methods. Here, we focus on the Block Hankel Tensor Autoregression algorithm which combines Hankelization with Tucker Decomposition. Firstly, the original time series is transformed into a higher-order Block Hankel Tensor. Then Tucker decomposition is applied on all modes except for the temporal, in order to obtain the core tensors and the jointly estimated factor matrices. This way we preserve the temporal continuity of the core tensors in order to better capture their intrinsic temporal correlations. In parallel, we use the obtained core tensors to train an autoregressive process with scalar coefficients. Finally, we use the trained model to forecast the next core tensor which is converted back in the original space via inverse Tucker Decomposition and de-Hankelization. In summary, the main idea behind Block Hankel Tensor Autoregression, is to extract the most important information of the time series through low-rank Tucker decomposition. Since the approximation of a tensor's rank is a computationally exhausting problem, we project the data in a higher-order embedded space and solve the low-rank minimization problem in that space. Finally, we use the lower-rank core tensors to forecast the following core tensor and then we convert the data back to their original framework. My contribution is a first step towards the generalization of the algorithm. The scalar coefficients capture the spatiotemporal correlations in a restricted way in cases where the data are described by the more general matrix-coefficient model. Therefore, in an effort to make a first step towards the generalized model they are replaced with matrices which can capture efficiently the spatiotemporal correlations of the data, even in the more general case. Finally, we evaluate Block Hankel Tensor Autoregression with scalar coefficients and its proposed generalization. We compare them to other traditional models and Facebook's Prophet, in terms of prediction error vs training data volume, forecasting horizon and time efficiency, measured as the total runtime of the training process

    Multilinear tensor regression for longitudinal relational data

    Full text link
    A fundamental aspect of relational data, such as from a social network, is the possibility of dependence among the relations. In particular, the relations between members of one pair of nodes may have an effect on the relations between members of another pair. This article develops a type of regression model to estimate such effects in the context of longitudinal and multivariate relational data, or other data that can be represented in the form of a tensor. The model is based on a general multilinear tensor regression model, a special case of which is a tensor autoregression model in which the tensor of relations at one time point are parsimoniously regressed on relations from previous time points. This is done via a separable, or Kronecker-structured, regression parameter along with a separable covariance model. In the context of an analysis of longitudinal multivariate relational data, it is shown how the multilinear tensor regression model can represent patterns that often appear in relational and network data, such as reciprocity and transitivity.Comment: Published at http://dx.doi.org/10.1214/15-AOAS839 in the Annals of Applied Statistics (http://www.imstat.org/aoas/) by the Institute of Mathematical Statistics (http://www.imstat.org

    Tensor Analysis and Fusion of Multimodal Brain Images

    Get PDF
    Current high-throughput data acquisition technologies probe dynamical systems with different imaging modalities, generating massive data sets at different spatial and temporal resolutions posing challenging problems in multimodal data fusion. A case in point is the attempt to parse out the brain structures and networks that underpin human cognitive processes by analysis of different neuroimaging modalities (functional MRI, EEG, NIRS etc.). We emphasize that the multimodal, multi-scale nature of neuroimaging data is well reflected by a multi-way (tensor) structure where the underlying processes can be summarized by a relatively small number of components or "atoms". We introduce Markov-Penrose diagrams - an integration of Bayesian DAG and tensor network notation in order to analyze these models. These diagrams not only clarify matrix and tensor EEG and fMRI time/frequency analysis and inverse problems, but also help understand multimodal fusion via Multiway Partial Least Squares and Coupled Matrix-Tensor Factorization. We show here, for the first time, that Granger causal analysis of brain networks is a tensor regression problem, thus allowing the atomic decomposition of brain networks. Analysis of EEG and fMRI recordings shows the potential of the methods and suggests their use in other scientific domains.Comment: 23 pages, 15 figures, submitted to Proceedings of the IEE

    Bayesian methods of vector autoregressions with tensor decompositions

    Full text link
    Vector autoregressions (VARs) are popular in analyzing economic time series. However, VARs can be over-parameterized if the numbers of variables and lags are moderately large. Tensor VAR, a recent solution to overparameterization, treats the coefficient matrix as a third-order tensor and estimates the corresponding tensor decomposition to achieve parsimony. In this paper, the inference of Tensor VARs is inspired by the literature on factor models. Firstly, we determine the rank by imposing the Multiplicative Gamma Prior to margins, i.e. elements in the decomposition, and accelerate the computation with an adaptive inferential scheme. Secondly, to obtain interpretable margins, we propose an interweaving algorithm to improve the mixing of margins and introduce a post-processing procedure to solve column permutations and sign-switching issues. In the application of the US macroeconomic data, our models outperform standard VARs in point and density forecasting and yield interpretable results consistent with the US economic history
    corecore