32 research outputs found

    Joint Tensor Factorization and Outlying Slab Suppression with Applications

    Full text link
    We consider factoring low-rank tensors in the presence of outlying slabs. This problem is important in practice, because data collected in many real-world applications, such as speech, fluorescence, and some social network data, fit this paradigm. Prior work tackles this problem by iteratively selecting a fixed number of slabs and fitting, a procedure which may not converge. We formulate this problem from a group-sparsity promoting point of view, and propose an alternating optimization framework to handle the corresponding p\ell_p (0<p10<p\leq 1) minimization-based low-rank tensor factorization problem. The proposed algorithm features a similar per-iteration complexity as the plain trilinear alternating least squares (TALS) algorithm. Convergence of the proposed algorithm is also easy to analyze under the framework of alternating optimization and its variants. In addition, regularization and constraints can be easily incorporated to make use of \emph{a priori} information on the latent loading factors. Simulations and real data experiments on blind speech separation, fluorescence data analysis, and social network mining are used to showcase the effectiveness of the proposed algorithm

    Adversarial Examples Might be Avoidable: The Role of Data Concentration in Adversarial Robustness

    Full text link
    The susceptibility of modern machine learning classifiers to adversarial examples has motivated theoretical results suggesting that these might be unavoidable. However, these results can be too general to be applicable to natural data distributions. Indeed, humans are quite robust for tasks involving vision. This apparent conflict motivates a deeper dive into the question: Are adversarial examples truly unavoidable? In this work, we theoretically demonstrate that a key property of the data distribution -- concentration on small-volume subsets of the input space -- determines whether a robust classifier exists. We further demonstrate that, for a data distribution concentrated on a union of low-dimensional linear subspaces, exploiting data structure naturally leads to classifiers that enjoy good robustness guarantees, improving upon methods for provable certification in certain regimes.Comment: Accepted to Neural Information Processing Systems (NeurIPS) 202

    Learning Overcomplete Dictionaries Based on Atom-by-Atom Updating

    No full text
    International audienceA dictionary learning algorithm learns a set of atoms from some training signals in such a way that each signal can be approximated as a linear combination of only a few atoms. Most dictionary learning algorithms use a two-stage iterative procedure. The first stage is to spars ely approximate the training signals over the current dictionary. The second stage is the update of the dictionary. In this paper we develop some atom-by-atom dictionary learning algorithms, which update the atoms sequentially. Specifically, we propose an efficient alternative to the well-known K-SVD algorithm, and show by various experiments that the proposed algorithm is much faster than K-SVD while its results are better. Moreover, we propose a novel algorithm that instead of alternating between the two dictionary learning stages, performs only the second stage. While in K-SVD each atom is updated along with the nonzero entries of its associated row vector in the coefficient matrix (which we name it its profile), in the new algorithm, each atom is updated along with the whole entries of its profile. As a result, contrary to K-SVD, the support of each profile can be changed while updating the dictionary. To further accelerate the convergence of this algorithm and to have a control on the cardinality of the representations, we then propose its two-stage counterpart by adding the sparse approximation stage. Experimental results on recovery of a known synthetic dictionary and dictionary learning for a class of auto-regressive signals demonstrate the promising performance of the proposed algorithms

    Guaranteed Non-Orthogonal Tensor Decomposition via Alternating Rank-11 Updates

    Full text link
    In this paper, we provide local and global convergence guarantees for recovering CP (Candecomp/Parafac) tensor decomposition. The main step of the proposed algorithm is a simple alternating rank-11 update which is the alternating version of the tensor power iteration adapted for asymmetric tensors. Local convergence guarantees are established for third order tensors of rank kk in dd dimensions, when k=o(d1.5)k=o \bigl( d^{1.5} \bigr) and the tensor components are incoherent. Thus, we can recover overcomplete tensor decomposition. We also strengthen the results to global convergence guarantees under stricter rank condition kβdk \le \beta d (for arbitrary constant β>1\beta > 1) through a simple initialization procedure where the algorithm is initialized by top singular vectors of random tensor slices. Furthermore, the approximate local convergence guarantees for pp-th order tensors are also provided under rank condition k=o(dp/2)k=o \bigl( d^{p/2} \bigr). The guarantees also include tight perturbation analysis given noisy tensor.Comment: We have added an additional sub-algorithm to remove the (approximate) residual error left after the tensor power iteratio

    Image restoration with group sparse representation and low‐rank group residual learning

    Get PDF
    Image restoration, as a fundamental research topic of image processing, is to reconstruct the original image from degraded signal using the prior knowledge of image. Group sparse representation (GSR) is powerful for image restoration; it however often leads to undesirable sparse solutions in practice. In order to improve the quality of image restoration based on GSR, the sparsity residual model expects the representation learned from degraded images to be as close as possible to the true representation. In this article, a group residual learning based on low-rank self-representation is proposed to automatically estimate the true group sparse representation. It makes full use of the relation among patches and explores the subgroup structures within the same group, which makes the sparse residual model have better interpretation furthermore, results in high-quality restored images. Extensive experimental results on two typical image restoration tasks (image denoising and deblocking) demonstrate that the proposed algorithm outperforms many other popular or state-of-the-art image restoration methods

    Advanced array signal processing algorithms for multi-dimensional parameter estimation

    Get PDF
    Multi-dimensional high-resolution parameter estimation is a fundamental problem in a variety of array signal processing applications, including radar, mobile communications, multiple-input multiple-output (MIMO) channel estimation, and biomedical imaging. The objective is to estimate the frequency parameters of noise-corrupted multi-dimensional harmonics that are sampled on a multi-dimensional grid. Among the proposed parameter estimation algorithms to solve this problem, multi-dimensional (R-D) ESPRIT-type algorithms have been widely used due to their computational efficiency and their simplicity. Their performance in various scenarios has been objectively evaluated by means of an analytical performance assessment framework. Recently, a relatively new class of parameter estimators based on sparse signal reconstruction has gained popularity due to their robustness under challenging conditions such as a small sample size or strong signal correlation. A common approach towards further improving the performance of parameter estimation algorithms is to exploit prior knowledge on the structure of the signals. In this thesis, we develop enhanced versions of R-D ESPRIT-type algorithms and the relatively new class of sparsity-based parameter estimation algorithms by exploiting the multi-dimensional structure of the signals and the statistical properties of strictly non-circular (NC) signals. First, we derive analytical expressions for the gain from forward-backward averaging and tensor-based processing in R-D ESPRIT-type and R-D Tensor-ESPRIT-type algorithms for the special case of two sources. This is accomplished by simplifying the generic analytical MSE expressions from the performance analysis of R-D ESPRIT-type algorithms. The derived expressions allow us to identify the parameter settings, e.g., the number of sensors, the signal correlation, and the source separation, for which both gains are most pronounced or no gain is achieved. Second, we propose the generalized least squares (GLS) algorithm to solve the overdetermined shift invariance equation in R-D ESPRIT-type algorithms. GLS directly incorporates the statistics of the subspace estimation error into the shift invariance solution through its covariance matrix, which is found via a first-order perturbation expansion. To objectively assess the estimation accuracy, we derive performance analysis expressions for the mean square error (MSE) of GLS-based ESPRIT-type algorithms, which are asymptotic in the effective SNR, i.e., the results become exact for a high SNR or a small sample size. Based on the performance analysis, we show that the simplified MSE expressions of GLS-based 1-D ESPRIT-type algorithms for a single source and two sources can be transformed into the corresponding Cramer-Rao bound (CRB) expressions, which provide a lower limit on the estimation error. Thereby, ESPRIT-type algorithms can become asymptotically efficient, i.e., they asymptotically achieve the CRB. Numerical simulations show that this can also be the case for more than two sources. In the third contribution, we derive matrix-based and tensor-based R-D NC ESPRIT-type algorithms for multi-dimensional strictly non-circular signals, where R-D NC Tensor-ESPRIT-type algorithms exploit both the multi-dimensional structure and the strictly non-circular structure of the signals. Exploiting the NC signal structure by means of a preprocessing step leads to a virtual doubling of the original sensor array, which provides an improved estimation accuracy and doubles the number of resolvable signals. We derive an analytical performance analysis and compute simplified MSE expressions for a single source and two sources. These expressions are used to analytically compute the NC gain for these cases, which has so far only been studied via Monte-Carlo simulations. We additionally consider spatial smoothing preprocessing for R-D ESPRIT-type algorithms, which has been widely used to improve the estimation performance for highly correlated signals or a small sample size. Once more, we derive performance analysis expressions for R-D ESPRIT-type algorithms and their corresponding NC versions with spatial smoothing and derive the optimal number of subarrays for spatial smoothing that minimizes the MSE for a single source. In the next part, we focus on the relatively new concept of parameter estimation via sparse signal reconstruction (SSR), in which the sparsity of the received signal power spectrum in the spatio-temporal domain is exploited. We develop three NC SSR-based parameter estimation algorithms for strictly noncircular sources and show that the benefits of exploiting the signals’ NC structure can also be achieved via sparse reconstruction. We develop two grid-based NC SSR algorithms with a low-complexity off-grid estimation procedure, and a gridless NC SSR algorithm based on atomic norm minimization. As the final contribution of this thesis, we derive the deterministic R-D NC CRB for strictly non-circular sources, which serves as a benchmark for the presented R-D NC ESPRIT-type algorithms and the NC SSR-based parameter estimation algorithms. We show for the special cases of, e.g., full coherence, a single snapshot, or a single strictly non-circular source, that the deterministic R-D NC CRB reduces to the existing deterministic R-D CRB for arbitrary signals. Therefore, no NC gain can be achieved in these cases. For the special case of two closely-spaced NC sources, we simplify the NC CRB expression and compute the NC gain for two closely-spaced NC signals. Finally, its behavior in terms of the physical parameters is studied to determine the parameter settings that provide the largest NC gain.Die hochauflösende Parameterschätzung für mehrdimensionale Signale findet Anwendung in vielen Bereichen der Signalverarbeitung in Mehrantennensystemen. Zu den Anwendungsgebieten zählen beispielsweise Radar, die Mobilkommunikation, die Kanalschätzung in multiple-input multiple-output (MIMO)-Systemen und bildgebende Verfahren in der Biosignalverarbeitung. In letzter Zeit sind eine Vielzahl von Algorithmen zur Parameterschätzung entwickelt worden, deren Schätzgenauigkeit durch eine analytische Beschreibung der Leistungsfähigkeit objektiv bewertet werden kann. Eine verbreitete Methode zur Verbesserung der Schätzgenauigkeit von Parameterschätzverfahren ist die Ausnutzung von Vorwissen bezüglich der Signalstruktur. In dieser Arbeit werden mehrdimensionale ESPRIT-Verfahren als Beispiel für Unterraum-basierte Verfahren entwickelt und analysiert, die explizit die mehrdimensionale Signalstruktur mittels Tensor-Signalverarbeitung ausnutzt und die statistischen Eigenschaften von nicht-zirkulären Signalen einbezieht. Weiterhin werden neuartige auf Signalrekonstruktion basierende Algorithmen vorgestellt, die die nicht-zirkuläre Signalstruktur bei der Rekonstruktion ausnutzen. Die vorgestellten Verfahren ermöglichen eine deutlich verbesserte Schätzgüte und verdoppeln die Anzahl der auflösbaren Signale. Die Vielzahl der Forschungsbeiträge in dieser Arbeit setzt sich aus verschiedenen Teilen zusammen. Im ersten Teil wird die analytische Beschreibung der Leistungsfähigkeit von Matrix-basierten und Tensor-basierten ESPRIT-Algorithmen betrachtet. Die Tensor-basierten Verfahren nutzen explizit die mehrdimensionale Struktur der Daten aus. Es werden für beide Algorithmenarten vereinfachte analytische Ausdrücke für den mittleren quadratischen Schätzfehler für zwei Signalquellen hergeleitet, die lediglich von den physikalischen Parametern, wie zum Beispiel die Anzahl der Antennenelemente, das Signal-zu-Rausch-Verhältnis, oder die Anzahl der Messungen, abhängen. Ein Vergleich dieser Ausdrücke ermöglicht die Berechnung einfacher Ausdrücke für den Schätzgenauigkeitsgewinn durch den forward-backward averaging (FBA)-Vorverarbeitungsschritt und die Tensor-Signalverarbeitung, die die analytische Abhängigkeit von den physikalischen Parametern enthalten. Im zweiten Teil entwickeln wir einen neuartigen general least squares (GLS)-Ansatz zur Lösung der Verschiebungs-Invarianz-Gleichung, die die Grundlage der ESPRIT-Algorithmen darstellt. Der neue Lösungsansatz berücksichtigt die statistische Beschreibung des Fehlers bei der Unterraumschätzung durch dessen Kovarianzmatrix und ermöglicht unter bestimmten Annahmen eine optimale Lösung der Invarianz-Gleichung. Mittels einer Performanzanalyse der GLS-basierten ESPRIT-Verfahren und der Vereinfachung der analytischen Ausdrücke für den Schätzfehler für eine Signalquelle und zwei zeitlich unkorrelierte Signalquellen wird gezeigt, dass die Cramer-Rao-Schranke, eine untere Schranke für die Varianz eines Schätzers, erreicht werden kann. Im nächsten Teil werden Matrix-basierte und Tensor-basierte ESPRIT-Algorithmen für nicht-zirkuläre Signalquellen vorgestellt. Unter Ausnutzung der Signalstruktur gelingt es, die Schätzgenauigkeit zu erhöhen und die doppelte Anzahl an Quellen aufzulösen. Dabei ermöglichen die vorgeschlagenen Tensor-ESPRIT-Verfahren sogar die gleichzeitige Ausnutzung der mehrdimensionalen Signalstruktur und der nicht-zirkuläre Signalstruktur. Die Leistungsfähigkeit dieser Verfahren wird erneut durch eine analytische Beschreibung objektiv bewertet und Spezialfälle für eine und zwei Quellen betrachtet. Es zeigt sich, dass für eine Quelle keinerlei Gewinn durch die nicht-zirkuläre Struktur erzielen lässt. Für zwei nicht-zirkuläre Quellen werden vereinfachte Ausdrücke für den Gewinn sowohl im Matrixfall also auch im Tensorfall hergeleitet und die Abhängigkeit der physikalischen Parameter analysiert. Sind die Signale stark korreliert oder ist die Anzahl der Messdaten sehr gering, kann der spatial smoothing-Vorverarbeitungsschritt mit den verbesserten ESPRIT-Verfahren kombiniert werden. Anhand der Performanzanalyse wird die Anzahl der Mittellungen für das spatial smoothing-Verfahren analytisch für eine Quelle bestimmt, die den Schätzfehler minimiert. Der nächste Teil befasst sich mit einer vergleichsweise neuen Klasse von Parameterschätzverfahren, die auf der Rekonstruktion überlagerter dünnbesetzter Signale basiert. Als Vorteil gegenüber den Algorithmen, die eine Signalunterraumschätzung voraussetzen, sind die Rekonstruktionsverfahren verhältnismäßig robust im Falle einer geringen Anzahl zeitlicher Messungen oder einer starken Korrelation der Signale. In diesem Teil der vorliegenden Arbeit werden drei solcher Verfahren entwickelt, die bei der Rekonstruktion zusätzlich die nicht-zirkuläre Signalstruktur ausnutzen. Dadurch kann auch für diese Art von Verfahren eine höhere Schätzgenauigkeit erreicht werden und eine höhere Anzahl an Signalen rekonstruiert werden. Im letzten Kapitel der Arbeit wird schließlich die Cramer-Rao-Schranke für mehrdimensionale nicht-zirkuläre Signale hergeleitet. Sie stellt eine untere Schranke für den Schätzfehler aller Algorithmen dar, die speziell für die Ausnutzung dieser Signalstruktur entwickelt wurden. Im Vergleich zur bekannten Cramer-Rao-Schranke für beliebige Signale, zeigt sich, dass im Fall von zeitlich kohärenten Signalen, für einen Messvektor oder für eine Quelle, beide Schranken äquivalent sind. In diesen Fällen kann daher keine Verbesserung der Schätzgüte erzielt werden. Zusätzlich wird die Cramer-Rao-Schranke für zwei benachbarte nicht-zirkuläre Signalquellen vereinfacht und der maximal mögliche Gewinn in Abhängigkeit der physikalischen Parameter analytisch ermittelt. Dieser Ausdruck gilt als Maßstab für den erzielbaren Gewinn aller Parameterschätzverfahren für zwei nicht-zirkuläre Signalquellen

    A new sparse representation framework for compressed sensing MRI

    Get PDF
    Abstract(#br)Compressed sensing based Magnetic Resonance imaging (MRI) via sparse representation (or transform) has recently attracted broad interest. The tight frame (TF)-based sparse representation is a promising approach in compressed sensing MRI. However, the conventional TF-based sparse representation is difficult to utilize the sparsity of the whole image. Since the whole image usually has different structure textures and a kind of tight frame can only represent a particular kind of ground object, how to reconstruct high-quality of magnetic resonance (MR) image is a challenge. In this work, we propose a new sparse representation framework, which fuses the double tight frame (DTF) into the mixed-norm regularization for MR image reconstruction from undersampled k -space data. In this framework, MR image is decomposed into smooth and nonsmooth regions. For the smooth regions, the wavelet TF-based weighted L 1 -norm regularization is developed to reconstruct piecewise-smooth information of image. For nonsmooth regions, we introduce the curvelet TF-based robust L 1 , a -norm regularization with the parameter to preserve the edge structural details and texture. To estimate the reasonable parameter, an adaptive parameter selection scheme is designed in robust L 1 , a -norm regularization. Experimental results demonstrate that the proposed method can achieve the best image reconstruction results when compared with other existing methods in terms of quantitative metrics and visual effect

    Image restoration with group sparse representation and low‐rank group residual learning

    Get PDF

    Nonconvex Optimization Algorithms for Structured Matrix Estimation in Large-Scale Data Applications

    Get PDF
    Το πρόβλημα της εκτίμησης δομημένου πίνακα ανήκει στην κατηγορία των προβλημάτων εύρεσης αναπαραστάσεων χαμηλής διάστασης (low-dimensional embeddings) σε δεδομένα υψηλής διάστασης. Στις μέρες μας συναντάται σε μια πληθώρα εφαρμογών που σχετίζονται με τις ερευνητικές περιοχές της επεξεργασίας σήματος και της μηχανικής μάθησης. Στην παρούσα διατριβή προτείνονται νέοι μαθηματικοί φορμαλισμοί σε τρία διαφορετικά προβλήματα εκτίμησης δομημένων πινάκων από δεδομένα μεγάλης κλίμακας. Πιο συγκεκριμένα, μελετώνται τα ερευνητικά προβλήματα α) της εκτίμησης πίνακα που είναι ταυτόχρονα αραιός, χαμηλού βαθμού και μη-αρνητικός, β) της παραγοντοποίησης πίνακα χαμηλού βαθμού, και γ) της ακολουθιακής (online) εκτίμησης πίνακα υποχώρου (subspace matrix) χαμηλού βαθμού από ελλιπή δεδομένα. Για όλα τα προβλήματα αυτά προτείνονται καινoτόμοι και αποδοτικοί αλγόριθμοι βελτιστοποίησης (optimization algorithms). Βασική υπόθεση που υιοθετείται σε κάθε περίπτωση είναι πως τα δεδομένα έχουν παραχθεί με βάση ένα γραμμικό μοντέλο. Το σύνολο των προσεγγίσεων που ακολουθούνται χαρακτηρίζονται από μη-κυρτότητα. Όπως γίνεται φανερό στην παρούσα διατριβή, η ιδιότητα αυτή, παρά τις δυσκολίες που εισάγει στην θεωρητική τεκμηρίωση των προτεινόμενων μεθόδων (σε αντίθεση με τις κυρτές προσεγγίσεις στις οποίες η θεωρητική ανάλυση είναι σχετικά ευκολότερη), οδηγεί σε σημαντικά οφέλη όσον αφορά την απόδοσή τους σε πλήθος πραγματικών εφαρμογών. Για την εκτίμηση πίνακα που είναι ταυτόχρονα αραιός, χαμηλού βαθμού και μη-αρνητικός, προτείνονται στην παρούσα διατριβή τρεις νέοι αλγόριθμοι, από τους οποίους οι δύο πρώτοι ελαχιστοποιούν μια κοινή συνάρτηση κόστους και ο τρίτος μια ελαφρώς διαφορετική συνάρτηση κόστους. Κοινό χαρακτηριστικό και των δύο αυτών συναρτήσεων είναι ότι κατά βάση αποτελούνται από έναν όρο προσαρμογής στα δεδομένα και δύο όρους κανονικοποίησης, οι οποίοι χρησιμοποιούνται για την επιβολή αραιότητας και χαμηλού βαθμού, αντίστοιχα. Στην πρώτη περίπτωση αυτό επιτυγχάνεται με την αξιοποίηση του αθροίσματος της επανασταθμισμένης l1 νόρμας (reweighted l1 norm) και της επανασταθμισμένης πυρηνικής νόρμας (reweighted nuclear norm), οι οποίες ευθύνονται για το μη- κυρτό χαρακτήρα της προκύπτουσας συνάρτησης κόστους. Από τους δύο προτεινόμενους αλγορίθμους που ελαχιστοποιούν τη συνάρτηση αυτή, ο ένας ακολουθεί τη μέθοδο καθόδου σταδιακής εγγύτητας και ο άλλος βασίζεται στην πιο απαιτητική υπολογιστικά μέθοδο ADMM. Η δεύτερη συνάρτηση κόστους διαφοροποιείται σε σχέση με την πρώτη καθώς χρησιμοποιεί μια προσέγγιση παραγοντοποίησης για τη μοντελοποίηση του χαμηλού βαθμού του δομημένου πίνακα. Επιπλέον, λόγω της μη εκ των προτέρων γνώσης του πραγματικού βαθμού, ενσωματώνει έναν όρο επιβολής χαμηλού βαθμού, μέσω της μη- κυρτής έκφρασης που έχει προταθεί ως ένα άνω αυστηρό φράγμα της (κυρτής) πυρηνικής νόρμας (σ.σ. στο εξής θα αναφέρεται ως εναλλακτική μορφή της πυρηνικής νόρμας). Και στην περίπτωση αυτή, το πρόβλημα που προκύπτει είναι μη-κυρτό λόγω του φορμαλισμού του μέσω της παραγοντοποίησης πίνακα, ενώ η βελτιστοποίηση πραγματοποιείται εφαρμόζοντας μια υπολογιστικά αποδοτική μέθοδο καθόδου συνιστωσών ανά μπλοκ (block coordinate descent). Tο σύνολο των προτεινόμενων σχημάτων χρησιμοποιείται για τη μοντελοποίηση, με καινοτόμο τρόπο, του προβλήματος φασματικού διαχωρισμού υπερφασματικών εικόνων (ΥΦΕ). Όπως εξηγείται αναλυτικά, τόσο η αραιότητα όσο και ο χαμηλός βαθμός παρέχουν πολύτιμες ερμηνείες ορισμένων φυσικών χαρακτηριστικών των ΥΦΕ, όπως π.χ. η χωρική συσχέτιση. Πιο συγκεκριμένα, η αραιότητα και ο χαμηλός βαθμός μπορούν να υιοθετηθούν ως δομές στον πίνακα αφθονίας (abundance matrix - ο πίνακας που περιέχει τα ποσοστά παρουσίας των υλικών στην περιοχή που απεικονίζει κάθε εικονοστοιχείο). Τα σημαντικά πλεονεκτήματα που προσφέρουν οι προτεινόμενες τεχνικές, σε σχέση με ανταγωνιστικούς αλγορίθμους, αναδεικνύονται σε ένα πλήθος διαφορετικών πειραμάτων που πραγματοποιούνται τόσο σε συνθετικά όσο και σε αληθινά υπερφασματικά δεδομένα. Στο πλαίσιο της παραγοντοποίησης πίνακα χαμηλού βαθμού (low-rank matrix factorization) περιγράφονται στη διατριβή τέσσερις νέοι αλγόριθμοι, ο καθένας εκ των οποίων έχει σχεδιαστεί για μια διαφορετική έκφανση του συγκεκριμένου προβλήματος. Όλα τα προτεινόμενα σχήματα έχουν ένα κοινό χαρακτηριστικό: επιβάλλουν χαμηλό βαθμό στους πίνακες-παράγοντες καθώς και στο γινόμενό τους με την εισαγωγή ενός νέου όρου κανονικοποίησης. Ο όρος αυτός προκύπτει ως μια γενίκευση της εναλλακτικής έκφρασης της πυρηνικής νόρμας με τη μετατροπή της σε σταθμισμένη μορφή. Αξίζει να επισημανθεί πως με κατάλληλη επιλογή των πινάκων στάθμισης καταλήγουμε σε μια ειδική έκφραση της συγκεκριμένης νόρμας η οποία ανάγει την διαδικασία επιβολής χαμηλού βαθμού σε αυτή της από κοινού επιβολής αραιότητας στις στήλες των δύο πινάκων. Όπως αναδεικνύεται αναλυτικά, η ιδιότητα αυτή είναι πολύ χρήσιμη ιδιαιτέρως σε εφαρμογές διαχείρισης δεδομένων μεγάλης κλίμακας. Στα πλαίσια αυτά μελετώνται τρία πολύ σημαντικά προβλήματα στο πεδίο της μηχανικής μάθησης και συγκεκριμένα αυτά της αποθορυβοποίησης σήματος (denoising), πλήρωσης πίνακα (matrix completion) και παραγοντοποίησης μη-αρνητικού πίνακα (nonnegative matrix factorization). Χρησιμοποιώντας τη μέθοδο ελαχιστοποίησης άνω φραγμάτων συναρτήσεων διαδοχικών μπλοκ (block successive upper bound minimization) αναπτύσσονται τρεις νέοι επαναληπτικά σταθμισμένοι αλγόριθμοι τύπου Newton, οι οποίοι σχεδιάζονται κατάλληλα, λαμβάνοντας υπόψη τα ιδιαίτερα χαρακτηριστικά του εκάστοτε προβλήματος. Τέλος, παρουσιάζεται αλγόριθμος παραγοντοποίησης πίνακα ο οποίος έχει σχεδιαστεί πάνω στην προαναφερθείσα ιδέα επιβολής χαμηλού βαθμού, υποθέτοντας παράλληλα αραιότητα στον ένα πίνακα-παράγοντα. Η επαλήθευση της αποδοτικότητας όλων των αλγορίθμων που εισάγονται γίνεται με την εφαρμογή τους σε εκτεταμένα συνθετικά πειράματα, όπως επίσης και σε εφαρμογές πραγματικών δεδομένων μεγάλης κλίμακας π.χ. αποθορυβοποίηση ΥΦΕ, πλήρωση πινάκων από συστήματα συστάσεων (recommender systems) ταινιών, διαχωρισμός μουσικού σήματος και τέλος μη-επιβλεπόμενος φασματικός διαχωρισμός. Το τελευταίο πρόβλημα το οποίο διαπραγματεύεται η παρούσα διατριβή είναι αυτό της ακολουθιακής εκμάθησης υποχώρου χαμηλού βαθμού και της πλήρωσης πίνακα. Το πρόβλημα αυτό εδράζεται σε ένα διαφορετικό πλαίσιο μάθησης, την επονομαζόμενη ακολουθιακή μάθηση, η οποία αποτελεί μια πολύτιμη προσέγγιση σε εφαρμογές δεδομένων μεγάλης κλίμακας, αλλά και σε εφαρμογές που λαμβάνουν χώρα σε χρονικά μεταβαλλόμενα περιβάλλοντα. Στην παρούσα διατριβή προτείνονται δύο διαφορετικοί αλγόριθμοι, ένας μπεϋζιανός και ένας ντετερμινιστικός. Ο πρώτος αλγόριθμος προκύπτει από την εφαρμογή μιας καινοτόμου ακολουθιακής μεθόδου συμπερασμού βασισμένου σε μεταβολές. Αυτή η μέθοδος χρησιμοποιείται για την πραγματοποίηση προσεγγιστικού συμπερασμού στο προτεινόμενο ιεραρχικό μπεϋζιανό μοντέλο. Αξίζει να σημειωθεί πως το μοντέλο αυτό έχει σχεδιαστεί με κατάλληλο τρόπο έτσι ώστε να ενσωματώνει, σε πιθανοτικό πλαίσιο, την ίδια ιδέα επιβολής χαμηλού βαθμού που προτείνεται για το πρόβλημα παραγοντοποίησης πίνακα χαμηλού βαθμού, δηλαδή επιβάλλοντας από-κοινού αραιότητα στους πίνακες-παράγοντες. Ωστόσο, ακολουθώντας την πιθανοτική προσέγγιση, αυτό πραγματοποιείται επιβάλλοντας πολύ-επίπεδες a priori κατανομές Laplace στις στήλες τους. Ο αλγόριθμος που προκύπτει είναι πλήρως αυτοματοποιημένος, μιας και δεν απαιτεί τη ρύθμιση κάποιας παραμέτρου κανονικοποίησης. Ο δεύτερος αλγόριθμος προκύπτει από την ελαχιστοποίηση μιας κατάλληλα διαμορφωμένης συνάρτησης κόστους. Και στην περίπτωση αυτή, χρησιμοποιείται η προαναφερθείσα ιδέα επιβολής χαμηλού βαθμού (κατάλληλα τροποποιημένη έτσι ώστε να μπορεί να εφαρμοστεί στο ακολουθιακό πλαίσιο μάθησης). Ενδιαφέρον παρουσιάζει το γεγονός πως ο τελευταίος αλγόριθμος μπορεί να θεωρηθεί ως μια ντετερμινιστική εκδοχή του προαναφερθέντος πιθανοτικού αλγορίθμου. Τέλος, σημαντικό χαρακτηριστικό και των δύο αλγορίθμων είναι ότι δεν είναι απαραίτητη η εκ των προτέρων γνώση του βαθμού του πίνακα υποχώρου. Τα πλεονεκτήματα των προτεινόμενων προσεγγίσεων παρουσιάζονται σε ένα μεγάλο εύρος πειραμάτων που πραγματοποιήθηκαν σε συνθετικά δεδομένα, στο πρόβλημα της ακολουθιακής πλήρωσης ΥΦΕ και στην εκμάθηση ιδιο-προσώπων κάνοντας χρήση πραγματικών δεδομένων.Structured matrix estimation belongs to the family of learning tasks whose main goal is to reveal low-dimensional embeddings of high-dimensional data. Nowadays, this task appears in various forms in a plethora of signal processing and machine learning applications. In the present thesis, novel mathematical formulations for three different instances of structured matrix estimation are proposed. Concretely, the problems of a) simultaneously sparse, low-rank and nonnegative matrix estimation, b) low-rank matrix factorization and c) online low-rank subspace learning and matrix completion, are addressed and analyzed. In all cases, it is assumed that data are generated by a linear process, i.e., we deal with linear measurements. A suite of novel and efficient {\it optimization algorithms} amenable to handling {\it large-scale data} are presented. A key common feature of all the introduced schemes is {\it nonconvexity}. It should be noted that albeit nonconvexity complicates the derivation of theoretical guarantees (contrary to convex relevant approaches, which - in most cases - can be theoretically analyzed relatively easily), significant gains in terms of the estimation performance of the emerging algorithms have been recently witnessed in several real practical situations. Let us first focus on simultaneously sparse, low-rank and nonnegative matrix estimation from linear measurements. In the thesis this problem is resolved by three different optimization algorithms, which address two different and novel formulations of the relevant task. All the proposed schemes are suitably devised for minimizing a cost function consisting of a least-squares data fitting term and two regularization terms. The latter are utilized for promoting sparsity and low-rankness. The novelty of the first formulation lies in the use, for the first time in the literature, of the sum of the reweighted 1\ell_1 and the reweighted nuclear norms. The merits of reweighted 1\ell_1 and nuclear norms have been exposed in numerous sparse and low-rank matrix recovery problems. As is known, albeit these two norms induce nonconvexity in the resulting optimization problems, they provide a better approximation of the 0\ell_0 norm and the rank function, respectively, as compared to relevant convex regularizers. Herein, we aspire to benefit from the use of the combination of these two norms. The first algorithm is an incremental proximal minimization scheme, while the second one is an ADMM solver. The third algorithm&apos;s main goal is to further reduce the computational complexity. Towards this end, it deviates from the other two in the use of a matrix factorization based approach for modelling low-rankness. Since the rank of the sought matrix is generally unknown, a low-rank imposing term, i.e., the variational form of the nuclear norm, which is a function of the matrix factors, is utilized. In this case, the optimization process takes place via a block coordinate descent type scheme. The proposed formulations are utilized for modelling in a pioneering way a very important problem in hyperspectral image processing, that of hyperspectral image unmixing. It is shown that both sparsity and low-rank offer meaningful interpretations of inherent natural characteristics of hyperspectral images. More specifically, both sparsity and low-rankness are reasonable hypotheses that can be made for the so-called {\it abundance} matrix, i.e., the nonnegative matrix containing the fractions of presence of the different materials, called {\it endmembers}, at the region depicted by each pixel. The merits of the proposed algorithms over other state-of-the-art hyperspectral unmixing algorithms are corroborated in a wealth of simulated and real hyperspectral imaging data experiments. In the framework of low-rank matrix factorization (LRMF) four novel optimization algorithms are presented, each modelling a different instance of it. All the proposed schemes share a common thread: they impose low-rank on both matrix factors and the sought matrix by a newly introduced regularization term. This term can be considered as a generalized weighted version of the variational form of the nuclear norm. Notably, by appropriately selecting the weight matrix, low-rank enforcement amounts to imposing joint column sparsity on both matrix factors. This property is actually proven to be quite important in applications dealing with large-scale data, since it leads to a significant decrease of the induced computational complexity. Along these lines, three well-known machine learning tasks, namely, denoising, matrix completion and low-rank nonnegative matrix factorization (NMF), are redefined according to the new low-rank regularization approach. Then, following the block successive upper bound minimization framework, alternating iteratively reweighted least-squares, Newton-type algorithms are devised accounting for the particular characteristics of the problem that each time is addressed. Lastly, an additional low-rank and sparse NMF algorithm is proposed, which hinges upon the same low-rank promoting idea mentioned above, while also accounting for sparsity on one of the matrix factors. All the derived algorithms are tested on extensive simulated data experiments and real large-scale data applications such as hyperspectral image denoising, matrix completion for recommender systems, music signal decomposition and unsupervised hyperspectral image unmixing with unknown number of endmembers. The last problem that this thesis touches upon is online low-rank subspace learning and matrix completion. This task follows a different learning model, i.e., online learning, which offers a valuable processing framework when one deals with large-scale streaming data possibly under time-varying conditions. In the thesis, two different online algorithms are put forth. The first one stems from a newly developed online variational Bayes scheme. This is applied for performing approximate inference based on a carefully designed novel multi-hierarchical Bayesian model. Notably, the adopted model encompasses similar low-rank promoting ideas to those mentioned for LRMF. That is, low-rank is imposed via promoting jointly column sparsity on the columns of the matrix factors. However, following the Bayesian rationale, this now takes place by assigning Laplace-type marginal priors on the matrix factors. Going one step further, additional sparsity is independently modelled on the subspace matrix thus imposing multiple structures on the same matrix. The resulting algorithm is fully automated, i.e., it does not demand fine-tuning of any parameters. The second algorithm follows a cost function minimization based strategy. Again, the same low-rank promoting idea introduced for LRMF is incorporated in this problem via the use of a - modified to the online processing scenario - low-rank regularization term. Interestingly, the resulting optimization scheme can be considered as the deterministic analogue of the Bayesian one. Both the proposed algorithms present a favorable feature, i.e., they are competent to learn subspaces without requiring the a priori knowledge of their true rank. Their effectiveness is showcased in extensive simulated data experiments and in online hyperspectral image completion and eigenface learning using real data
    corecore