Search CORE

1,934 research outputs found

A GPU-based hyperbolic SVD algorithm

Author: A.H. Sameh
F.T. Luk
F.T. Luk
G.S. Sachdev
H. Zha
I. Slapničar
I. Slapničar
I. Slapničar
J.R. Bunch
K. Veselić
R. Mathias
R.P. Brent
S. Lahabar
S. Singer
S. Singer
S. Singer
S. Zhang
Sanja Singer
V. Hari
V. Hari
Vedran Novaković
Z. Drmač
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2011
Field of study

A one-sided Jacobi hyperbolic singular value decomposition (HSVD) algorithm, using a massively parallel graphics processing unit (GPU), is developed. The algorithm also serves as the final stage of solving a symmetric indefinite eigenvalue problem. Numerical testing demonstrates the gains in speed and accuracy over sequential and MPI-parallelized variants of similar Jacobi-type HSVD algorithms. Finally, possibilities of hybrid CPU--GPU parallelism are discussed.Comment: Accepted for publication in BIT Numerical Mathematic

arXiv.org e-Print Archive

CiteSeerX

Crossref

FAMENA Repository

A hierarchically blocked Jacobi SVD algorithm for single and multiple graphics processing units

Author: Novaković Vedran
Publication venue: 'Society for Industrial & Applied Mathematics (SIAM)'
Publication date: 27/09/2014
Field of study

We present a hierarchically blocked one-sided Jacobi algorithm for the singular value decomposition (SVD), targeting both single and multiple graphics processing units (GPUs). The blocking structure reflects the levels of GPU's memory hierarchy. The algorithm may outperform MAGMA's dgesvd, while retaining high relative accuracy. To this end, we developed a family of parallel pivot strategies on GPU's shared address space, but applicable also to inter-GPU communication. Unlike common hybrid approaches, our algorithm in a single GPU setting needs a CPU for the controlling purposes only, while utilizing GPU's resources to the fullest extent permitted by the hardware. When required by the problem size, the algorithm, in principle, scales to an arbitrary number of GPU nodes. The scalability is demonstrated by more than twofold speedup for sufficiently large matrices on a Tesla S2050 system with four GPUs vs. a single Fermi card.Comment: Accepted for publication in SIAM Journal on Scientific Computin

arXiv.org e-Print Archive

CiteSeerX

Novel Modifications of Parallel Jacobi Algorithms

Author: A Sluis van der
Aleksandar Ušćumlić
C Ashcraft
FM Dopico
FT Luk
H Zha
I Slapničar
I Slapničar
JR Bunch
JR Bunch
JR Bunch
JR Bunch
JR Bunch
JW Demmel
K Veselić
K Veselić
NH Rhee
NJ Higham
PPM Rijk de
S Singer
Sanja Singer
Saša Singer
V Hari
V Hari
V Hari
Vedran Dunjko
Vedran Novaković
Z Drmač
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 17/05/2011
Field of study

We describe two main classes of one-sided trigonometric and hyperbolic Jacobi-type algorithms for computing eigenvalues and eigenvectors of Hermitian matrices. These types of algorithms exhibit significant advantages over many other eigenvalue algorithms. If the matrices permit, both types of algorithms compute the eigenvalues and eigenvectors with high relative accuracy. We present novel parallelization techniques for both trigonometric and hyperbolic classes of algorithms, as well as some new ideas on how pivoting in each cycle of the algorithm can improve the speed of the parallel one-sided algorithms. These parallelization approaches are applicable to both distributed-memory and shared-memory machines. The numerical testing performed indicates that the hyperbolic algorithms may be superior to the trigonometric ones, although, in theory, the latter seem more natural.Comment: Accepted for publication in Numerical Algorithm

arXiv.org e-Print Archive

Crossref

FAMENA Repository

Three-Level Parallel J-Jacobi Algorithms for Hermitian Matrices

Author: Aleksandar Ušćumlić
Bečka
Bojanczyk
Brent
Bunch
Bunch
Davor Davidović
Demmel
Dopico
Drmač
Eberlein
Hansen
Hari
Hari
Higham
Krešimir Bokulić
Luk
Luk
Okša
Parlett
Royo
Rutishauser
Sanja Singer
Saša Singer
Shroff
Singer
Singer
Slapničar
Slapničar
van der Sluis
Vedran Novaković
Veselić
Whiteside
Zha
Zhou
Publication venue: 'Elsevier BV'
Publication date: 24/08/2010
Field of study

The paper describes several efficient parallel implementations of the one-sided hyperbolic Jacobi-type algorithm for computing eigenvalues and eigenvectors of Hermitian matrices. By appropriate blocking of the algorithms an almost ideal load balancing between all available processors/cores is obtained. A similar blocking technique can be used to exploit local cache memory of each processor to further speed up the process. Due to diversity of modern computer architectures, each of the algorithms described here may be the method of choice for a particular hardware and a given matrix size. All proposed block algorithms compute the eigenvalues with relative accuracy similar to the original non-blocked Jacobi algorithm.Comment: Submitted for publicatio

arXiv.org e-Print Archive

CiteSeerX

Crossref

FAMENA Repository

Full-text Institutional Repository of the Ruđer Bošković Institute

Paralelni algoritmi Jacobijeva tipa za singularnu i generaliziranu singularnu dekompoziciju

Author: Novaković Vedran
Publication venue: University of Zagreb. Faculty of Science. Department of Mathematics.
Publication date: 15/12/2017
Field of study

In this thesis, a hierarchically blocked one-sided Jacobi algorithm for the singular value decomposition (SVD) is presented. The algorithm targets both single and multiple graphics processing units (GPUs). The blocking structure reflects the levels of the GPU’s memory hierarchy. To this end, a family of parallel pivot strategies on the GPU’s shared address space has been developed, but the strategies are applicable to inter-node communication as well, with GPU nodes, CPU nodes, or, in general, any NUMA nodes. Unlike common hybrid approaches, the presented algorithm in a single-GPU setting needs a CPU for the controlling purposes only, while utilizing the GPU’s resources to the fullest extent permitted by the hardware. When required by the problem size, the algorithm, in principle, scales to an arbitrary number of GPU nodes. The scalability is demonstrated by more than twofold speedup for sufficiently large matrices on a four-GPU system vs. a single GPU. The subsequent part of the thesis describes how to modify the two-sided Hari–Zimmermann algorithm for computation of the generalized eigendecomposition of a symmetric matrix pair (A; B), where B is positive definite, to an implicit algorithm that computes the generalized singular value decomposition (GSVD) of a pair (F; G). In addition, blocking and parallelization techniques for accelerating both the CPU and the GPU computation are presented, with the GPU approach following the Jacobi SVD algorithm from the first part of the thesis. For triangular matrix pairs of a moderate size, numerical tests show that the double precision sequential pointwise algorithm is several times faster than the established DTGSJA algorithm in LAPACK, while the accuracy is slightly better, especially for the small generalized singular values. Cache-aware blocking increases the performance even further. As with the one-sided Jacobi-type (G)SVD algorithms in general, the presented algorithm is almost perfectly parallelizable and scalable on the shared memory machines, where the speedup almost solely depends on the number of cores used. A distributed memory variant, intended for huge matrices that do not fit into a single NUMA node, as well as a GPU variant, are also sketched. The thesis concludes with the affirmative answer to a question whether the onesided Jacobi-type algorithms can be an efficient and scalable choice for computing the (G)SVD of dense matrices on the massively parallel CPU and GPU architectures. Unless otherwise noted by the inline citations or implied by the context, this thesis is an overview of the original research results, most of which has already been published in [55, 58]. The author’s contributions are the one-sided Jacobi-type GPU algorithms for the ordinary and the generalized SVD, of which the latter has not yet been published, as well as the parallelization technique and some implementation details of the one-sided Hari–Zimmermann CPU algorithm for the GSVD. The rest is joint work with Sanja and Saša Singer.Singularna dekompozicija, katkad zvana prema engleskom originalu i dekompozicija singularnih vrijednosti, ili kraće SVD, jedna je od najkorisnijih matričnih dekompozicija, kako za teorijske, tako i za praktične svrhe. Svaka matrica

G \in \mathbb{C}^{m \times n}

(zbog jednostavnijeg zapisa, uobičajeno se smatra da je

m \geq n

; u protivnom, traži se SVD matrice

G^\ast

) može se rastaviti u produkt tri matrice

G = U \Sigma V^\ast,

gdje su

U \in \mathbb{C}^{m \times m}

V \in \mathbb{C}^{n \times n}

unitarne, a

\Sigma \in \mathbb{R}^{m \times n}

je 'dijagonalna' s nenegativnim dijagonalnim elementima. Osim ovog oblika dekompozicije, koristi se i skraćeni oblik

G = U'\Sigma'V^\ast,

pri čemu je

U' \in \mathbb{C}^{m \times n}

matrica s ortonormiranim stupcima, a

\Sigma' = diag(\sigma_1, \dots, \sigma_n), \sigma_i \geq 0

i = 0, \dots, n

, je sada stvarno dijagonalna. Izvan matematike, u 'stvarnom' životu, SVD se koristi u procesiranju slika (rekonstrukciji, sažimanju, izoštravanju) i signala, s primjenama u medicini (CT, tj. kompjuterizirana tomografija; MR, tj. magnetna rezonancija), geoznanostima, znanosti o materijalima, kristalografiji, sigurnosti (prepoznavanje lica), izvlačenja informacija iz velike količine podataka (na primjer, LSI, tj. latent semantic indexing), ali i drugdje. Većina primjena koristi svojstvo da se iz SVD-a lako čita najbolja aproksimacija dane matrice matricom fiksnog (niskog) ranga. Čini se da je lakše reći gdje se SVD ne koristi, nego gdje se koristi, stoga se SVD često naziva i "švicarskim nožićem matričnih dekompozicija"

^1

. Prvi počeci razvoja SVD-a sežu u 19. stoljeće, kad su poznati matematičari Eugenio Beltrami, Camille Jordan, James Joseph Sylvester, Erhard Schmidt i Herman Weyl pokazali njezinu egzistenciju i osnovna svojstva (za detalje pogledati [74]). Pioniri u numeričkom računanju SVD-a su Ervand George Kogbetliantz, te Gene Golub i William Kahan, koji su razvili algoritam za računanje (bidijagonalni QR), koji je dvadeset i pet godina vladao scenom numeričkog računanja SVD-a. U to vrijeme, sveučilište Stanford (gdje je Gene Golub radio) bilo je 'glavno sjedište' za razvoj primjena SVD-a. Početkom devedesetih godina, 'sjedište SVD-a' preseljeno je u Europu, nakon objave članka [21] o relativnoj točnosti računanja svojstvenih vrijednosti simetričnih pozitivno definitnih matrica korištenjem Jacobijeve metode. Naime, problem računanja svojstvene dekompozicije pozitivno definitne matrice i problem računanja SVD-a usko su vezani. Ako je poznata dekompozicija singularnih vrijednosti matrice

G

punog stupčanog ranga,

G \in \mathbb{C}^{m \times n} = U \Sigma V^\ast

, pri čemu je

G

faktor matrice

A

A = G \ast G

, onda je

A

simetrična i pozitivno definitna i vrijedi

A = G \ast G = V \Sigma^T U^\ast U \Sigma V^\ast = V diag(\sigma_1^2, \dots, \sigma_m^2)V^\ast .

Matrica

V

je matrica svojstvenih vektora, a svojstvene vrijednosti su kvadrati singularnih vrijednosti. Stoga se algoritmi za računanje svojstvenih vrijednosti, kod kojih se transformacija vrši dvostranim (i slijeva i zdesna) djelovanjem na matricu

A

, mogu napisati implicitno, tako da se transformacija vrši ili zdesna na faktor

G

ili slijeva na faktor

G^\ast

. U svojoj doktorskoj disertaciji Drmač [24] je napravio daljnju analizu, ne samo singularne dekompozicije računate Jacobijevim algoritmom, nego i generalizirane singularne dekompozicije (GSVD). Temeljem tih istraživanja, SVD baziran na Jacobijevim rotacijama ušao je i u numeričku biblioteku LAPACK. U međuvremenu, gotovo sva računala postala su višejezgrena, a moderni klasteri računala za znanstveno računanje sastoje se od nekoliko tisuća do nekoliko stotina tisuća višejezgrenih procesora

^2

, pa standardni sekvencijalni algoritmi nipošto više nisu primjereni za numeričko računanje. Stoga se ubrzano razvijaju paralelni algoritmi koji poštuju i hijerarhijsku memorijsku strukturu odgovarajućih računala, težeći iskoristiti brzu cache memoriju za procesiranje potproblema u blokovima, na koje je moguće primijeniti BLAS-3 operacije. Ideja blokiranja je u primjeni što više (tipično, kubično u dimenziji matrice) numeričkih operacija nad podacima u brzoj memoriji. Nadalje, pojavom grafičkih procesnih jedinica namijenjenih znanstvenom računanju, kao i drugih visokoparalelnih numeričkih akceleratora (npr. Intel Xeon Phi), otvorio se novi segment istraživanja, koji poštuje njihov masivni paralelizam, s pojedinačno slabašnom snagom svake dretve u odnosu na središnji procesor. Generaliziranu singularnu dekompoziciju (GSVD) uveli su Van Loan [77], te Paige i Saunders [62]. Definicija GSVD-a nešto je manje poznata. Ako su zadane matrice

F \in \mathbb{C}^{m \times n}

G \in \mathbb{C}^{p \times n}

, za koje vrijedi

K = {F \brack G} , k = rank(K),

tad postoje unitarne matrice

U \in \mathbb{C}^{m \times m}, V \in \mathbb{C}^{p \times p}

, i matrica

X \in \mathbb{C}^{k \times n}

, takve da je

F = U \Sigma_F X, \qquad G = V \Sigma_G X, \qquad \Sigma_F \in \mathbb{R}^{m \times k}, \qquad \Sigma_G \in \mathbb{R}^{p \times k}.

Elementi matrica

\Sigma_F

\Sigma_G

su nula, osim dijagonalnih elemenata, koji su realni i nenegativni. Nadalje,

\Sigma_F

\Sigma_G

zadovoljavaju

\Sigma_F^T\Sigma_F + \Sigma_G^T\Sigma_G = I.

Omjeri

(\Sigma_F)_{ii} / (\Sigma_G)_{ii}

su generalizirane singularne vrijednosti para

(F, G)

. Ako je

G

punog stupčanog ranga, tada je

rank(K) = n

i generalizirane singularne vrijednosti su konačni brojevi. Ako je par

(F, G)

realan, onda su realne sve matrice u dekompoziciji. Odavde nadalje, zbog jednostavnoti pretpostavlja se da je par realan. Može se pokazati da, ako je

k = n

, tada se relacija između GSVD-a i reducirane forme CS (kosinus-sinus) dekompozicije (vidjeti, na primjer, [26]) može iskoristiti za njezino računanje (pogledati, na primjer članke Stewarta [72, 73] i Suttona [75]). Slično kao i SVD, generalizirana singularna dekompozicija ima primjene u mnogim područjima, kao što je usporedna analiza podataka vezanih uz genome [1], nepotpuna singularna metoda rubnih elemeneata [47], ionosferna tomografija [9], ali i mnogo drugih. GSVD para matrica

(F, G)

blisko je vezana s hermitskim generaliziranim svojstvenim problemom za par

(A, B) := (F^\ast F, G^\ast G)

, tako da se metode za istovremenu dijagonalizaciju para

(A, B)

mogu modificirati za računanje GSVD-a para

(F, G)

. U ovoj radnji razvijen je brzi i efikasan algoritam za računanje generalizirane singularne dekompozicije realnog para

(F, G)

. Metoda razvijena u radnji bazirana je na algoritmu za računanje generalizirane svojstvene dekompozicije,

Ax = \lambda Bx; \quad x \neq 0; \qquad (1)

gdje su

A

B

simetrične matrice, a par je definitan, tj. postoji realna konstanta

\mu

takva da je matrica

A-\mu B

pozitivno definitna. Članke s metodom objavili su 1960. Falk i Langemeyer [31, 32] u slabo poznatom priručniku. Kad je paralelna verzija metode testirana, pokazalo se da pati zbog problema rastuće skale stupaca matrice tijekom procesa ortogonalizacije. Treba još primijetiti da pozitivna definitnost matrice

B

odmah znači da je definitan i par

(A, B)

. Gotovo desetljeće nakon Falka i Langemeyera, Katharina Zimmermann je u svojoj doktorskoj disertaciji [81] grubo skicirala metodu za rješavanje generaliziranog svojstvenog problema (1) ako je B pozitivno definitna. Gose [34] je predložio optimalnu ne-cikličku pivotnu strategiju i dokazao globalnu konvergenciju originalne metode. Hari je u svojoj disertaciji [37], potaknut Zimmermanninom skicom metode, izveo algoritam i pokazao njegovu globalnu i kvadratičnu konvergenciju uz cikličke pivotne strategije. Kvadratičnu konvergenciju originalne Falk–Langemeyerove metode dokazao je 1988. Slapničar u svojem magisteriju, četiri godine nakon dokaza konvergencije Hari–Zimmermann metode. Hari je u [37] pokazao ključnu vezu između Hari–Zimmermannine i Falk–Langemeyerove varijante algoritma. Ako je matrica

B

obostrano skalirana dijagonalnom matricom

D

, tako da su joj dijagonalni elementi jednaki 1 prije svakog koraka poništavanja u Falk–Langemeyerovoj metodi, dobiva se Hari–Zimmermannina metoda. Dakle, nova metoda imala je ključno svojstvo normiranosti stupaca barem jedne matrice, što se pokazalo iznimno bitnim za uspjeh algoritma (izbjegavanje skaliranja matrica tijekom procesa ortogonalizacije). Treba reći da se GSVD može računati i na druge načine. Drmač je u [26] izveo algoritam za računanje GSVD-a para

(F, G)

, kad je

G

punog stupčanog ranga. Algoritam transformira problem na samo jednu matricu, a nakon toga primjenjuje jednostrani Jacobijev SVD algoritam. Taj algoritam računa generalizirane singularne vrijednosti s malom relativnom greškom. Algoritam svođenja na jednu matricu sastoji se od tri koraka: skaliranje stupaca matrica

F

G

, QR faktorizacije sa stupčanim pivotiranjem već skalirane matrice

G

, i konačno, rješavanjem trokutastog linearnog sustava s

k

desnih strana. Posljednja dva koraka su sekvencijalna i vrlo ih je teško paralelizirati. Sama ideja korištenja implicitne (tj. jednostrane) Falk–Langemeyerove metode za GSVD para

(F, G)

, s

G

punog stupčanog ranga, sreće se u disertaciji Annette Deichmöller [17], međutim, tamo se ne spominju usporedbe te metode s drugim metodama. S druge strane, algoritam za računanje GSVD-a u biblioteci LAPACK (potprogram xGGSVD), je modificirani Kogbetliantzov algoritam (vidjeti Paige [61]) s obveznim pretprocesiranjem (vidjeti Bai i Demmel [5]). Algoritam pretprocesiranja [6] transformira zadani matrični par

(F_0, G_0)

u par

(F, G)

, takav da su

F

G

gornjetrokutaste, a

G

je i nesingularna. Ako se unaprijed zna da je

G

punog stupčanog ranga, i implicitna Falk–Langemeyerova i implicitna Hari–Zimmermannina metoda će raditi i bez pretprocesiranja. Ako su

F

G

vitke (engl. "tall and skinny"), QR factorizacija obje matrice će ubrzati ortogonalizaciju. Ako

G

nije punog ranga, onda treba koristiti isto pretprocesiranje kao u LAPACK-u, budući da puni stupčani rang matrice

G

garantira pozitivnu definitnost matrice

B := G^T G

. U ovoj radnji razvijen je i hijerarhijski, blokirani jednostrani algoritam za računanje SVD-a. Opisani algoritam može raditi na višeprocesorskom računalu, računalnim klasterima, jednoj ili više grafičkih procesnih jedinica. Princip rada algoritma na svim arhitekturama je sličan. Posebno je opisan algoritam koji radi na grafičkim procesnim jedinicama. Struktura blokiranja reflektira razine memorijske strukture grafičke procesne jedninice. Da bi se to postiglo, razvijene su familije paralelnih pivotnih strategija za dijeljenu (engl. shared) memoriju grafičkih procesnih jedinica. Uz dodatak rasporeda po procesima, strategije se mogu koristiti i kao strategije za komuniciranje među računalnim čvorovima (bili oni grafičke procesne jedinice, jezgre procesora ili tzv. NUMA čvorovi). Razvijeni algoritam nije hibridni, tj. centralnu procesnu jedinicu koristi samo za kontrolne svrhe, a cjelokupno računanje odvija se na grafičkoj procesnoj jedinici. Kad je zbog veličine problema potrebno, algoritam se može rasprostrijeti (skalirati) na proizvoljan broj grafičkih procesnih jedinica. Na dovoljno velikim matricama, skalabilnost je pokazana ubrzanjem od preko dva puta na četiri grafičke procesne jedinice, obzirom na jednu. U drugom dijelu radnje opisuje se jedan način modifikacije dvostranog Hari–Zimmermanninog algoritma za računanje generalizirane svojstvene dekompozicije matričnog para

(A, B)

, gdje su obje matrice simetrične, a

B

je pozitivno definitna. Implicitni algoritam računa GSVD para

(F, G)

, pri čemu je

(A, B) := (F^T F, G^T G)

. Nadalje, pokazuje se kako treba blokirati algoritam, te kako ga paralelizirati, i u slučaju standardnih, i u slučaju grafičkih procesora. Za trokutaste matrične parove srednje velikih dimenzija (približno 5 000), pokazano je da je već sekvencijalni, neblokirani algoritam u dvostrukoj točnosti, predložen u radnji, nekoliko desetaka puta brži no što je to LAPACK potprogram DTGSJA i pritom ima nešto bolju točnost, posebno za male generalizirane singularne vrijednosti. Blokiranje algoritma koje odgovara cacheima znatno ubrzava algoritam. Pokazuje se da je i ovaj algoritam, slično kao jednostrani Jacobijev algoritam za SVD, gotovo idealno paralelizabilan i skalabilan na računalima s dijeljenom memorijom, te da njegovo ubrzanje gotovo isključivo ovisi o broju korištenih jezgara. U vrijeme testiranja, pokazalo se da je paralelizirani i blokirani Hari–Zimmermannin algoritam preko sto puta brži od LAPACK potprograma DTGESJA s višedretvenim BLAS potprogramima. Varijanta algoritma za razdijeljenu (engl. distributed) memoriju namijenjena je ogromnim matricama koje ne stanu u jedan NUMA čvor. Također, skicirana je i GPU varijanta algoritma, koja je vrlo slična jednostranom Jacobijevom algoritmu za SVD. Disertacija završava zaključkom da su ovi algoritmi Jacobijevog tipa efikasni i skalabilni i izvrstan su izbor za računanje (G)SVD-a punih matrica na masivno paralelnim standardnim arhitekturama i na grafičkim procesnim jedinicama. Ova doktorska disertacija bazirana je na originalnim znanstvenim radovima [55, 58], te proširena nekim novim rezultatima. Autorov doprinos u ovoj disertaciji su novi paralelni algoritmi za (G)SVD za grafičke procesne jedinice, tehnike paralelizacije, te detalji implementacije jednostranog Hari–Zimmermannina algoritma. Ostatak je zajednički rad sa Sanjom Singer i Sašom Singerom.

^1

Diane O’Leary, 2006.

^2

https://www.top500.or

Repository of Faculty of Science, University of Zagreb

Croatian Digital Dissertations Repository

University of Zagreb Repository

Paralelni algoritmi Jacobijeva tipa za singularnu i generaliziranu singularnu dekompoziciju

Author: Novaković Vedran
Publication venue: University of Zagreb. Faculty of Science. Department of Mathematics.
Publication date: 15/12/2017
Field of study

G \in \mathbb{C}^{m \times n}

(zbog jednostavnijeg zapisa, uobičajeno se smatra da je

m \geq n

; u protivnom, traži se SVD matrice

G^\ast

) može se rastaviti u produkt tri matrice

G = U \Sigma V^\ast,

gdje su

U \in \mathbb{C}^{m \times m}

V \in \mathbb{C}^{n \times n}

unitarne, a

\Sigma \in \mathbb{R}^{m \times n}

je 'dijagonalna' s nenegativnim dijagonalnim elementima. Osim ovog oblika dekompozicije, koristi se i skraćeni oblik

G = U'\Sigma'V^\ast,

pri čemu je

U' \in \mathbb{C}^{m \times n}

matrica s ortonormiranim stupcima, a

\Sigma' = diag(\sigma_1, \dots, \sigma_n), \sigma_i \geq 0

i = 0, \dots, n

^1

G

punog stupčanog ranga,

G \in \mathbb{C}^{m \times n} = U \Sigma V^\ast

, pri čemu je

G

faktor matrice

A

A = G \ast G

, onda je

A

simetrična i pozitivno definitna i vrijedi

A = G \ast G = V \Sigma^T U^\ast U \Sigma V^\ast = V diag(\sigma_1^2, \dots, \sigma_m^2)V^\ast .

Matrica

V

A

, mogu napisati implicitno, tako da se transformacija vrši ili zdesna na faktor

G

ili slijeva na faktor

G^\ast

^2

F \in \mathbb{C}^{m \times n}

G \in \mathbb{C}^{p \times n}

, za koje vrijedi

K = {F \brack G} , k = rank(K),

tad postoje unitarne matrice

U \in \mathbb{C}^{m \times m}, V \in \mathbb{C}^{p \times p}

, i matrica

X \in \mathbb{C}^{k \times n}

, takve da je

F = U \Sigma_F X, \qquad G = V \Sigma_G X, \qquad \Sigma_F \in \mathbb{R}^{m \times k}, \qquad \Sigma_G \in \mathbb{R}^{p \times k}.

Elementi matrica

\Sigma_F

\Sigma_G

su nula, osim dijagonalnih elemenata, koji su realni i nenegativni. Nadalje,

\Sigma_F

\Sigma_G

zadovoljavaju

\Sigma_F^T\Sigma_F + \Sigma_G^T\Sigma_G = I.

Omjeri

(\Sigma_F)_{ii} / (\Sigma_G)_{ii}

su generalizirane singularne vrijednosti para

(F, G)

. Ako je

G

punog stupčanog ranga, tada je

rank(K) = n

i generalizirane singularne vrijednosti su konačni brojevi. Ako je par

(F, G)

realan, onda su realne sve matrice u dekompoziciji. Odavde nadalje, zbog jednostavnoti pretpostavlja se da je par realan. Može se pokazati da, ako je

k = n

(F, G)

blisko je vezana s hermitskim generaliziranim svojstvenim problemom za par

(A, B) := (F^\ast F, G^\ast G)

, tako da se metode za istovremenu dijagonalizaciju para

(A, B)

mogu modificirati za računanje GSVD-a para

(F, G)

. U ovoj radnji razvijen je brzi i efikasan algoritam za računanje generalizirane singularne dekompozicije realnog para

(F, G)

. Metoda razvijena u radnji bazirana je na algoritmu za računanje generalizirane svojstvene dekompozicije,

Ax = \lambda Bx; \quad x \neq 0; \qquad (1)

gdje su

A

B

simetrične matrice, a par je definitan, tj. postoji realna konstanta

\mu

takva da je matrica

A-\mu B

B

odmah znači da je definitan i par

(A, B)

B

obostrano skalirana dijagonalnom matricom

D

(F, G)

, kad je

G

F

G

, QR faktorizacije sa stupčanim pivotiranjem već skalirane matrice

G

, i konačno, rješavanjem trokutastog linearnog sustava s

k

desnih strana. Posljednja dva koraka su sekvencijalna i vrlo ih je teško paralelizirati. Sama ideja korištenja implicitne (tj. jednostrane) Falk–Langemeyerove metode za GSVD para

(F, G)

, s

G

(F_0, G_0)

u par

(F, G)

, takav da su

F

G

gornjetrokutaste, a

G

je i nesingularna. Ako se unaprijed zna da je

G

punog stupčanog ranga, i implicitna Falk–Langemeyerova i implicitna Hari–Zimmermannina metoda će raditi i bez pretprocesiranja. Ako su

F

G

vitke (engl. "tall and skinny"), QR factorizacija obje matrice će ubrzati ortogonalizaciju. Ako

G

nije punog ranga, onda treba koristiti isto pretprocesiranje kao u LAPACK-u, budući da puni stupčani rang matrice

G

garantira pozitivnu definitnost matrice

B := G^T G

(A, B)

, gdje su obje matrice simetrične, a

B

je pozitivno definitna. Implicitni algoritam računa GSVD para

(F, G)

, pri čemu je

(A, B) := (F^T F, G^T G)

^1

Diane O’Leary, 2006.

^2

https://www.top500.or

University of Zagreb Repository

Solution of the Schrodinger equation for quasi-one-dimensional materials using helical waves

Author: Agarwal Shivang
Banerjee Amartya S.
Publication venue
Publication date: 22/09/2023
Field of study

We formulate and implement a spectral method for solving the Schrodinger equation, as it applies to quasi-one-dimensional materials and structures. This allows for computation of the electronic structure of important technological materials such as nanotubes (of arbitrary chirality), nanowires, nanoribbons, chiral nanoassemblies, nanosprings and nanocoils, in an accurate, efficient and systematic manner. Our work is motivated by the observation that one of the most successful methods for carrying out electronic structure calculations of bulk/crystalline systems -- the plane-wave method -- is a spectral method based on eigenfunction expansion. Our scheme avoids computationally onerous approximations involving periodic supercells often employed in conventional plane-wave calculations of quasi-one-dimensional materials, and also overcomes several limitations of other discretization strategies, e.g., those based on finite differences and atomic orbitals. We describe the setup of fast transforms to carry out discretization of the governing equations using our basis set, and the use of matrix-free iterative diagonalization to obtain the electronic eigenstates. Miscellaneous computational details, including the choice of eigensolvers, use of a preconditioning scheme, evaluation of oscillatory radial integrals and the imposition of a kinetic energy cutoff are discussed. We have implemented these strategies into a computational package called HelicES (Helical Electronic Structure). We demonstrate the utility of our method in carrying out systematic electronic structure calculations of various quasi-one-dimensional materials through numerous examples involving nanotubes, nanoribbons and nanowires. We also explore the convergence, accuracy and efficiency of our method. We anticipate that our method will find numerous applications in computational nanomechanics and materials science

arXiv.org e-Print Archive

The LAPW method with eigendecomposition based on the Hari--Zimmermann generalized hyperbolic SVD

Author: Di Napoli Edoardo
Novaković Vedran
Singer Sanja
Čaklović Gayatri
Publication venue: 'Society for Industrial & Applied Mathematics (SIAM)'
Publication date: 01/01/2020
Field of study

In this paper we propose an accurate, highly parallel algorithm for the generalized eigendecomposition of a matrix pair

(H, S)

, given in a factored form

(F^{\ast} J F, G^{\ast} G)

. Matrices

H

and

S

are generally complex and Hermitian, and

S

is positive definite. This type of matrices emerges from the representation of the Hamiltonian of a quantum mechanical system in terms of an overcomplete set of basis functions. This expansion is part of a class of models within the broad field of Density Functional Theory, which is considered the golden standard in condensed matter physics. The overall algorithm consists of four phases, the second and the fourth being optional, where the two last phases are computation of the generalized hyperbolic SVD of a complex matrix pair

(F,G)

, according to a given matrix

J

defining the hyperbolic scalar product. If

J = I

, then these two phases compute the GSVD in parallel very accurately and efficiently.Comment: The supplementary material is available at https://web.math.pmf.unizg.hr/mfbda/papers/sm-SISC.pdf due to its size. This revised manuscript is currently being considered for publicatio

arXiv.org e-Print Archive

Publikationsserver der RWTH Aachen University

Juelich Shared Electronic Resources