6 research outputs found
Szemantikus adatok lekérdezése federált és osztott rendszereken
Az értekezés a szemantikus webnél felmerülő problémákkal foglalkozott. A szemantikus web egy olyan elgondolás, ahol az Interneten az információkat úgy tároljuk, hogy azok összekapcsolhatóak legyenek. Ezáltal egy nagy tudásbázist kaphatunk. A használatuk viszont nehézkes, melynek fő okai a tudásbázisok nagy mérete és strukturálatlansága.
Az elsĹ‘ terĂĽlet azt mutatta be, hogy hogyan lehet használni a kliens-szerver architektĂşra modellt arra, hogy a szemantikus adatokat biztosĂtani tudjunk kisebb erĹ‘forrással rendelkezĹ‘ eszközöknek, mint pĂ©ldául a mobiltelefonoknak. A fejezetben bemutattam 3 alkalmazást, amely ezen architektĂşra felĂ©pĂtĂ©sre Ă©pĂĽlt. Az elsĹ‘ alkalmazás egy vállalati informáciĂłs rendszer, a második alkalmazás egy beltĂ©ri navigáciĂłs rendszer, a harmadik alkalmazás pedig egy szemantikus böngĂ©szĹ‘ mobilkĂ©szĂĽlĂ©kekre.
A második terĂĽlet a federált rendszerek tĂ©makörĂ©vel foglalkozik. A szemantikus web elgondolása, hogy a világhálĂłn megtalálhatĂł informáciĂłk összekapcsolhatĂłak legyenek. A federált rendszerek lehetĹ‘sĂ©get adnak arra, hogy egy lekĂ©rdezĂ©sben el tudjunk Ă©rni több vĂ©gponton találhatĂł adatot. Ennek fontos rĂ©sze, hogy a rendszer el tudja dönteni a hármasmintákbĂłl, hogy mely vĂ©gponton kell lefuttatni Ĺ‘ket. ElsĹ‘ eredmĂ©nykĂ©nt formálisan leĂrtam a federált rendszerek működĂ©sĂ©t az ASM modell segĂtsĂ©gĂ©vel. Ezután bemutattam egy olyan megoldást, ahol a federált rendszer a vĂ©gpontokon találhatĂł nĂ©vtereket használja a vĂ©gpontok kiválasztásra. A következĹ‘ eredmĂ©ny arra irányul, hogy egy federált rendszert alkalmazni lehet szemantikus lekĂ©rdezĂ©sek megĂrására is, amely segĂtheti a szemantikus weben nem járatos felhasználĂłkat. A megoldás hármasmintákat ajánl a felhasználĂłnak a kĂĽlönbözĹ‘ vĂ©gpontokrĂłl. VĂ©gĂĽl a fejezet vĂ©gsĹ‘ eredmĂ©nye, hogy ezekbĹ‘l az ajánlásokbĂłl olyan informáciĂłkat is ki tudunk nyerni, amelyek segĂtik a lekĂ©rdezĂ©s kiĂ©rtĂ©kelĂ©sĂ©t.
A harmadik terĂĽlet amivel foglalkoztam a szemantikus adatok Ă©s a Big Data eszközök kapcsolata. A fejezet elsĹ‘ eredmĂ©nyekĂ©nt egy olyan algoritmust kĂ©szĂtettem, amely a szemantikus gráfot redukálja olyan mĂ©retűre, amelyet már meg tudunk jelenĂteni egy gráfmegjelenĂtĹ‘ alkalmazással. A vizuális megjelenĂtĂ©s segĂt az adatok megĂ©rtĂ©sĂ©be, megismerĂ©sĂ©be, vagy Ă©pp a hibák feltárásában. A következĹ‘ eredmĂ©ny egy olyan algoritmus Ă©s modell, ahol egy osztott gráfelemzĹ‘ alkalmazást alkalmazok a szemantikus adatok lekĂ©rdezĂ©sĂ©re. Ez a rendszer a Spark GraphX, amely a csĂşcsok közötti ĂĽzenetváltáson alapszik. A fejezetben bemutatunk kĂ©t megoldást is arra, hogyan lehet kiĂ©rtĂ©kelni a SPARQL lekĂ©rdezĂ©seket. Az Sparkql megoldás lekĂ©rdezĂ©si terve lineárisan, mĂ©g a P-Sparkql már párhuzamosan kĂ©pes a hármasmintákat ellenĹ‘rizni
Bisimulation reduction of big graphs on MapReduce
Computing the bisimulation partition of a graph is a fundamental problem which plays a key role in a wide range of basic applications. Intuitively, two nodes in a graph are bisimilar if they share basic structural properties such as labeling and neighborhood topology. In data management, reducing a graph under bisimulation equivalence is a crucial step, e.g., for indexing the graph for efficient query processing. Often, graphs of interest in the real world are massive; examples include social networks and linked open data. For analytics on such graphs, it is becoming increasingly infeasible to rely on in-memory or even I/O-efficient solutions. Hence, a trend in Big Data analytics is the use of distributed computing frameworks such as MapReduce. While there are both internal and external memory solutions for efficiently computing bisimulation, there is, to our knowledge, no effective MapReduce-based solution for bisimulation. Motivated by these observations we propose in this paper the first efficient MapReduce-based algorithm for computing the bisimulation partition of massive graphs. We also detail several optimizations for handling the data skew which often arises in real-world graphs. The results of an extensive empirical study are presented which demonstrate the effectiveness and scalability of our solution
Bisimulation reduction of big graphs on MapReduce
Computing the bisimulation partition of a graph is a fundamental problem which plays a key role in a wide range of basic applications. Intuitively, two nodes in a graph are bisimilar if they share basic structural properties such as labeling and neighborhood topology. In data management, reducing a graph under bisimulation equivalence is a crucial step, e.g., for indexing the graph for efficient query processing. Often, graphs of interest in the real world are massive; examples include social networks and linked open data. For analytics on such graphs, it is becoming increasingly infeasible to rely on in-memory or even I/O-efficient solutions. Hence, a trend in Big Data analytics is the use of distributed computing frameworks such as MapReduce. While there are both internal and external memory solutions for efficiently computing bisimulation, there is, to our knowledge, no effective MapReduce-based solution for bisimulation. Motivated by these observations we propose in this paper the first efficient MapReduce-based algorithm for computing the bisimulation partition of massive graphs. We also detail several optimizations for handling the data skew which often arises in real-world graphs. The results of an extensive empirical study are presented which demonstrate the effectiveness and scalability of our solution