    Data Management for Data Science - Towards Embedded Analytics

    The rise of Data Science has caused an influx of new usersin need of data management solutions. However, insteadof utilizing existing RDBMS solutions they are opting touse a stack of independent solutions for data storage andprocessing glued together by scripting languages. This is notbecause they do not need the functionality that an integratedRDBMS provides, but rather because existing RDBMS im-plementations do not cater to their use case. To solve theseissues, we propose a new class of data management systems:embedded analytical systems. These systems are tightlyintegrated with analytical tools, and provide fast and effi-cient access to the data stored within them. In this work,we describe the unique challenges and opportunities w.r.tworkloads, resilience and cooperation that are faced by thisnew class of systems and the steps we have taken towardsaddressing them in the DuckDB system


    Tiivistelmä. Tämä kandidaatin tutkielma käsittelee NewSQL-tietokantoja. Tutkielmassa perehdytään siihen, kuinka NewSQL-tietokannat kykenevät takaamaan ACID-transaktiot. Tämä selvitetään tutkimalla erilaisia NewSQL-tietokantoja. Valitsin tämän aiheen henkilökohtaisen mielenkiinnon vuoksi. Lisäksi aihe on tuore ja mahdollisesti tulevaisuudessa merkittävä. Käsiteltävän tiedon määrä on nopeassa kasvussa, joten yritykset tarvitsevat luotettavia ratkaisuja tallentaa ja hallinnoida suurta määrää tietoa. Varsinkin koneoppiminen vaatii suuren datamäärän käsittelyä. Tällä hetkellä on tärkeää varmistaa NewSQL-tietokantojen luotettavuus. Tutkimuskysymyksen vastausta lähestytään erilaisten NewSQL-tietokantaratkaisujen avulla. Tällaisia ovat esimerkiksi VoltDB ja MemSQL, joiden ratkaisut ACIDtransaktioiden takaamiseen esitellään tässä tutkielmassa pääpiirteisesti. NewSQL-tietokantojen kehitys on ollut jatkumo jo 1960-luvulta lähtien alkaen relaatiotietokannoista. Käsiteltävän tiedon kasvun takia tietokantoja on jouduttu laajentamaan ja hajauttamaan, mikä on aiheuttanut haasteita tietokantojen luotettavuuteen. Tämän takia tutkielmassa käydään myös läpi, millaisia vaikutuksia tietokantojen hajautuksella on ollut niiden luotettavuuteen