unknown

Održavanje skladišta podataka

Abstract

Skladište podataka je baza podataka koja sadrži povijesne nepromjenjive podatke koji se prikupljaju i analiziraju kao pomoć pri donošenju poslovnih odluka. U radu je dan pregled osnovnih pojmova i razloga nastanka i korištenja skladišta podataka. Također, opisane su razlike u odnosu na klasične, transakcijske baze podataka. Bill Inmon i Ralph Kimball imaju vrlo velik značaj u području oblikovanja skladišta podataka. Inmon je poznat kao ``otac skladištenja podataka'', a Kimball je tvorac dimenzionalnog modeliranja. Njih dvojica imaju različite pristupe oblikovanju skladišta, Inmon se zalaže za pristup razvoju ``od vrha prema dolje'', dok Kimball zastupa pristup ``od dna prema gore''. U radu je dan pregled alata za fizičku realizaciju skladišta podataka te su opisani razlozi i načini nadzora i održavanja skladišta. ETL (Extract-Transform-Load) proces je proces koji označava dohvaćanje podataka, njihovu transformaciju i učitavanje u skladište podataka. Predstavlja najznačajniji dio svakog skladišta podataka. Što se tiče alata, postoje brojni komercijalni i open-source ETL alati, a također možemo i samostalno kodirati ETL proces u proizvoljnom programskom jeziku. Na kraju rada dajemo opis studijskog primjera u kojem demonstriramo kako dizajnirati i implementirati dimenzionalno skladište. Za implementaciju ETL procesa koristimo alat Talend Open Studio.Data warehouse is a database used to collect large amounts of historical data which is then analyzed and used to make better business decisions. This paper gives an overview of basic terms and reasons for the creation and use of data warehouses. Also, we describe the differences between data warehouses and transactional databases. Bill Inmon and Ralph Kimball have made a huge impact in data warehouse modeling techniques. Inmon is known as “father of data warehousing” and Kimball is known for his dimensional modeling technique. The two of them have different approaches to data warehousing, Inmon advocates a “top-down” approach, whereas Kimball suggests a “bottomup” approach. This paper gives an overview of tools used for physical realization of data warehouses. Also, it describes the reasons for monitoring and maintaining a data warehouse and how to do it. ETL is a process of extracting data from source systems, transforming them and loading them into the data warehouse. It is the most important part of building a data warehouse. There are many commercial and open-source ETL tools but there is also the option of hand coding the whole ETL process. At the end of this paper, we give an example in which we demonstrate how to model and implement a data warehouse based on a dimensional model. Our ETL tool of choice is Talend Open Studio

    Similar works