4 research outputs found

    Container-Managed ETL Applications for Integrating Data in Near Real-Time

    Get PDF
    As the analytical capabilities and applications of e-business systems expand, providing real-time access to critical business performance indicators to improve the speed and effectiveness of business operations has become crucial. The monitoring of business activities requires focused, yet incremental enterprise application integration (EAI) efforts and balancing information requirements in real-time with historical perspectives. The decision-making process in traditional data warehouse environments is often delayed because data cannot be propagated from the source system to the data warehouse in a timely manner. In this paper, we present an architecture for a container-based ETL (extraction, transformation, loading) environment, which supports a continual near real-time data integration with the aim of decreasing the time it takes to make business decisions and to attain minimized latency between the cause and effect of a business decision. Instead of using vendor proprietary ETL solutions, we use an ETL container for managing ETLets (pronounced “et-lets”) for the ETL processing tasks. The architecture takes full advantage of existing J2EE (Java 2 Platform, Enterprise Edition) technology and enables the implementation of a distributed, scalable, near real-time ETL environment. We have fully implemented the proposed architecture. Furthermore, we compare the ETL container to alternative continuous data integration approaches

    Intégration de données temps-réel issues de capteurs dans un entrepôt de données géo-décisionnel

    Get PDF
    Nous avons pu, au cours des dernières années, assister à une augmentation du nombre de capteurs utilisés pour mesurer des phénomènes de plus en plus variés. En effet, nous pouvons aujourd'hui utiliser les capteurs pour mesurer un niveau d'eau, une position (GPS), une température et même le rythme cardiaque d'un individu. La grande diversité de capteurs fait d'eux aujourd'hui des outils par excellence en matière d'acquisition de données. En parallèle à cette effervescence, les outils d'analyse ont également évolué depuis les bases de données transactionnelles et ont mené à l'apparition d'une nouvelle famille d’outils, appelés systèmes d’analyse (systèmes décisionnels), qui répond à des besoins d’analyse globale sur les données. Les entrepôts de données et outils OLAP (On-Line Analytical Processing), qui font partie de cette famille, permettent dorénavant aux décideurs d'analyser l'énorme volume de données dont ils disposent, de réaliser des comparaisons dans le temps et de construire des graphiques statistiques à l’aide de simples clics de la souris. Les nombreux types de capteurs peuvent certainement apporter de la richesse à une analyse, mais nécessitent de longs travaux d'intégration pour les amener jusqu'à un entrepôt géo-décisionnel, qui est au centre du processus de prise de décision. Les différents modèles de capteurs, types de données et moyens de transférer les données sont encore aujourd'hui des obstacles non négligeables à l'intégration de données issues de capteurs dans un entrepôt géo-décisionnel. Également, les entrepôts de données géo-décisionnels actuels ne sont pas initialement conçus pour accueillir de nouvelles données sur une base fréquente. Puisque l'utilisation de l'entrepôt par les utilisateurs est restreinte lors d'une mise à jour, les nouvelles données sont généralement ajoutées sur une base hebdomadaire, mensuelle, etc. Il existe pourtant des entrepôts de données capables d'être mis à jour plusieurs fois par jour sans que les performances lors de leur exploitation ne soient atteintes, les entrepôts de données temps-réel (EDTR). Toutefois, cette technologie est encore aujourd’hui peu courante, très coûteuse et peu développée. Ces travaux de recherche visent donc à développer une approche permettant de publier et standardiser les données temps-réel issues de capteurs et de les intégrer dans un entrepôt géo-décisionnel conventionnel. Une stratégie optimale de mise à jour de l'entrepôt a également été développée afin que les nouvelles données puissent être ajoutées aux analyses sans que la qualité de l'exploitation de l'entrepôt par les utilisateurs ne soit remise en cause.In the last decade, the use of sensors for measuring various phenomenons has greatly increased. As such, we can now make use of sensors to measure GPS position, temperature and even the heartbeats of a person. Nowadays, the wide diversity of sensor makes them the best tools to gather data. Along with this effervescence, analysis tools have also advanced since the creation of transactional databases, leading to a new category of tools, analysis systems (Business Intelligence (BI)), which respond to the need of the global analysis of the data. Data warehouses and OLAP (On-Line Analytical Processing) tools, which belong to this category, enable users to analyze big volumes of data, execute time-based requests and build statistic graphs in a few simple mouse clicks. Although the various types of sensor can surely enrich any analysis, such data requires heavy integration processes to be driven into the data warehouse, centerpiece of any decision-making process. The different data types produced by sensors, sensor models and ways to transfer such data are even today significant obstacles to sensors data streams integration in a geo-decisional data warehouse. Also, actual geo-decisional data warehouses are not initially built to welcome new data on a high frequency. Since the performances of a data warehouse are restricted during an update, new data is usually added weekly, monthly, etc. However, some data warehouses, called Real-Time Data Warehouses (RTDW), are able to be updated several times a day without letting its performance diminish during the process. But this technology is not very common, very costly and in most of cases considered as "beta" versions. Therefore, this research aims to develop an approach allowing to publish and normalize real-time sensors data streams and to integrate it into a classic data warehouse. An optimized update strategy has also been developed so the frequent new data can be added to the analysis without affecting the data warehouse performances

    Razvoj i primena ciljno vođenog procesnog skladišta podataka kao osnove za inteligentnu analizu procesa održavanja opreme

    Get PDF
    Problem unapređenja poslovanja sa stanovišta optimizacije procesa i smanjenja troškova je standardni cilj svakog poslovnog sistema. Novija unapređenja su se zasnivala na primenama najnovijih tehnologija, ali su se one prvenstveno bavile parcijalnim segmentom poslovanja, kao na primer kod održavanja opreme radnim nalozima i analizama rezultata otklanjanja kvarova. Nisu uzimale u obzir kompletan proces, od prijave kvara do trenutka otklanjanja kvarova. Zbog toga su predložena rešenja bila parcijalna i u nekim slučajevima davala potpuno pogrešne rezultate analiza. Predloženo rešenje se bazira na definisanju načina obuhvata kompletnog procesa, izborom najoptimalnije standarda za snimanje, analizu i optimizaciju procesa i izborom odgovarajućeg formata podataka koji može da se usaglasi na analiziranim procesom i definisanim objektima snimljenim tokom procesa. Zbog toga se rešenje baziralo na primeni odgovarajućeg standarda za tu vrstu procesa do koje se došlo primenom višekriterijumske analize i analizom dostupne stručne literature, zatim na primeni skladišta podataka kao opšte strukture podataka, a dodatnim analizama je usvojen procesno skladište podataka (Process Data Warehouse, PDW), sa ciljnim parametrima analize i definisanim graničnim vrednostima. Ključni rezultati dobijeni analizom su pokazali da je primena izabranog standarda za snimanje procesa obezbeđena ključna baza elemenata koji su potrebni za optimizaciju, da je primenom objektnog PDW-a obezbeđena kvalitetna i realna baza podataka. Transformacijom podataka iz relacione u strukturu skladišta podataka, dobijena je jednostavna struktura koja je obezbedila dinamički pristup podacima i njihovo dinamičko grupisanje i specijalizaciju, a dodatna proširenja koja su se odnosila na granične i ciljane vrednosti su u potpunosti opravdale primenjen koncept. Ovim konceptom je prikazano da od prvobitnog polazišta da je sistem održavanja vrlo uspešan (uptime opreme na nivou >95%) kad se posmatra samo radni nalog, došlo se pokazatelja da u preko 30% intervencija, kad se pogleda kompletan proces, dolazi do kašnjenja u otklanjanju kvarova
    corecore