12 research outputs found

    Editorial for FGCS special issue: Big Data in the cloud

    Get PDF
    Research associated with Big Data in the Cloud will be important topic over the next few years. The topic includes work on demonstrating architectures, applications, services, experiments and simulations in the Cloud to support the cases related to adoption of Big Data. A common approach to Big Data in the Cloud to allow better access, performance and efficiency when analysing and understanding the data is to deliver Everything as a Service. Organisations adopting Big Data this way find the boundaries between private clouds, public clouds and Internet of Things (IoT) can be very thin. Volume, variety, velocity, veracity and value are the major factors in Big Data systems but there are other challenges to be resolved. The papers of this special issue address a variety of issues and concerns in Big Data, including: searching and processing Big Data, implementing and modelling event and workflow systems, visualisation modelling and simulation and aspects of social media

    Studi Perbandingan Performansi antara MongoDB dan MySQL dalam Lingkungan Big Data

    Full text link
    Tiada hari tanpa, penggunaan data yang terus berkembangan dikuti dengan kemajuan teknologi dibidang dalam teknologi informasi, sehingga kebutuhan untuk pengolahan data sangat diperlukan, proses pertambahan data yang terus meningkat bersumber dari berbagai macam transaksi seperti data posting blog, data percakapan dijaringan selular, sms, chat dan banyak sumber data lain yang setiap saat terus bertambah, sehingga terkenal dengan nama Big Data. Dalam pengolahan big data ini diketahui adanya database NoSQL, sedangkan database yanbg selama ini banyak dipakai adalah MySQL. Untuk mengetahui performansi response time masing-masing database maka diperlukan sebuah penelitian untuk mendapatkan hasil performansi tersebut. Penelitian ini menggunakan database dengan jumlah record yang besar yaitu sebanyak 226.232 record. Untuk keluarga NoSQL penulis menggunakan MongoDB dan untuk keluarga SQL penulis menggunakan MySQL, pengujian dilakukan pada lingkungan yang seimbang, pada hardware dan software yang memiliki spesifikasi yang sama. Hasil akhir penelitian menunjukkan bahwa MongoDB menunjukan performansi yang baik dibandingkan MySQL

    Pengembangan Model Migrasi Database Relational ke NoSQL Memanfaatkan Metadata SQL

    Get PDF
    Penyimpanan data merupakan isu krusial pada teknologi Big Data karena membutuhkan teknologi penyimpanan data yang profisien agar dapat menyimpan data (terstruktur dan tidak terstruktur) secara cepat dalam jumlah besar. Hal ini sudah tidak bisa lagi dipenuhi oleh model database relational (SQL) yang saat ini masih banyak digunakan. Kelemahan tersebut dapat diatasi dengan menggunakan database NoSQL, namun sayangnya proses migrasi data dari relational/SQL database ke NoSQL masih sulit dilakukan karena perbendaan skema dan format penyimpanan data. Berdasarkan masalah tersebut, maka penelitian mengenai migrasi database relational ke NoSQL sangat diperlukan. Penelitian ini mencoba mengajukan pengembangan model perangkat lunak untuk migrasi database relational ke NoSQL menggunakan pendekatan aturan migrasi dan data transformasi yang memanfaatkan metadata SQL. Berdasarkan eksperimen yang telah dilakukan aturan migrasi yang diterapkan pada model yang dikembangkan berhasil melakuakn migrasi database SQL ke NoSQL dengan kecepatan rerata 0.978 detik untuk 5 table dalam 1 database

    Managing polyglot systems metadata with hypergraphs

    Get PDF
    A single type of data store can hardly fulfill every end-user requirements in the NoSQL world. Therefore, polyglot systems use different types of NoSQL datastores in combination. However, the heterogeneity of the data storage models makes managing the metadata a complex task in such systems, with only a handful of research carried out to address this. In this paper, we propose a hypergraph-based approach for representing the catalog of metadata in a polyglot system. Taking an existing common programming interface to NoSQL systems, we extend and formalize it as hypergraphs for managing metadata. Then, we define design constraints and query transformation rules for three representative data store types. Furthermore, we propose a simple query rewriting algorithm using the catalog itself for these data store types and provide a prototype implementation. Finally, we show the feasibility of our approach on a use case of an existing polyglot system.Peer ReviewedPostprint (author's final draft

    Підвищення продуктивності розподілених систем обробки великих даних з Hadoop та PolyBase

    Get PDF
    The approach to improvement of performance of distributed information systems based on sharing technologies of the Hadoop cluster and component of SQL Server PolyBase was considered. It was shown that the relevance of the problem, solved in the research, relates to the need for processing Big Data with different way of representation, in accordance with solving diverse problems of business projects. An analysis of methods and technologies of creation of hybrid data warehouses based on different data of SQL and NoSQL types was performed. It was shown that at present, the most common is the technology of Big Data processing with the use of Hadoop distributed computation environment. The existing technologies of organization and access to the data in the Hadoop cluster with SQL-like DBMS by using connectors were analyzed. The comparative quantitative estimates of using Hive and Sqoop connectors during exporting data to the Hadoop warehouse were presented. An analysis of special features of Big Data processing in the architecture of Hadoop-based distributed cluster computations was carried out. The features of Polybase technology as a component of SQL Server for organizing a bridge between SQL Server and Hadoop data of the SQL and NoSQL types were presented and described. The composition of the model computer plant based on the virtual machine for implementation of joint setting of PolyBase and Hadoop for solving test tasks was described. A methodological toolset for the installation and configuration of Hadoop and PolyBase SQL Server software was developed with consideration of constraints on computing capacities. Queries for using PolyBase and data warehouse Hadoop when processing Big Data were considered. To assess the performance of the system, absolute and relative metrics were proposed. For large volume of test data, the results of the experiments were presented and analyzed, which illustrated an increase in productivity of the distributed information system – query execution time and magnitude of memory capacity of temporary tables, created in this case. A comparative analysis of the studied technology with existing connectors with Hadoop cluster, which showed the advantage of PolyBase over connectors of Sqoop and Hive was performed. The results of the research could be used in the course of scientific and training experiments of organization when implementing the most modern IT-technologies.Рассмотрен подход к повышению производительности распределенных информационных систем на основе совместного использования технологий кластера Hadoop и компонента PolyBase SQL Server. Показано, что актуальность решаемой в работе проблемы связана с необходимостью обработки больших данных, имеющих разный способ представления в соответствии с решением разноплановых задач бизнес-проектов. Проведен анализ методов и технологий создания гибридных хранилищ данных на основе различных данных типа SQL и NoSQL. Показано, что в настоящее время наиболее распространенной является технология обработки больших данных с использованием среды распределенных вычислений Hadoop. Проанализированы существующие технологии организации и доступа к данным в кластере Hadoop с SQL-подобных СУБД с помощью коннекторов. Приведены сравнительные количественные оценки использования коннекторов Hive и Sqoop при экспорте данных в хранилище Hadoop. Проведен анализ и особенности обработки больших данных в архитектуре распределенных кластерных вычислений на базе Hadoop. Приведены и описаны особенности технологии PolyBase как компонента SQL Server для организации моста между SQL Server и Hadoop данных типа SQL и NoSQL. Приведен состав модельной вычислительной установки на базе виртуальной машины для реализации совместной настройки PolyBase и Hadoop для решения тестовых заданий. Разработано методическое обеспечение установки и конфигурирования программного обеспечения Hadoop и PolyBase SQL Server с учетом ограничений на вычислительные мощности. Рассмотрены запросы для использования PolyBase и хранилища данных Hadoop при обработке больших данных. Для оценки производительности системы предложено абсолютные и относительные метрики. Для тестовых данных больших объемов приведены результаты экспериментов и проведен их анализ, иллюстрирующий повышение производительности распределенной информационной системы – времени выполнения запросов и величины объема временных таблиц памяти, создаваемых при этом. Проведен сравнительный анализ исследуемой технологии с существующими коннекторами с кластером Hadoop, который показал преимущество PolyBase над коннекторами Sqoop и Hive. Результаты проведенных исследований могут быть использованы при проведении научных и тренинговых экспериментов организаций при внедрении самых современных ИТ-технологий Розглянуто підхід до підвищення продуктивності розподілених інформаційних систем на основі спільного використання технологій кластера Hadoop та компонента PolyBase SQL Server. Показано, що актуальність вирішуваної в роботі проблеми пов'язана з необхідністю обробки великих даних, що мають різний спосіб подання відповідно до рішення різнопланових задач бізнес-проектів. Проведено аналіз методів та технологій створення гібридних сховищ даних на основі різних даних типу SQL та NoSQL. Показано, що в даний час найбільш поширеною є технологія обробки великих даних з використанням середовища розподілених обчислень Hadoop. Проаналізовано існуючі технології організації та доступу до даних в кластері Hadoop із SQL-подібних СУБД за допомогою конекторів. Наведено порівняльні кількісні оцінки використання конекторів Hive та Sqoop при експорті даних у сховище Hadoop. Проведено аналіз та особливості обробки великих даних в архітектурі розподілених кластерних обчислень на базі Hadoop. Наведені та описані особливості технології PolyBase як компонента SQL Server для організації моста між SQL Server та Hadoopданих типу SQL та NoSQL. Наведений склад модельної обчислювальної установки на базі віртуальної машини для спільного налаштування PolyBase та Hadoop для рішення тестових завдань. Розроблено методичне забезпечення установки та конфігурування програмного забезпечення Hadoop і PolyBase SQL Server з урахуванням обмежень на обчислювальні потужності. Розглянуто запити для використання PolyBase та сховища даних Hadoop при обробці великих даних. Для оцінки продуктивності системи запропоновано абсолютні та відносні метрики. Для тестових даних великих об'ємів приведені результати експериментів і проведений їх аналіз, що ілюструє підвищення продуктивності інформаційної системи – часу виконання запитів і величини тимчасових таблиць, що створюються при цьому. Проведений порівняльний аналіз досліджуваної технології з існуючими конекторами з кластером Hadoop, який показав перевагу PolyBase над конекторами Sqoop та Hive. Результати проведених досліджень можуть бути використані при проведенні наукових і тренінгових експериментів для вдосконалення бізнес-процесів організацій при впровадженні надсучасних ІТ-технологі

    Studi Perbandingan Performansi Antara MongoDB dan MySQL Dalam Lingkungan Big Data

    Get PDF
    Tiada hari tanpa, penggunaan data yang terus berkembangan dikuti dengan kemajuan teknologi dibidang dalam teknologi informasi, sehingga kebutuhan untuk pengolahan data sangat diperlukan, proses pertambahan data yang terus meningkat bersumber dari berbagai macam transaksi seperti data posting blog, data percakapan dijaringan selular, sms, chat dan banyak sumber data lain yang setiap saat terus bertambah, sehingga terkenal dengan nama Big Data. Dalam pengolahan big data ini diketahui adanya database NoSQL, sedangkan database yanbg selama ini banyak dipakai adalah MySQL. Untuk mengetahui performansi response time masing-masing database maka diperlukan sebuah penelitian untuk mendapatkan hasil performansi tersebut. Penelitian ini menggunakan database dengan jumlah record yang besar yaitu sebanyak 226.232 record. Untuk keluarga NoSQL penulis menggunakan MongoDB dan untuk keluarga SQL penulis menggunakan MySQL, pengujian dilakukan pada lingkungan yang seimbang, pada hardware dan software yang memiliki spesifikasi yang sama.  Hasil akhir penelitian menunjukkan bahwa MongoDB menunjukan performansi yang baik dibandingkan MySQL

    Migrating From SQL to NoSQL Database: Practices and Analysis

    Get PDF
    Most of the enterprises that are dealing with big data are moving towards using NoSQL data structures to represent data. Converting existing SQL structures to NoSQL structure is a very important task where we should guarantee both better Performance and accurate data. The main objective of this thesis is to highlight the most suitable NoSQL structure to migrate from relational Database in terms of high performance in reading data. Different combinations of NoSQL structures have been tested and compared with SQL structure to be able to conclude the best design to use.For SQL structure, we used the MySQL data that is stored in five tables with different types of relationships among them. For NoSQL, we implemented three different MongoDB structures. We considered combinations of different levels of embedding documents and reference relationships between documents. Our experiments showed that using a mix of one level embedded document with a reference relationship with another document is the best structure to choose. We have used a database that contains five tables with a variety of relationships many-to-one, and many-to-many. Also the huge amount of data stored in all the structures about 2 millions record/document. The research compares clearly between the performances of retrieving data from different MongDB representation of data and the result shows that in some cases using more than one collection to represent huge data with complex relationships is better than keeping all the data in one document

    Data transformation as a means towards dynamic data storage and polyglot persistence

    Get PDF
    Legacy applications have been built around the concept of storing their data in one relational data store. However, with the current differentiation in data store technologies as a consequence of the NoSQL paradigm, new and possibly more performant storage solutions are available to all applications. The concept of dynamic storage makes sure that application data are always stored in the most optimal data store at a given time to increase application performance. Additionally, polyglot persistence aims to push this performance even further by storing each different data type of an application in the data store technology best suited for it. To get legacy applications into dynamic storage and polyglot persistence, schema and data transformations between data store technologies are needed. This usually infers application redesigns as well to support the new data stores. This paper proposes such a transformation approach through a canonical model. It is based on the Lambda architecture to ensure no application downtime is needed during the transformation process, and after the transformation, the application can continue to query in the original query language, thus requiring no application code changes

    Development of a specific domain language (DSL) graphic for the modeling of spatial databases

    Get PDF
    El modelado de bases de datos espaciales se desarrolla actualmente requiriendo que los usuarios tengan conocimiento en algunas herramientas y lenguajes de propósito general lo que en ocasiones dificulta el proceso de diseño e implementación de estas en entornos computacionales pues se requiere de un gran aprendizaje y conocimiento de esos lenguajes y de procedimientos complejos y engorrosos. Los lenguajes de dominio específico ofrecen una alternativa para facilitar muchos de estos procesos, por ello se evidencia necesario desarrollar una propuesta de metamodelo y su respectivo DSL gráfico que facilite el modelamiento de este tipo de bases de datos espaciales relacionales para los usuarios finales. Para ello se partirá de una propuesta abstracta para luego llevarla a una sintaxis concreta y posteriormente poder transformar los modelos en código para las extensiones Open Source como PostGIS y MySQL Spatial con el fin que los usuarios finales puedan emplear la propuesta de DSL gráfico y experimentar mejoras en el proceso de modelado de su bases de datos.The modeling of Spatial Databases is currently being developed, requiring users to have knowledge in some general purpose tools and languages, which sometimes hinders the process of designing and implementing these in computer environments because it requires a great learning and knowledge of those languages ​​and complex and cumbersome procedures. Specific Domain Languages ​​offer an alternative to facilitate many of these processes, therefore it is necessary to develop a metamodel proposal and its respective DSL graph that facilitates the modeling of this type of Relational Spatial Databases for end users. This will be based on an abstract proposal and then take it to a specific syntax and then transform the models into code for Open Source extensions such as PostGIS and MySQL Spatial so that end users can use the DSL graphic proposal and experience improvements in the process of modeling your Databases
    corecore