    Parallelization of Hybrid Content Based and Collaborative Filtering Method in Recommendation System with Apache Spark

    Collaborative Filtering as a popular method that used for recommendation system. Improvisation is done in purpose of improving the accuracy of the recommendation. A way to do this is to combine with content based method. But the hybrid method has a lack in terms of scalability. The main aim of this research is to solve problem that faced by recommendation system with hybrid collaborative filtering and content based method by applying parallelization on the Apache Spark platform.Based on the test results, the value of hybrid collaborative filtering method and content based on Apache Spark cluster with 2 node worker is 1,003 which then increased to 2,913 on cluster having 4 node worker. The speedup got more increased to 5,85 on the cluster that containing 7 node worker

    Um estudo comparativo entre banco de dados relacional em disco e em memória

    TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e Comunicação.No atual cenário da Tecnologia da Informação vem se produzindo e consumindo cada vez mais dados. Estima-se que entre 2010 e 2020 o volume de dados deverá aumentar 40% ao ano. Estes dados são produzidos em alta velocidade e necessitam de tratamento em tempo hábil. Em decorrência do volume e da velocidade, os dados ultrapassam a capacidade de processamento dos bancos de dados convencionais. Apesar de nas últimas décadas a capacidade de processamento ter crescido conforme a projeção da lei de Moore, o desempenho dos sistemas de armazenamento não foi capaz de acompanhar tal evolução. Para aumentar a capacidade de obter e analisar grandes volumes de dados é necessário utilizar métodos de análise adequados que suportem o incremento no volume de dados. Este trabalho possui como objetivo realizar um estudo comparativo, com base em aspectos gerais de desempenho, entre bancos de dados relacionais em disco e em memória. Para tal, utilizou-se um sistema para realizar a carga dos dados nos bancos de dados escolhidos, bem como, foram realizadas consultas para analisar o desempenho em operações de leitura e escrita nos bancos de dados escolhidos. Com base nos resultados obtidos, observa-se que quanto maior a base de dados, maior o impacto causado pelas baixas velocidades de leitura e escrita em disco rígido. A partir disso, acredita-se que as aplicações responsáveis por armazenar e analisar dados serão baseadas em memória principal.In the current scenario of Information Technology has been producing and consuming more and more data. It is estimated that between 2010 and 2020 the volume of data is expected to increase by 40% per year. These data are produced at high speed and require timely treatment. Due to volume and speed, data exceeds the processing capacity of conventional databases. Although in the last decades the processing capacity has grown according to the projection of Moore's law, the performance of the storage systems was not able to follow this evolution. To increase the capacity to obtain and analyze large volumes of data, it is necessary to use appropriate analysis methods to support the increase in data volume. This work aims to perform a comparative study, based on general aspects of performance, between relational databases in disk and in memory. To do this, a system was used to perform the data loading in the chosen databases, as well as, queries were carried out to analyze the performance in read and write operations in the chosen databases. Based on the results obtained, it is observed that the larger the database the greater the impact caused by the low read-write speeds on the hard disk. From this it is believed that the applications responsible for storing and analyzing data will be based on main memory