4 research outputs found

    RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD Framework

    Full text link
    Initially, a number of frequent itemset mining (FIM) algorithms have been designed on the Hadoop MapReduce, a distributed big data processing framework. But, due to heavy disk I/O, MapReduce is found to be inefficient for such highly iterative algorithms. Therefore, Spark, a more efficient distributed data processing framework, has been developed with in-memory computation and resilient distributed dataset (RDD) features to support the iterative algorithms. On the Spark RDD framework, Apriori and FP-Growth based FIM algorithms have been designed, but Eclat-based algorithm has not been explored yet. In this paper, RDD-Eclat, a parallel Eclat algorithm on the Spark RDD framework is proposed with its five variants. The proposed algorithms are evaluated on the various benchmark datasets, which shows that RDD-Eclat outperforms the Spark-based Apriori by many times. Also, the experimental results show the scalability of the proposed algorithms on increasing the number of cores and size of the dataset.Comment: 16 pages, 6 figures, ICCNCT 201

    Big Data no comércio eletrónico: utilização de cookies e questões de privacidade na recolha de dados pessoais

    Get PDF
    O crescimento das redes sociais, a proliferação do comércio eletrónico e a constante invasão de dispositivos móveis fez com que a quantidade de dados aumentasse drasticamente. Big Data refere-se a grandes conjuntos de dados caracterizados por grandes volumes e grande variedade, que têm origem em várias fontes, sendo gerados a alta velocidade. Este fenómeno fez com que o mundo dos negócios se alterasse e estimulou as empresas de comércio eletrónico a utilizarem este tipo de dados, analisando, por exemplo, os dados dos perfis dos seus consumidores e o respetivo perfil de navegação para definir, em tempo real, produtos a serem oferecidos aos seus clientes. O objetivo principal desta dissertação foi o de analisar em que medida os Big Data estão presentes e são utilizados no contexto de comércio eletrónico, quer do ponto de vista dos utilizadores, quer do ponto de vista das organizações. Pretende-se também esclarecer algumas questões éticas e legais no contexto dos Big Data. Esta dissertação caracteriza-se como um Estudo de Caso com tipologia múltipla do tipo descritivo e baseou-se em duas grandes fontes de recolha de dados. A primeira foi um questionário online que teve como objetivo avaliar o nível de consciencialização do utilizador em relação à partilha e recolha dos seus dados em ambiente de comércio eletrónico. Partiu-se de uma amostra não-probabilística de tipo bola de neve. As respostas válidas dessa amostra (160) foram analisadas numa abordagem quantitativo-qualitativa. A segunda foi a ferramenta de pesquisa da Cookiepedia, a qual permitiu uma análise dos cookies de um conjunto de sites de comércio eletrónico, obtidos através de uma amostra de conveniência. Foram analisados a Política de Privacidade de cada site, os tipos e objetivos dos cookies presentes nesses sites, rematando com uma breve lista discriminada dos mesmos. Com este estudo foi possível concluir que os utilizadores online, apesar de não concordarem com as condições dadas pelos sites de comércio eletrónico para a sua utilização, que os continuam a utilizar e que os utilizadores online não têm conhecimento de alguns dados considerados como pessoais. Este estudo conclui também que a maioria dos cookies utilizados em sites de comércio eletrónico se destinam a publicidade online, que é a utilização mais comum dos chamados Third Party Cookies.The growth of social media, the proliferation of e-commerce and the constant expansion of mobile devices worldwide has led to an exponential increase of Big Data. Big Data refers to huge data sets characterized by large volumes and large variety, as they originate from various data sources, and are generated at high speed. This phenomenon has changed the business world and forced e-commerce companies to use their consumer's profile data and navigation profile to define, in real time, products to be offered to their customers. The main objective of this dissertation is to analyse the extent to which Big Data is present and used in the context of electronic commerce, both from user's and organisation's point of view, whilst also clarifying some ethical and legal issues. This dissertation is characterized as a descriptive case study and is based on two major sources of data collection. Firstly, with an online questionnaire that seeks to assess the user's level of awareness of sharing and collecting their data in an e-commerce environment, which has generated a non-probabilistic sample. The valid responses of this sample (160) were analysed in a quantitative-qualitative approach using descriptive statistics. The second source is Cookiepedia's research tool, for a sample of convenience, where the Privacy Policy of each, the types and objectives of cookies present in those websites is analysed, ending with a brief list of them. With this study it was possible to conclude that online users, although they do not agree with the conditions given by e-commerce sites for their use, continue to use them and that online users are not aware of some data considered personal. This study also concludes that the majority of cookies used on e-commerce sites are for online advertising, which is the most common use of so-called Third Party Cookies

    Analítica de datos y calidad de la información para la toma de decisiones del marketing

    Get PDF
    [ES] En el contexto de la analítica de datos del big data para la toma de decisiones del marketing, el objetivo central de esta investigación doctoral es contrastar empíricamente el papel que cumplen una serie de antecedentes en la generación del desempeño organizacional, donde la calidad de la información para la toma de decisiones del marketing es el referente fundamental. Se define como analítica de datos de big data la derivación de valor de la toma de decisiones comerciales basadas en bases de datos relacionales tradicionales, aumentada con nuevas fuentes de datos no estructurados. En la economía digital, el big data se ha convertido en un camino común hacia la ventaja competitiva para muchas empresas. Sin embargo, las altas tasas de fracasos de implementación dan cuenta de un proceso “complejo” y difícil de entender. Esta investigación se articula a través de tres capítulos principales: el estudio de los determinantes de la calidad de información desde la perspectiva del marketing y su efecto en el desempeño organizacional; la discrepancia que puede suponer añadir la perspectiva de tecnología frente al marketing; y el estudio de los determinantes de la calidad de información, incluyendo la perspectiva tecnológica junto a la del marketing y su efecto en el desempeño organizacional. Los diferentes análisis se realizaron a partir de los miembros de una comunidad de LinkedIn -que incluye directivos en roles de tecnología y marketing- y en empresas nacionales y multinacionales con más de 200 empleados con sede en España. Para cada empresa, se enviaron dos invitaciones, una para cada rol, logrando así un centenar de empresas que respondieron con ambos directivos (diada). Los resultados obtenidos en la investigación contribuyen a ampliar el conocimiento sobre la articulación de los factores de éxito de una estrategia de analítica de datos y su efecto en el desempeño organizacional. Primero, se valida que el apoyo del CEO de una empresa afecta la calidad de la información, que a su vez afecta el desempeño organizacional y donde el apoyo está mediado por el alineamiento del plan de datos y el talento analítico; también se verifica la superioridad del análisis de big data sobre el análisis tradicional y las ventajas de dos tipos de estructura organizacional para los analistas, esto es, la analítica compartida y descentralizada sobre una estructura centralizada. Segundo, se revelan las fuentes de la discrepancia entre los roles técnicos y comerciales sobre la calidad de la información percibida, a saber, la calidad de los datos, la capacidad tecnológica, el talento, el apoyo del CEO y la alineación del plan de datos con el plan de marketing. En tercer lugar, se establece que la capacidad tecnológica y el talento analítico son recursos determinantes de la calidad de la información, que a su vez afecta el desempeño organizacional y que está influenciado por factores organizativos, como la calidad de los datos, la cultura de uso de datos, el alineamiento del plan de datos y el tipo de analítica de datos. De la investigación también se derivan implicaciones de gestión sobre la implementación de estrategias de datos sobre la base del Balanced Scorecard, detalladas en la tesis doctoral. Igualmente, se identifican limitaciones y se sugieren posibles líneas futuras de estudio
    corecore