Sequence Mining Analysis on Shopping Data

Abstract

Vivemos numa altura onde o acesso à informação é cada vez mais fácil. Esta facilidade leva a que pessoas e empresas tentem extrair o máximo de valor inerente. Um pouco por toda a parte as grandes marcas de retalho e de centros comerciais competem entre si para conseguir a oportunidade de acesso a dados relativos aos clientes e aos seus hábitos. A informação é encontrada através do uso de técnicas de Data Mining. Esta procura implacável leva a que se tente encontrar novos meios para a detetar com o objetivo de conseguir obter vantagem competitiva sobre os seus concorrentes.Nesta dissertação é apresentada um conjunto de análises feitas num dataset composto por visitas de clientes a lojas. Atualmente, existem já vários testes que se implementam nestes datasets com o objetivo de conhecerem melhor os clientes. No entanto, as técnicas de sequence mining raramente são usadas. O principal objetivo destas técnicas é analisar grandes conjuntos de dados organizados por tempo(sequenciais) e extrair o conjunto de sequências compostas por semelhanças entre os elementos. Se aplicarmos estas técnicas corretamente num dataset com formato sequencial poderemos extrair informação com qualidade e diferenciadora em relação a outros métodos usados.O dataset usado é composto por informação espácio-temporal real da localização de clientes dentro de um espaço comercial. Cada visita contém um identificador de cliente, a loja em que se encontra, o tempo específico em que a deteção foi feita, entre outros. Através destes tipos de elementos é possível criarem-se diferentes tipos de sequências. Esta dissertação demonstra algumas dessas possíveis sequências, bem como a explicação da análise feita referente a cada uma delas.Being so easy to have access to information it's only natural that people and companies try to extract the maximum real value from it. Every large retail stores and commercial centres in the world fight to have the opportunity to be in possession of data about their customers and habits. This data has been extracted through the use of data mining techniques. Due to this relentless demand for new data, every new mean of finding it can bring great competitive advantages over other competitors.This dissertation presents a group of analyses made to a dataset composed by stores' visits. There are already several types of tests made to datasets of this kind in order to better understand the clients. However, the sequence mining techniques are rarely used. These techniques' main goal is to analyse a large set of data with a sequence temporal format and extract the set of sequences with similarities between all the elements. By applying these techniques correctly in a sequence dataset we can find that they can help to extract different and quality information.The dataset is composed of real spacial-time data from clients' locations in a commercial centre. Each element of this data contains a client ID, a store, the specific time of that detection and other information. Through these elements, different types of sequences can be made. The dissertation presents some of these possible sequences as well as the types of sequence mining analyses performed on each one

    Similar works