Model for recognising the gender of customers of mobile network operators

Abstract

The aim of this work is to create a model for gender prediction of customers using prepaid cards based on data from the operator. The data on which the model is built come from customers who have switched from a prepaid card to a tariff plan. The method used to solve the task is a logistic regression, specifically a variant with a binary explanatory variable. The work also includes editing the data file using cluster analysis and various approaches to selecting the variables that enter the model. Several models were created on the basis of various data modifications, which were subsequently compared using the value of the Akaike information criterion. The last part of the work contains an evaluation of the resulting model on the basis of metrics based on the confusion matrix, the ROC curve and the AUC value. Among the main findings of the work is that the biggest influence on a customer’s gender decision is the phone brand that uses and information on the length of calls and the number of text messages sent. Another finding is that on the basis of telecommunications data the model can better predict women than men.Cílem práce je na základě dat od operátora sestavit model na predikci pohlaví zákazníků používajících předplacené karty. Data, na kterých se model staví, pochází od zákazníků, kteří přešli z předplacené karty na tarifní plán. Použitou metodou pro řešení úlohy je logistická regrese, konkrétně varianta s binární vysvětlovanou proměnnou. Součástí práce je také úprava datového souboru pomocí shlukové analýzy a různé přístupy k výběru proměnných, které do modelu vstupují. Vytvořeno bylo několik modelů na základě různé úpravy dat, které se následně porovnaly pomocí hodnoty Akaikeho informačního kritéria. Poslední část práce obsahuje vyhodnocení výsledného modelu na základě metrik vycházejících z klasifikační tabulky, ROC křivky a hodnoty AUC. Mezi hlavní zjištění práce patří, že největší vliv na rozhodnutí o pohlaví zákazníka má značka telefonu, který používá, a informace o délce hovoru a počtu poslaných SMS zpráv. Dalším zjištěním je, že model dokáže na základě telekomunikačních dat lépe predikovat ženy než muže

    Similar works