Användandet av inbäddningar för att hitta likheter mellan hierarkiskt strukturerade temakoder

Abstract

In this thesis, embeddings have been used to find similarities between hierarchically related Thema Subject Categories (Thema codes), which are short alphanumeric sequences commonly used to categorize books. More specifically, the graph embedding approach known as DeepWalk was applied to three different models to learn similarities between Thema codes. The data consisted of pairs of Thema codes gathered from user preferences of books in the Swedish online book application Storytel. By constructing graphs from Thema codes and their pairwise occurrences, high dimensional similarities between Thema codes could be learned. To evaluate the models, three different offline evaluation methods, and one online evaluation method was used. In the online evaluation, it was shown through one week of A/B testing that click-through rate increased in two recommendation lists in the Storytel application when the embeddings were used for Thema code similarities between books. The results show that DeepWalk is suitable to use when learning the embeddings of Thema codes for the task of recommendation. Valuable future research could thus include investigating other embedding approaches of Thema codes.Den här rapporten undersökte möjligheten att använda inbäddningar för att hitta likheter mellan hierarkiskt strukturerade temakoder, som är korta sekvenser av bokstäver och siffror som används för att kategorisera böcker. Mer specifikt så användes en graf-inbäddning som kallas DeepWalk på tre olika modeller för att hitta dessa likheter. Dataseten som användes för att träna modellerna bestod av par av temakoder som var insamlade från användarpreferenser av böcker i den svenska ljudboksapplikationen Storytel. Genom att konstruera grafer utifrån temakoderna och deras parvisa förekomster kunde DeepWalk lära sig likheter mellan temakoderna i ett högt antal dimensioner. För att evaluera modellerna användes tre olika offlinemetoder, samt A/B-testning live i applikationen. A/B-testningen kördes en vecka och visade att antalet klick i två av Storytels rekommendationslistor ökade när inbäddningarna av temakoderna användes för att hitta likheter mellan temakoderna i böckerna. Resultaten visade att det är möjligt att använda inbäddningar för att hitta likheter mellan temakoder. Det vore därför värdefullt att i framtiden undersöka om andra inbäddningar av temakoder skulle ge ännu bättre resultat

    Similar works

    Full text

    thumbnail-image