Mining semi-structured data, theoretical and experimental aspects of pattern evaluation

Abstract

In dit proefschrift worden verschillende manieren onderzocht om semi-gestructureerde gegevens te analyseren, bijv. HTML bestanden. HTML bestanden hebben een structuur/opbouw, maar waar en hoe vaak je een tekst bold of italic maakt varieert voor elke HTML. Er is gekeken naar verschillende manieren om de voorkomens van een patroon (bijvoorbeeld alle moleculen in onze dataset bevatten een bepaalde set van atomen en verbindingen) te tellen om zo interessante patronen te vinden. Het juist presenteren van de resultaten aan de gebruiker is ook van belang. Dit proefschrift behandelt de visuele weergave van resultaten van de analyse (mining) van semi-gestructureerde gegevens, zodat de gebruiker eenvoudiger interessante patronen kan vinden. De conclusies zijn moeilijk kort samen te vatten. Echter het blijkt dat sommige patronen interessanter waren wanneer zij heel vlak achter elkaar voorkwamen en andere wanneer zij bijvoorbeeld wekelijks voorkwamen. Om nog meer interessante patronen te vinden is het aan te raden rekening te houden met dit element van tijd. Verder blijkt het dat visualisaties nodig zijn om de grote hoeveelheid patronen effectief te presenteren, bijvoorbeeld de gebruiker ziet in __n oog opslag substructuren van moleculen die voorkomen. Het onderzoek in dit proefschrift is belangrijk voor de analyse van data. Denk bijvoorbeeld aan de analyse van het gedrag van klanten. Het is interessant voor bedrijven om te weten dat klanten bepaalde producten aanschaffen bijvoorbeeld elke maandag. Dit is vernieuwend omdat wij subgroepen van producten ontdekken, maar wij tellen subgroepen met de juiste eigenschappen voor tijd zwaarder dan subgroepen die gewoon zomaar voorkomen. De visualisatie van samen voorkomende molecuul substructuren kan de analyse van deze versnellen en deze manier van plotten is nieuw.UBL - phd migration 201

    Similar works