Similarity-based user identification across social networks

Abstract

Σε αυτή τη διπλωματική μελετάμε την ταυτοποίηση των χρηστών στα κοινωνικά δίκτυα, εκπαιδεύοντας εναν συνδυασμό διαφορετικών μετρικών ομοιότητας. Αυτή η εφαρμογή γίνεται ιδιαίτερα ενδιαφέρουσα, καθώς η αύξηση του αριθμού και της ποικιλομορφίας των κοινωνικών δικτύων και η παρουσία των ατόμων σε πολλαπλά δίκτυα γίνεται πλέον κοινός τόπος. Εχοντας ως κίνητρο την ανάγκη να επαλήθευσουμε τις πληροφορίες που εμφανίζονται σε κοινωνικά δίκτυα, όπως μελετάται στο ερευνητικό πρόγραμμα REVEAL (REVEALing hidden concepts in Social Media), η παρουσία ατόμων σε διαφορετικά δίκτυα παρέχει μια ενδιαφέρουσα ευκαιρία : μπορούμε να χρησιμοποιήσουμε τις πληροφορίες από ένα δίκτυο για να επαληθεύσουμε τις πληροφορίες που εμφανίζονται σε ένα άλλο. Για να επιτευχθεί αυτό, χρειάζεται να ταυτοποιήσουμε τους χρήστες σε διαφορετικά δίκτυα. Προσεγγίζουμε αυτό το πρόβλημα συνδυάζοντας κάποια μέτρα ομοιότητας που λαμβάνουν υπόψη τον εργασιακό χώρο, την τοποθεσία, τα επαγγελματικά ενδιαφέροντα και εμπειρία των χρηστών, όπως αναφέρονται και καθορίζονται στα διάφορα δίκτυα. Εχουμε πειραματιστεί με μια ποικιλία από συνδυαστικές προσεγγίσεις, που κυμαίνονται από την απλή κατά μέσο όρο ταξινόμηση έως υβριδικούς εκπαιδευόμενους ταξινομητές. Τα πειράματά μας δείχνουν ότι, υπό ορισμένες προϋποθέσεις, η ταυτοποίηση χρηστών είναι δυνατή με αρκετά υψηλή ακρίβεια για να επιτευχθεί ο στόχος της επαλήθευσης των πληροφοριών.In this thesis we study the identifiability of users across social networks, with a trainable combination of different similarity metrics. This application is becoming particularly interesting as the number and variety of social networks increase and the presence of individuals in multiple networks is becoming commonplace. Motivated by the need to verify information that appears in social networks, as addressed by the research project REVEAL (REVEALing hidden concepts in Social Media), the presence of individuals in different networks provides an interesting opportunity: we can use information from one network to verify information that appears in another. In order to achieve this, we need to identify users across networks. We approach this problem by a combination of similarity measures that take into account the users’ affiliation, location, professional interests and past experience, as stated in the different networks. We experimented with a variety of combination approaches, ranging from simple averaging to trained hybrid models. Our experiments show that, under certain conditions, identification is possible with sufficiently high accuracy to support the goal of verification

    Similar works