4 research outputs found

    Εξόρυξη γνώσης από εξελισσόμενα δεδομένα κοινωνικών δικτύων

    No full text
    Modern societies have been characterized as information societies, due to the unprecedented growth of information that has been witnessed during the last years, and its gradual exploitation for simplifying and improving everyday activities. The mass creation of information has been enabled primarily by the Web, and especially through the most recent rise of the Social Web. The latter encompasses the set of interactive Web applications (i.e. social media) that have been developed based on recent web technology innovations, drastically simplifying content creation for Web users, as well as the social network of users themselves. Social media data refer to information that can be sourced from social media applications, which can be related to: content (generated by users), activities (actions performed by users) and structure (associations between entities such as users). Given the heterogeneity, complexity, massive sizes and fast generation rates of such data, identifying effective processes and methodologies for discovering and leveraging knowledge is challenging. Social data mining addresses this challenge through the proposal of methods for harvesting knowledge based on content, activities, and / or structure. Challenges in social data mining impose the need for scalable, online methodologies that can process structure, content and activities in a time-aware approach. Such methodologies should additionally address the pervasive problem of fraud in social media, and also focus on deriving results that are useful for today’s societies, by enabling the interpretation of social data mining results in the context of real-world phenomena. Based on these remarks, three crucial problems have been addressed in this thesis, namely: (A) detection of communities (broadly considered as closely-knit groups of entities) in user and information networks; (B) discovery of fraudulent behavior in social media; (C) composite analysis of social media data for providing location-based services. This thesis contributes to addressing those problems through the development of effective methods and efficient frameworks for the discovery of knowledge based on social data mining. With respect to Problem A, the thesis advances approaches for the analysis and management of evolving user / information graphs (social structure mining). Methodologies for the discovery and tracking of communities in social media are proposed, as well as for their interpretation in relation to unfolding real-world events. Problem B is addressed through the proposal of methods for the discovery of fraudulent behavior in terms of the propagation of social media content, i.e. the specific case of the Rebroadcast fraud problem (social activity mining). Several distinctive patterns of fraudulent activity are identified and presented, along with a proposed methodology for the automatic detection of Rebroadcast fraud. Finally, in relation to Problem C, the thesis proposes and presents in detail frameworks for the analysis of shared content and activities in social media to derive location-based insights and leverage them for service provision (social activity and content mining).Η παρούσα διατριβή αντιμετωπίζει το πρόβλημα της διαχείρισης και της εξόρυξης γνώσης από δεδομένα του Παγκόσμιου Ιστού, με έμφαση σε χρονικά επισημειωμένα δεδομένα που παράγονται σε κοινωνικά δίκτυα (social media). Τα κοινωνικά μέσα αντιμετωπίζονται ως πηγές δεδομένων σχετικά με τις διαφορετικού τύπου ενέργειες οι οποίες πραγματοποιούνται από ένα σύνολο χρηστών σε συγκεκριμένες χρονικές στιγμές. Οι ενέργειες αυτές ποικίλλουν ανάλογα με το εκάστοτε κοινωνικό δίκτυο, περιλαμβάνοντας ενδεικτικά: τη δημοσίευση περιεχομένου (κειμένου / φωτογραφιών / βίντεο), το σχολιασμό δημοσιεύσεων τρίτων, την ανταλλαγή μηνυμάτων μεταξύ χρηστών, την ανάθεση μετα-δεδομένων σε περιεχόμενο (π.χ. επισημειώσεις, όπως ετικέτες -tags-), ενώ συχνά συνοδεύονται και από τη δήλωση της γεωγραφικής θέσης του χρήστη ή του περιεχομένου. Συνεπώς, η δραστηριότητα των χρηστών στα κοινωνικά δίκτυα συχνά εμπεριέχει ποικίλες αλληλεπιδράσεις με άλλους χρήστες ή / και συσχετίσεις μεταξύ διαφορετικού τύπου οντότητων (π.χ. δημοσιεύσεις περιεχομένου). Το γενικότερο πρόβλημα που μελετήθηκε στην παρούσα διατριβή έγκειται στην ανακάλυψη αποτελεσματικών μεθόδων για την αξιοποίηση των δεδομένων που παράγονται μέσω των κοινωνικών δικτύων (αλληλεπιδράσεις, περιεχόμενο), δίνοντας έμφαση στη χρονική και στη γεωγραφική επισημείωση τους, για την ανακάλυψη μη προφανών προτύπων συμπεριφοράς, καθώς και κοινοτήτων (ομάδων) χρηστών ή άλλων οντοτήτων. Για το σκοπό αυτό προτάθηκαν μεθοδολογίες για τη μοντελοποίηση αλληλεπιδράσεων και ενεργειών χρηστών κοινωνικών δικτύων και την εξόρυξη γνώσης από γράφους (graph mining), την ανάλυση κειμένου (text processing), καθώς και την αναγνώριση μη τυπικών συμπεριφορών (anomaly detection). Το παραπάνω γενικό πρόβλημα μελετήθηκε σε τρεις βασικούς άξονες: (Α) την ανάλυση εξελισσόμενων γράφων από δεδομένα κοινωνικών δικτύων για την ανακάλυψη κοινοτήτων, (Β) την ανακάλυψη μη τυπικών συμπεριφορών αλληλεπίδρασης, και (Γ) την ανάλυση διαμοιρασμένου περιεχομένου για την παροχή υπηρεσιών (με έμφαση σε υπηρεσίες στα πλαίσια έξυπνων πόλεων). Η εξόρυξη γνώσης από εξελισσόμενα δεδομένα μεγάλης κλίμακας είναι το κοινό στοιχείο των παραπάνω επιμέρους προβλημάτων, καθώς και η αξιοποίηση της δυναμικής αυτών των δεδομένων για την ανακάλυψη όψεων της σημερινής κοινωνίας, όπως αυτή αντικατοπτρίζεται μέσα από τις δραστηριότητες και τις απόψεις των χρηστών στα κοινωνικά δίκτυα

    Social Networking Trends and Dynamics Detection via a Cloud-based Framework Design

    No full text
    Social networking media generate huge content streams, which leverage, both academia and developers efforts in providing unbiased, powerful indications of users ’ opinion and interests. Here, we present Cloud4Trends, a framework for collecting and analyzing user generated content through microblogging and blogging applications, both separately and jointly, focused on certain geographical areas, towards the identification of the most significant topics using trend analysis techniques. The cloud computing paradigm appears to offer a significant benefit in order to make such applications viable considering that the massive data sizes produced daily impose the need of a scalable and powerful infrastructure. Cloud4Trends constitutes an efficient Cloud-based approach in order to solve the online trend tracking problem based on Web 2.0 sources. A detailed system architecture model is also proposed, which is largely based on a set of service modules developed within the VENUS-C research project to facilitate the deployment of research applications on Cloud infrastructures
    corecore