59 research outputs found

    Finding Topic-specific Trends and Influential Users in Social Networks

    Get PDF
    Τα κοινωνικά δίκτυα έχουν γίνει αναπόσπαστο κομμάτι της σύγχρονης ζωής. Κάθε μέρα όλο και περισσότεροι άνθρωποι χρησιμοποιούν αυτά τα δίκτυα για να επικοινωνούν με τους φίλους τους, να μοιράζονται τις απόψεις τους και να μένουν ενημερωμένοι για νέα και τρέχοντα γεγονότα. Η γενική αύξηση της χρήσης και της δημοτικότητας των κοινωνικών μέσων ενημέρωσης οδήγησε σε μια έκρηξη των διαθέσιμων δεδομένων, γεγονός το οποίο δημιούγησε νέες ευκαιρίες για διάφορα είδη εκμετάλλευσης, όπως η πρόβλεψη, η εύρεση αλλά και η δημιουργία τάσεων. Στην παρούσα διπλωματική εργασία, ξεκινάμε αναλύοντας την βιβλιογραφία που υπάρχει για τα συστήματα συστάσεων, καθώς και την αξία τους, για τα μέσα κοινωνικής δικτύωσης που υπάρχουν σήμερα, αλλά και γενικότερα για το ίντερνετ. Μετέπειτα αναλύουμε την συνεισφορά των συστημάτων εύρεσης επιρροής, της σημασίας τους αλλά και των χρήσεων τους στην μοντέρνες εφαρμογές διαδικτύου. Στόχος μας είναι να συνδυάσουμε τα δύο προαναφερθέντα συστήματα, προκειμένου να εντοπίσουμε τους πιο σημαντικούς χρήστες, όχι μόνο με βάση την δημότικότητα τους, αλλά και στους τομείς που ασκούν την μεγαλύτερη επιρροή. Ένας χρήστης που ασκεί μεγάλη επιρροή, είναι κάποιος που είναι γνωστός και αξιόπιστος από ένα συγκεκριμένο κοινό και σε συγκεκριμένα θέματα. Με την προσέγγισή μας προσπαθούμε να κάνουμε διάκριση μεταξύ διασημοτήτων και χρηστών κοινωνικών μέσων που πραγματικά γίνονται σεβαστά στους τομείς τους, και άλλοι χρήστες εμπιστεύονται και ακολουθούν ενεργά (αφοσίωση χρηστών). Στη συνέχεια επεκτείνουμε το σύστημά μας, προκειμένου να εντοπίσουμε και τις πιο σημαντικές διευθύνσεις URL, χρησιμοποιώντας τις ίδιες μετρηκές με πριν. Η προσέγγισή μας για την απάντηση στις παραπάνω ερωτήσεις βασίζεται στη λειτουργικότητα των hashtags τα οποία θεωρούμε ότι αντιπροσωπεύουν κάποιο θέμα σε κάθε δημοσίευση και στην υπόθεση ότι υπάρχουν πολλαπλά hashtags που αντιπροσωπεύουν ένα συγκεκριμένο θέμα. Σε αυτή τη διπλωματική, παρουσιάζουμε ένα σύστημα συστάσεων, το οποίο υλοποιούμε χρησιμοποιώντας Collaborative Filtering αλγορίθμους για (α) τον εντοπισμό των hashtags, των Urls και των χρηστών που σχετίζονται με ένα συγκεκριμένο θέμα, (β) συνδυασμό διαφόρων μετρικών επιλεγμένων από το κοινωνικό δίκτυο μαζί τους και (γ) να αντιμετωπίσει έτσι τις προαναφερθείσες ερωτήσεις στο Twitter. Το σύστημά υλοποιήθηκε με την χρήση του Apache Spark προκειμένου να επιτευχθεί η βέλτιστη κλιμάκωση και να είναι σε θέση να επεξεργάζεται αποτελεσματικά μεγάλους όγκους δεδομένων.Για την επαλήθευση των αποτελεσμάτων του συστήματός μας χρησιμοποιήσαμε δεδομένα τα οποία αντλήσαμε από το Twitter. Τελικά συγκρίνουμε τα αποτελέσματά μας με τα αποτελέσματα επιρροής που παράγονται από δύο εργαλεία εκτίμησης της επιρροής κοινωνικών δικτύων.Social networks (SNs) have become an integral part of contemporary life, as they are increasingly used as a basic means for communication with friends, sharing of opinions and staying up to date with news and current events. The general increase in the usage and popularity of social media has led to an explosion of available data, which creates opportunities for various kinds of utilization, such as predicting, finding or even creating trends. In this thesis, we first begin with analyzing the current work regarding the recommendation systems and their value on today’s social networks as well as the internet. We review the literature on reputation systems, their importance and the use cases that can be found on modern online applications. Our goal is to combine the two aforementioned systems in order to identify the most influential users, not only based on their followership, but also in their respective fields. An influencer is someone who is known and trusted by a specific audience on specific topics. We try to distinguish between celebrities, and social media users that actually are respected in their fields and that other users trust and follow actively (user engagement). We then extend our system, in order to also identify the most influential URLs, using the same metrics as before. Our approach is based on the functionality of hashtags, which we use as topic indicators for posts, and on the assumption that a specific topic is represented by multiple hashtags. We present a neighborhood-based recommender system, which we have implemented using collaborative filtering algorithms in order to (a) identify hashtags, URLs and users related with a specific topic, and (b) combine them with SN-based metrics in order to address the aforementioned questions in Twitter. The recommender system is built on top of Apache Spark framework in order to achieve optimal scaling and efficiency. For the verification of our system we have used data sets mined from Twitter and tested the extracted results for influential users and URLs concerning specific topics in comparison with the influence scores produced by a state-of-the-art influence estimation tool for SNs. Finally, we present and discuss the results regarding two distinct topics and also discuss the offered and potential utility of our system

    Leaders in Social Networks, the Delicious Case

    Get PDF
    Finding pertinent information is not limited to search engines. Online communities can amplify the influence of a small number of power users for the benefit of all other users. Users' information foraging in depth and breadth can be greatly enhanced by choosing suitable leaders. For instance in delicious.com, users subscribe to leaders' collection which lead to a deeper and wider reach not achievable with search engines. To consolidate such collective search, it is essential to utilize the leadership topology and identify influential users. Google's PageRank, as a successful search algorithm in the World Wide Web, turns out to be less effective in networks of people. We thus devise an adaptive and parameter-free algorithm, the LeaderRank, to quantify user influence. We show that LeaderRank outperforms PageRank in terms of ranking effectiveness, as well as robustness against manipulations and noisy data. These results suggest that leaders who are aware of their clout may reinforce the development of social networks, and thus the power of collective search

    Measuring user influence in financial microblogs: experiments using stocktwits data

    Get PDF
    In this paper, we study the effect of graph structure user in- fluence measures in financial social media. In particular, we explore rich and recent data, composed of 1.2 million Stock- Twits messages, from June 2010 to March 2013. These data allow the creation of social network graphs by considering direct active interactions (retweets, shares or replies). Using such graphs and a realistic rolling windows evaluation, we analyzed four user influence measures (indegree, between- ness, page rank and posts) under two criteria: Percentage of Quality Users (PQU), as manually labeled by StockTwits; and the daily sentiment correlation between top lists of in- fluential users and other users. The sentiment was based on a StockTwits labeled dataset and assessed in terms of three selections: overall sentiment (ALL) and filtered by two ma- jor technological companies (Apple – AAPL and Google – GOOG). Promising results were obtained, with several top lists pre- senting PQU values higher than 80% and correlations higher than 0.6. Overall, the best results were achieved by the page rank and posts measures.This work has been supported by COMPETE: POCI-01- 0145-FEDER-007043 and FCT { Funda c~ao para a Ci^encia e Tecnologia within the Project Scope: UID/CEC/00319/2013. We also thank StockTwits for the provision of their data

    Επιρροή στα Κοινωνικά Δίκτυα: Διερεύνηση των Οπτικών της και Ανάλυση Εργαλείων Υπολογισμού της

    Get PDF
    Η πτυχιακή αυτή εργασία αποσκοπεί στη μελέτη συστημάτων και αλγορίθμων που υπολογίζουν την επιρροή των χρηστών ή/και του περιεχομένου σε μέσα κοινωνικής δικτύωσης, καθώς και την υλοποίηση ενός νέου συστήματος υπολογισμού επιρροής για το Twitter [1]. Η επιρροή (influence) σαν έννοια μπορεί να έχει πολλές και διαφορετικές ερμηνείες. Ορισμένα συστήματα εκφράζουν την επιρροή ως τη δημοτικότητα (popularity). Ως προς αυτή την οπτική, επηρεάζων (influencer) χαρακτηρίζεται ένας χρήστης που διαθέτει μεγάλο αριθμό από ακόλουθους (followers). Σε άλλες περιπτώσεις η επιρροή ενός χρήστη σχετίζεται με το βαθμό δραστηριοποίησης άλλων χρηστών που μπορεί να προκαλέσει. Αντίστοιχα, ένα θέμα με επιρροή (influencing topic/content) σχετίζεται με τις δημοσιεύσεις (tweets) που αναφέρονται σε αυτό και οι οποίες έχουν σημειώσει μεγάλο αριθμό από likes και αναδημοσιεύσεις (retweets). Άλλα συστήματα θεωρούν ότι η επιρροή ενός θέματος συνδέεται άρρηκτα με το ενδιαφέρον που θα προκαλέσει στους χρήστες. Από τη μελέτη διαφόρων συστημάτων προκύπτει, ότι τα περισσότερα τείνουν να χρησιμοποιούν παρόμοιες παραμέτρους για τον υπολογισμό της επιρροής. Συγκεκριμένα, φαίνεται να απορρίπτεται η χρήση αποκλειστικά του αριθμού των followers για τον υπολογισμό της και να λαμβάνονται υπόψη χαρακτηριστικά, όπως ο αριθμός των likes, των retweets και σε κάποιες περιπτώσεις ο αριθμός των συνδέσμων (URLs) που διαθέτει ένα tweet, καθώς και το μέγεθος της ίδιας της δημοσίευσης. Μέχρι στιγμής, o αλγόριθμος που χρησιμοποιεί η πλατφόρμα του Twitter [1], για τον καθορισμό της επιρροής ενός χρήστη, κάνει χρήση μόνο του αριθμού των followers. Παρόλα αυτά, έχουν πραγματοποιηθεί αρκετές μελέτες και πειράματα από τα οποία προκύπτει ότι ένας τέτοιος αλγόριθμος δεν είναι τόσο αποδοτικός, όσο κάποιος που εξετάζει και τα χαρακτηριστικά που αναφέρθηκαν παραπάνω. Σκοπός του προτεινόμενου νέου συστήματος μέτρησης της επιρροής που υλοποιήθηκε είναι ο υπολογισμός της επιρροής ορισμένων ετικετών (hashtags) σχετικών με την υγεία (π.χ. #breastcancerawareness, #diabetes, #leukaemia κ.α.), καθώς και των tweets που περιλαμβάνουν αυτά τα hashtags και των χρηστών που τα δημοσίευσαν. Για την εύρεση της επιρροής ενός hashtag χρησιμοποιήθηκε ο αριθμός των tweets που το συμπεριλαμβάνουν καθώς και το σύνολο των likes και των retweets που αυτά έλαβαν. Για τον υπολογισμό της επιρροής ενός tweet σε σχέση με ένα hashtag, λήφθηκαν υπόψη ο αριθμός των likes και των retweets του, καθώς και οι παράμετροι που χρησιμοποιήθηκαν για τον υπολογισμό της επιρροής του hashtag. Η επιρροή ενός χρήστη, σε σχέση με ένα hashtag, προκύπτει από τη χρήση του αριθμού των retweets και των likes που έλαβαν οι δημοσιεύσεις του και οι οποίες περιλαμβάνουν το συγκεκριμένο hashtag, σε σχέση με τον αριθμό των retweets αντίστοιχα των likes όλων των tweets που το περιλαμβάνουν. Επιπλέον εξετάσθηκε και ο αριθμός των ακολούθων του χρήστη σε σχέση με τον αριθμό αυτών που ακολουθεί εκείνος (followees). Για τον κάθε τύπο χρησιμοποιήθηκαν και συντελεστές βαρύτητας. Για τον έλεγχο των αποτελεσμάτων πραγματοποιήθηκαν πειράματα με συντελεστές διαφορετικής βαρύτητας για τις παραμέτρους, καθώς και συγκρίσεις με άλλα συστήματα και αλγόριθμους που υπολογίζουν την επιρροή.The purpose of this dissertation is to study different systems and algorithms that calculate user and/or content influence in Social Networks, as well as to present the implementation of a new influence computation system for Twitter [1]. Influence can have various interpretations. Some of the existing systems that calculate influence, view it as the popularity. In this aspect, an influencer is a user that has a high number of followers. In other cases, influence is viewed in relation to the level of social activity that a user can stimulate. Similarly, an influencing topic or content is one that is being presented in many tweets, which have received numerous likes and retweets. Other systems consider that a content’s influence is linked to the interest that will cause to users. By studying various recommendation systems, we deduce that most of them tend to use similar parameters to calculate influence. More specifically, it seems that the usage of only the number of followers for the computation is rejected and characteristics like the number of likes of tweets, retweets, outlinks (URLs) and the length of the tweet are being considered. Up until now, the algorithm being used by the Twitter platform [1] in order to infer the user’s influence takes into account only his/her followers. However, many studies and experiments have shown that such an algorithm is not as efficient as one that also considers the aforementioned parameters. In this work, we propose a new system that was implemented in order to infer the influence of health related hashtags, such as #breastcancerawareness, #diabetes, #leukaemia etc., the tweets that contain them and the users that posted them. In this system, the information used for the hashtag’s influence calculation is the number of tweets that contain it and the number of likes and retweets that they received. For the tweet’s influence estimation in relation to a hashtag, the parameters used are the number of its likes and retweets, in combination with the above-mentioned parameters. Lastly, the outcome of a user’s influence, in relation to a specific hashtag, is related to the usage of the number of likes and retweets that his/her tweets (that contain the hashtag) received compared to the number of likes and retweets of all the tweets that contain the hashtag. In addition, the new system takes into consideration the number of the user’s followers and followees. Different weights used for each parameter. In order to evaluate the implemented algorithm, different weights were examined and comparisons were made with other influence calculation systems

    Novel Techniques Using Graph Neural Networks (GNNS) for Anomaly Detection

    Get PDF
    This paper explores 2 new mechanisms that leverage graphs for anomaly detection. The novelty in approach one is to leverage the global attention capability of transformer architecture using a Graph Attention Network (GAT) with Chebyshev Laplacian for representation. This method leverages the GAT to learn attention weights for the graph features obtained through Chebyshev expansion of the Laplacian. This method focuses on capturing higher-order graph features with reduced computational complexity and utilizing attention mechanisms for improved feature relevance in detecting anomalies. The second approach leverages Fisher information to find anomalous graphs with ChebNet module for graph analysis. The ChebNet module allows for deep learning on graphs, capturing complex patterns and relationships that can help in detecting fraud more accurately. Using Fisher information improves model interpretability while ChebNet modules help leverage spectral properties
    corecore