Hate Speech Detection on Twitter: A Social-Aware Approach

Abstract

Η ανάλυση συναισθημάτων αναφέρεται στη διαδικασία λήψης πληροφορίας σχετικά με την αντίληψη του χρήστη για ένα προιόν, μια υπηρεσία, μια διασημότητα, έναν πολιτικό ή ακόμα και μια γενικότερη ιδέα ή συμπεριφορά. Στην παρούσα διπλωματική εργασία, θα γίνει προσπάθεια εντοπισμού υβριστικού λόγου στο Twitter. Το μίσος, είναι ένα πολύ ισχυρό συναίσθημα, καθώς, όταν εκφράζεται χωρίς περιορισμό, δύναται να καταστρέψει την ποιότητα μιας συζήτησης. Επιπλέον, το μίσος συνήθως συνοδεύεται από ύβρεις κι απειλές. Συνεπώς, η προσπάθεια εντοπισμού του μίσους στα κοινωνικά δίκτυα όπως το Twitter, είναι μια διαδικασία που πρέπει να υλοποιηθεί προσεκτικά. Ωστόσο, δεν είναι εφικτό να πραγματοποιηθεί χειροκίνητα, καθώς, στις μέρες μας, η κίνηση στα κοινωνικά δίκτυα αυξάνεται κι όλο και περισσότεροι άνθρωποι χρησιμοποιούν διαδικτυακές εφαρμογές κι εργαλεία. Κατά συνέπεια, μέσω αυτοματοποιημένων μεθόδων, η προσπάθεια αυτή δύναται να απλοποιηθεί. Επιπροσθέτως, έρευνες έχουν υλοποιηθεί σχετικά με τα κατάλληλα εργαλεία για την απλούστευση του συγκεκριμένου έργου, με την πλειοψηφία να χρησιμοποιεί μηχανική μάθηση. Στην παρούσα εργασία, προσπαθούμε να εντοπίσουμε το μίσος στο Twitter μέσω υφιστάμενων μεθόδων και τεχνικών. Παράλληλα, θα ακολουθήσουμε μια τεχνική βασισμένη στην ανάλυση κοινωνικών δικτύων, αξιοποιώντας τα χαρακτηριστικά του χρήστη (αριθμός ακολούθων, αριθμός tweets κλπ.) και λαμβάνοντας υπόψη όλες τις πιθανές μετρικές που θεωρούνται σημαντικές. Kλείνοντας, επιχειρούμε συνδυασμό των ανωτέρω τεχνικών, με σκοπό να διαπιστωθεί κατά πόσο είναι εφικτή μια σημαντική βελτίωση στη διαδικασία εύρεσης υβριστικού κειμένου.Sentiment analysis refers to the process of retrieving information about a user’s perception of a product, service, celebrity, politician or even a general idea or behavior. In the current thesis, we will examine Twitter’s tweets and attempt to identify hate speech in them. This specific sentiment is very powerful, as when used without measure, it can severely destroy the quality of a conversation. Furthermore, hate is most often combined with insults, abuse and threats. Thus, the effort to identify hate in social media, like Twitter, is a task that needs to be done carefully. However, it is not feasible for humans to do this process manually, as nowadays, the traffic in social media augments and more people use online applications and tools. With an automated approach, this effort can become significantly easier. Additionally, research has been conducted on what tools can be used to accomplish this task and the majority uses machine learning. In this research, we investigate hate-speech detection on Twitter using methods that already exist. In addition, we follow an approach, based on social networks analysis, making use of user’s profile (number of followers, number of tweets etc.) and any useful metrics we can think of. Finally, we combine those approaches to determine whether we can achieve a significant improvement in the task of hate speech detection

    Similar works