62 research outputs found

    BotArtist: Twitter bot detection Machine Learning model based on Twitter suspension

    Full text link
    Twitter as one of the most popular social networks, offers a means for communication and online discourse, which unfortunately has been the target of bots and fake accounts, leading to the manipulation and spreading of false information. Towards this end, we gather a challenging, multilingual dataset of social discourse on Twitter, originating from 9M users regarding the recent Russo-Ukrainian war, in order to detect the bot accounts and the conversation involving them. We collect the ground truth for our dataset through the Twitter API suspended accounts collection, containing approximately 343K of bot accounts and 8M of normal users. Additionally, we use a dataset provided by Botometer-V3 with 1,777 Varol, 483 German accounts, and 1,321 US accounts. Besides the publicly available datasets, we also manage to collect 2 independent datasets around popular discussion topics of the 2022 energy crisis and the 2022 conspiracy discussions. Both of the datasets were labeled according to the Twitter suspension mechanism. We build a novel ML model for bot detection using the state-of-the-art XGBoost model. We combine the model with a high volume of labeled tweets according to the Twitter suspension mechanism ground truth. This requires a limited set of profile features allowing labeling of the dataset in different time periods from the collection, as it is independent of the Twitter API. In comparison with Botometer our methodology achieves an average 11% higher ROC-AUC score over two real-case scenario datasets

    OntoCAT - a simpler way to access ontology resources

    Get PDF
    OntoCAT is an open source package developed to simplify the task of querying heterogeneous ontology resources. It supports local ontologies in OBO and OWL format as well as public repositories NCBO BioPortal and EBI Ontology Lookup Service (OLS). It is available from "http://ontocat.sourceforge.net":http://ontocat.sourceforge.ne

    Russo-Ukrainian War: Prediction and explanation of Twitter suspension

    Full text link
    On 24 February 2022, Russia invaded Ukraine, starting what is now known as the Russo-Ukrainian War, initiating an online discourse on social media. Twitter as one of the most popular SNs, with an open and democratic character, enables a transparent discussion among its large user base. Unfortunately, this often leads to Twitter's policy violations, propaganda, abusive actions, civil integrity violation, and consequently to user accounts' suspension and deletion. This study focuses on the Twitter suspension mechanism and the analysis of shared content and features of the user accounts that may lead to this. Toward this goal, we have obtained a dataset containing 107.7M tweets, originating from 9.8 million users, using Twitter API. We extract the categories of shared content of the suspended accounts and explain their characteristics, through the extraction of text embeddings in junction with cosine similarity clustering. Our results reveal scam campaigns taking advantage of trending topics regarding the Russia-Ukrainian conflict for Bitcoin and Ethereum fraud, spam, and advertisement campaigns. Additionally, we apply a machine learning methodology including a SHapley Additive explainability model to understand and explain how user accounts get suspended

    Discovery and classification of Twitter bots

    Full text link
    A very large number of people use Online Social Networks daily. Such platforms thus become attractive targets for agents that seek to gain access to the attention of large audiences, and influence perceptions or opinions. Botnets, collections of automated accounts controlled by a single agent, are a common mechanism for exerting maximum influence. Botnets may be used to better infiltrate the social graph over time and to create an illusion of community behavior, amplifying their message and increasing persuasion. This paper investigates Twitter botnets, their behavior, their interaction with user communities and their evolution over time. We analyzed a dense crawl of a subset of Twitter traffic, amounting to nearly all interactions by Greek-speaking Twitter users for a period of 36 months. We detected over a million events where seemingly unrelated accounts tweeted nearly identical content at nearly the same time. We filtered these concurrent content injection events and detected a set of 1,850 accounts that repeatedly exhibit this pattern of behavior, suggesting that they are fully or in part controlled and orchestrated by the same software. We found botnets that appear for brief intervals and disappear, as well as botnets that evolve and grow, spanning the duration of our dataset. We analyze statistical differences between bot accounts and human users, as well as botnet interaction with user communities and Twitter trending topics

    OntoCAT -- simple ontology search and integration in Java, R and REST/JavaScript

    Get PDF
    <p>Abstract</p> <p>Background</p> <p>Ontologies have become an essential asset in the bioinformatics toolbox and a number of ontology access resources are now available, for example, the EBI Ontology Lookup Service (OLS) and the NCBO BioPortal. However, these resources differ substantially in mode, ease of access, and ontology content. This makes it relatively difficult to access each ontology source separately, map their contents to research data, and much of this effort is being replicated across different research groups.</p> <p>Results</p> <p>OntoCAT provides a seamless programming interface to query heterogeneous ontology resources including OLS and BioPortal, as well as user-specified local OWL and OBO files. Each resource is wrapped behind easy to learn Java, Bioconductor/R and REST web service commands enabling reuse and integration of ontology software efforts despite variation in technologies. It is also available as a stand-alone MOLGENIS database and a Google App Engine application.</p> <p>Conclusions</p> <p>OntoCAT provides a robust, configurable solution for accessing ontology terms specified locally and from remote services, is available as a stand-alone tool and has been tested thoroughly in the ArrayExpress, MOLGENIS, EFO and Gen2Phen phenotype use cases.</p> <p>Availability</p> <p><url>http://www.ontocat.org</url></p

    Ανάλυση της εξέλιξης, του περιεχομένου και των αδυναμιών των μέσων κοινωνικής δικτύωσης

    No full text
    Online Social Networks (OSNs) are offering an experience that goes beyond communication, news or entertainment. With a total user base that reaches the one third of the world population and an average daily engagement of three hours, OSNs have become a major phenomenon that affects our society in a variety of ways. Also OSNs have already a history of almost 30 years of constant growth, creating a sizable market that attracts considerable funding and innovation. Inline with this growth, there is a parallel increase of interest from the scientific community that attempts to study OSNs from various perspectives. Without being complete, these perspectives can be delineated according to the way the community treats an OSN as a research object. First of all, an OSN can be perceived as a complex system represented by a social graph that is continuously changing. A second perspective is as a social phenomenon that hides many dangers from which the public should be informed and protected. A final view of OSNs is as a tool, through which we can focus on some interesting trends and tendencies inherent in the public sphere. This dissertation presents some fundamental contributions in these areas and uses Twitter as a testbed for experimentation and validation. Initially, we present an effort to model the temporal evolution of the growth of the social graph. Towards this goal, we collect two datasets containing daily snapshots of the social graph, one for the early and another for the later period of Twitter. By fitting this dataset to a well-known but previously untested model, we are able to graph the evolution of Twitter for a period of 8 years. Additionally, we annotate the observed fluctuations of this growth with real events and demonstrate how efficient spam control and service robustness can affect the growth of an OSN. We proceed to study one of the most common strategies for spam propagation in OSNs. This is the deliberate mix of popular topics with spam content. By using Machine Learning methods, we show that the use of trending topics has the maximum discriminatory efficiency between spam and legit content. Also, we uncover a spam masquerading technique and we show how we can mitigate spam with simple graph analysis and computationally modest machine learning models. Finally, we delve into content analysis.Specifically, we apply a combination of Natural Language Processing techniques to infer how users express themselves during a real and turbulent electoral event. Towards this, we apply Named Entity Recognition, Volume analysis, Sarcasm detection, Sentiment analysis and Topic analysis in order to extract among other, the semantic proximities of different political parties and the temporal sentiment variation of different groups of votersΤα σύγχρονα μέσα κοινωνικής δικτύωσης προσφέρουν μια εμπειρία που ξεπερνάει τα όρια της απλής επικοινωνίας, της ενημέρωσης και της ψυχαγωγίας. Με μέσο ημερήσιο χρόνο χρήσης που μπορεί να φτάσει τις 3 ώρες, με μία πληθυσμιακή διείσδυση που ξεπερνάει το ένα τρίτο του παγκόσμιου πληθυσμού και με ένα σταθερό ρυθμό αύξησης τα τελευταία 30 χρόνια, τα μέσα κοινωνικής δικτύωσης πλέον, επηρεάζουν τον τρόπο με τον οποία μία κοινωνία αλληλεπιδρά, αντιδρά σε διάφορα γεγονότα αλλά και τον τρόπο που διαχέει μία πληροφορία στα μέλη της. Είναι φυσικό, η τεράστια κοινωνική επίδραση και η επέκταση των μέσων κοινωνικής δικτύωσης, να εγείρει διάφορα ερωτήματα. Μερικά από αυτά, έχουν να κάνουν με τον ρυθμό με τον οποίο μεταβάλλεται και εξελίσσεται ο γράφος που αναπαριστά τους χρήστες ενός κοινωνικού δικτύου και αντιμετωπίζει θέματα όπως, τι αυξάνει περισσότερο με τον χρόνο, οι χρήστες ή οι συνδέσεις που κάνουν μεταξύ τους. Ένα άλλο θέμα είναι η έγκαιρη και αποτελεσματική προστασία των χρηστών από απειλές όπως ανεπιθύμητα μηνύματα. Ένα τρίτο ερώτημα είναι πώς μπορούμε να αποτιμήσουμε την γενικότερη εντύπωση, θετική ή αρνητική, που έχουν οι χρήστες σχετικά με διάφορες ευαίσθητες οντότητες όπως είναι τα πολιτικά κόμματα και οι ιδεολογίες κατά τη διάρκεια μιας προεκλογικής περιόδου. Η παρούσα διδακτορική διατριβή εστιάζει στο δημοφιλές δίκτυο κοινωνικής δικτύωσης Twitter και επιχειρεί να απαντήσει σε αυτά τα ερωτήματα με την εφαρμογή και εξέλιξη μεθόδων από την περιοχή της ανάλυσης γράφων, τη μηχανική μάθηση και την επεξεργασία φυσικής γλώσσας. Αρχικά παρουσιάζεται ένα μοντέλο σχετικά με την χρονική εξέλιξη και μοντελοποίηση του κοινωνικού γράφου. Για το σκοπό αυτό, συλλέγονται δύο αντιπροσωπευτικά δείγματα του Twitter, ένα από την πρώιμη και ένα από την πιο πρόσφατη χρονική περίοδο. Χρησιμοποιώντας ένα γνωστό μοντέλο το οποίο όμως έχει εφαρμοστεί μόνο σε μικρούς γράφους, μελετάμε την εξέλιξη του Twitter, σε μια περίοδο 8 ετών. Επιπλέον αντιπαραθέτουμε τις παρατηρούμενες διακυμάνσεις αυτής της ανάπτυξης με πραγματικά γεγονότα και καταδεικνύουμε κατά πόσο η εφαρμογή πολιτικών εναντίων ανεπιθύμητων μηνυμάτων αλλά και η εισροή νέων χρηστών μπορεί να επηρεάσει την ανάπτυξη ενός κοινωνικού δικτύου. Στην συνέχεια προχωράμε στη μελέτη μιας νέας στρατηγικής για τη διάδοση του ανεπιθύμητων μηνυμάτων στα μέσα κοινωνικής δικτύωσης. Ο συγκεκριμένος τρόπος διάδοσης εκμεταλλεύεται τον συνδυασμό δημοφιλών θεμάτων (trending topics) στο Twitter με ανεπιθύμητα μηνύματα. Χρησιμοποιώντας μεθόδους μηχανικής μάθησης, δείχνουμε ότι η χρήση των δημοφιλών αυτών θεμάτων μας παρέχει τον βέλτιστο τρόπο για τον διαχωρισμό των ανεπιθύμητων μηνυμάτων αλλά και των χρηστών που τα στέλνουν. Επιπλέον αποκαλύπτουμε μια τεχνική απόκρυψης ανεπιθύμητων μηνυμάτων που διαφεύγει από τους μηχανισμούς ανίχνευσης του Twitter (spam masquerading) και δείχνουμε πώς μπορούμε να μετριάσουμε τα ανεπιθύμητα μηνύματα με απλή ανάλυση του γράφου καθώς και τεχνικών μηχανικής μάθησης. Η τελευταία πτυχή αυτής της διατριβής μελετάει την ανάλυση του περιεχομένου στο Twitter. Συγκεκριμένα, εφαρμόζουμε ένα συνδυασμό τεχνικών επεξεργασίας φυσικής γλώσσας (NLP) για να μελετήσουμε τον τρόπο έκφρασης των χρηστών και κατ' επέκταση των ψηφοφόρων, κατά τη διάρκεια ενός πραγματικού και ταραχώδους εκλογικού γεγονότος. Προκειμένου να γίνει αυτό εφαρμόζουμε τεχνικές εξαγωγής των σημαντικότερων οντοτήτων που περιέχονται στο σύνολο δεδομένων, μελετάμε τον όγκο των μηνυμάτων γύρω από τις οντότητες αυτές και ανιχνεύουμε τα ποσοστά σαρκασμού αλλά και των συναισθημάτων γύρω από αυτές. Με αυτές τις τεχνικές καταλήγουμε στην εξαγωγή σημασιολογικών σχέσεων μεταξύ των σημαντικότερων αυτών οντοτήτων, αλλά και την διακύμανση του συναισθήματος στο χρόνο για τις διάφορες ομάδες ψηφοφόρων

    Social media analysis during political turbulence, DATA

    No full text
    This the data necessary for reproduction of the paper titled "Social media analysis during political turbulence"<br><br

    Εξόρυξη γνώσεων από Βιοϊατρική Βιβλιογραφία Το Σύστημα ΜINEBIOΤEXT: Ανακάλυψη συσχετίσεων μεταξύ γονιδίων, πρωτεϊνών και ασθενειών

    No full text
    Automatic knowledge discovery from biomedical free-texts appears as a necessity considering the growing of the massive amounts of biomedical scientific literature. A special problem that makes this task more challenging, and difficult as well, is the overabundance and diversity of the related genomic/proteomic ontologies and the respective gene and protein terminologies. Specifically, a genomic/proteomic term, e.g., gene, protein and their functional descriptions, as well as the diseases, are referred with many different ways in scientific documents regarding the organization, research context and the naming conventions that the authors are adherent to. The work reported in this thesis presents methods and tools for the efficient and reliable mining of biomedical literature, based on advanced text-mining techniques. Specifically it covers the following R&D challenges: (a) Identification of gene/protein--gene/protein and gene/protein--disease correlations following a text mining approach. The approach utilizes data-mining and statistical techniques, algorithms and metrics to deal with the following problems: (i) identification and recognition of terms in text-references based on an appropriately devised and implemented algorithmic process that utilises the Trie data-structure; and (ii) ranking of terms and their (potential) relations or, links based on the MIM entropic metric (Mutual Information Metric) to measure the respective terms association strength. (b) Construction of a genes association network based on the assessed terms (genes, proteins, diseases) association strengths. (c) Categorization / Classification of textreferences (mainly from the PubMed abstracts repository) into class categories utilizing an appropriately devised classification metric and procedure, and using the most descriptive (i.e, strong) associations between terms. Pre-assignment of text-references (i.e., PubMed abstract) to categories is performed by posting respective queries to PubMed, i.e., querying PubMed with breast cancer the retrieved documents are considered to belong to the breast cancer category. (d) Assessment on the texts categorization / classification results based on respective PubMed abstract collections, their precategorization and careful experimental set-up to measure prediction results, i.e., accuracy and precision. (e) Design and development of a tool the MineBioText (Mining Biomedical Texts), that encompasses all of the aforementioned operations with extra functionalities for setting-up the domain of reference and study, e.g., gene/protein and disease names, their synonyms and free-text descriptions, text collections, parameterization of build-in algorithmic processes etc.Η αυτόματη ανακάλυψη γνώσεων από έγγραφα βιοϊατρικού περιεχομένου ελεύθερης γραφής (free-texts) αποτελεί μια αναγκαιότητα κυρίως λόγω του τεράστιου, και συνεχώς αυξανόμενου, πλήθους σχετικών επιστημονικών αναφορών. Το βασικό πρόβλημα που κάνει αυτόν τον στόχο περισσότερο προκλητικό και δύσκολο είναι η υπεραφθονία καθώς και η ποικιλομορφία σχετικών γονιδιωματικών ορολογιών και των εμπλεκόμενων γονιδιακών/πρωτεϊνικών ορολογιών. Συγκεκριμένα, ένας γονιδιωματικός όρος, π.χ., γονίδιο ή πρωτεΐνη και η περιγραφή της λειτουργία, αλλά και σχετιζόμενες ασθένειες, αναφέρονται με πολλούς διαφορετικούς τρόπους σε σχετικά επιστημονικά έγγραφα ανάλογα με το ερευνητικό πλαίσιο και τις συμβάσεις ονοματολογίας που ο συντάκτης του εγγράφου αποδέχεται και ακολουθεί. Η εργασία που αναφέρεται σε αυτήν την μεταπτυχιακή διατριβή παρουσιάζει μεθόδους και τα εργαλεία για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από τη σχετική βιοϊατρική βιβλιογραφία και αναφορές, και βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα (text-mining). Συγκεκριμένα, συνδιαλέγεται και προσφέρει λύσεις στις παρακάτω ερευνητικές και αναπτυξιακές (Ε&Α) προκλήσεις: (α) Αυτόματη ανακάλυψη συσχετίσεων μεταξύ γονιδίων/πρωτεϊνών και μεταξύ γονιδίων/πρωτεϊνών και ασθενειών. Το θέμα προσεγγίζεται με τεχνικές και αλγοριθμικές διαδικασίες text-mining καθώς και τη δημιουργία και χρήση σχετικών στατιστικών μετρικών: (i) Προσδιορισμός, αναγνώριση και διαχείριση όρων σε βιοϊατρικά έγγραφα για το σκοπό αυτό επινοήθηκε και προσαρμόστηκε κατάλληλα μια αλγοριθμική διαδικασία που χρησιμοποιεί την ευέλικτη και αποδοτική δομή δεδομένων Trie, και (ii) ταξινόμηση των όρων και (των πιθανών) σχέσεών τους ή, συνδέσεων για το σκοπό αυτό η εντροπική μετρική υπολογισμού της αμοιβαίας πληροφορίας έχει κατάλληλα προσαρμοστεί και χρησιμοποιηθεί. (β) Κατασκευή δικτύου συσχέτισης γονιδίων/πρωτεϊνών (gene correlation network) βασίζεται στην αξιολόγηση της δύναμης συσχέτισης (correlation strength) των προσδιορισμένων και αναγνωρισμένων γονιδιωματικών όρων στα διαθέσιμα έγγραφα. (γ) Κατηγοριοποίηση/Tαξινόμηση εγγράφων (κυρίως από την αποθήκη περιλήψεων PubMed) η οποία βασίζεται στην επινόηση και χρήση μιας μετρικής ταξινόμησης και την εισαγωγή σχετικής αλγοριθμικής διαδικασίας ταξινόμησης εγγράφων (texts classification) η μετρική χρησιμοποιεί τη δύναμη συσχέτισης μεταξύ όρων που εμφανίζονται στα διαθέσιμα έγγραφα. Η αλγοριθμική διαδικασία στηρίζεται στην εκπαίδευση (training) του ταξινομητή εγγράφων με βάση έγγραφα-εκπαίδευσης από τη βάση/αποθήκη περιλήψεων PubMed και την εκ των προτέρων ταξινομησή τους (preassignment to classes) από σχετικά ερωτήματα στο PubMed, δηλ., θέτοντας το ερώτημα στο PubMed "καρκίνος του μαστού" τα ανακτημένα έγγραφα θεωρούνται ότι ανήκουν στην κατηγορία "καρκίνος-μαστού". (δ) Εκτεταμένα πειράματα για την επικύρωση (validation) και αξιολόγηση (evaluation) αποτελεσμάτων σε σχέση με την αξιοπιστία και χρησιμότητα των συσχετίσεων που ανακαλύπτονται, καθώς και σε σχέση με την αξιοπιστία (ακρίβεια) κατάταξης και ταξινόμησης εγγράφων. (ε) Σχεδίαση και ανάπτυξη ενός εργαλείου το σύστημα MineBioΤext, το οποίο ενσωματώνει όλες τις προαναφερθείσες τεχνικές και διαδικασίες με τις πρόσθετες λειτουργίες για τη δημιουργία του πεδίου-αναφοράς (domain of reference) σε ολοκληρωμένες διαδικασίες εξόρυξης γνώσης από βιβλιογραφικές αναφορές, π.χ., εκμετάλλευση πολλαπλών ονοματολογιών γονιδίων/πρωτεϊνών και ασθενειών, των συνωνυμών τους και των αντίστοιχων ελεύθερου-κειμένου περιγραφών τους, συλλογές εγγράφων, παραμετροποίηση διαδικασιών, οπτικοποίηση (visualization) αποτελεσμάτων κ.λπ
    corecore