Understanding Social Media through Large Volume Measurements

Abstract

The amount of user-generated web content has grown drastically in the past 15 years and many social media services are exceedingly popular nowadays. In this thesis we study social media content creation and consumption through large volume measurements of three prominent social media services, namely Twitter, YouTube, and Wikipedia. Common to the services is that they have millions of users, they are free to use, and the users of the services can both create and consume content. The motivation behind this thesis is to examine how users create and consume social media content, investigate why social media services are as popular as they are, what drives people to contribute on them, and see if it is possible to model the conduct of the users. We study how various aspects of social media content be that for example its creation and consumption or its popularity can be measured, characterized, and linked to real world occurrences. We have gathered more than 20 million tweets, metadata of more than 10 million YouTube videos and a complete six-year page view history of 19 different Wikipedia language editions. We show, for example, daily and hourly patterns for the content creation and consumption, content popularity distributions, characteristics of popular content, and user statistics. We will also compare social media with traditional news services and show the interaction with social media, news, and stock prices. In addition, we combine natural language processing with social media analysis, and discover interesting correlations between news and social media content. Moreover, we discuss the importance of correct measurement methods and show the effects of different sampling methods using YouTube measurements as an example.Sosiaalisen median suosio ja sen käyttäjien luoman sisällön määrä on kasvanut valtavasti viimeisen 15 vuoden aikana ja palvelut kuten Facebook, Instagram, Twitter, YouTube ja Wikipedia ovat erittäin suosittuja. Tässä väitöskirjassa tarkastellaan sosiaalisen median sisällön luonti- ja kulutusmalleja laajavoluumisen mittausdatan kautta. Väitöskirja sisältää mittausdataa Twitter-, YouTube- ja Wikipedia -palveluista. Yhteistä näille kolmelle palvelulle on muuan muassa se, että niillä on miljoonia käyttäjiä, niitä voi käyttää maksutta ja käyttäjät voivat luoda sekä kuluttaa sisältöä. Mittausdata sisältää yli 20 miljoona Twitter -viestiä, metadatatietoja yli kymmenestä miljoonasta YouTube -videosta ja täydellisen artikkelien katselukertojen tiedot kuudelta vuodelta 19 eri Wikipedian kieliversiosta. Tutkimuksen tarkoituksena on tarkastella kuinka käyttäjät luovat ja kuluttavat sisältöä sekä löytää niihin liittyviä malleja, joita voi hyödyntää tiedon jaossa, replikoinnissa ja tallentamisessa. Tutkimuksessa pyritään siis selvittämään miksi miksi sosiaalisen median palvelut ovat niin suosittuja kuin ne nyt ovat, mikä saa käyttäjät tuottamaan sisältöä niihin ja onko palveluiden käyttöä mahdollista mallintaa ja ennakoida. Väitöskirjassa verrataan myös sosiaalisen median ja tavallisten uutispalveluiden luonti- ja kulutusmalleja. Lisäksi näytetään kuinka sosiaalisen median sisältö, uutiset ja pörssikurssi hinnat ovat vuorovaikutuksessa toisiinsa. Väitöskirja sisältää myös pohdintaa oikean mittausmenetelmän valinnasta ja käyttämisestä sekä näytetään eri mittausmenetelmien vaikutuksista tuloksiin YouTube -mittausdatan avulla

    Similar works