    How does the front page of the Internet behave? Readability, emoticon use, and links on Reddit

    Reddit, known as “the front page of the Internet,” has been one of the most widely visited Web sites since its inception in 2005. As a social networking site it is unique in that the personal relationships between its users are considered secondary to its content, which includes both original, user-generated content and links to outside sources. Although previous research has investigated other social networking platforms in depth, relatively little has been written on Reddit. The present research considers a variety of indicators, including text readability, emoticon usage, and domain linkage. It was found that the most popular communities on Reddit behave very differently from each other, in terms of language sophistication, sentiment, and topicality (as measured by top-level links to outside sources). The results can be used to inform future investigations of online discourse spaces, particularly those in the contemporary social media sphere

    "But these days, it's as if our punctuation is on steroids" : punctuation techniques in CMC language

    Tämän pro gradu -tutkielman aiheena on välimerkkitekniikoiden käyttö internetkielessä. Tutkimuksen tarkoituksena on selvittää, millaisia välimerkkejä internetissä käytetään ja minkälaisia pragmaattisia funktioita niillä on kieliopillisten funktioidensa lisäksi. Analyysin pohjana käytetään Tarasovan (2016) kehittämää kuuden välimerkkitekniikan mallia. Tutkimus linkittyy aiempaan internetkielen tutkimukseen ja tavoitteena on, että tutkimus voisi vastata tarpeeseen luokitella erilaisia funktioita, joita välimerkeillä on internetkielessä. Tutkimuksen aineistoksi kerättiin kommenttiketjuja Reddit.com-verkkosivustolta ja kommenttiketjujen viestit lajiteltiin Tarasovan mallin mukaisesti kuuteen kategoriaan. Aineisto koostui n. 2000 kommentista, joista n. 11 prosenttia sisälsi mallin mukaisia välimerkkitekniikoita. Nämä kommentit analysoitiin yksitellen ja niitä käytetään tutkimuksessa runsaasti esimerkkeinä. Tutkimuksessa havaittiin, että välimerkkitekniikoita käytetään internetkielessä suhteellisen vähän. Yleisimmät tekniikat aineiston perusteella ovat ”paketointi” (parceling), ”epäileminen” (doubting) ja ”ihailu” (admiration). Aineistosta löydettiin esimerkkejä myös ”välimerkkien synergiasta” (synergy of punctuation marks). Sen sijaan kahdesta viimeisestä kategoriasta, ”välimerkin etäännyttäminen lauseen viimeisestä kirjaimesta” (distancing the punctuation mark from the final letter of the statement) ja ”välimerkkien funktionaalinen ja positionaalinen sijoittaminen” (functional and positional modification of punctuation marks) löytyi vähän tai ei ollenkaan esimerkkejä. Välimerkkitekniikoita käytetään tutkimuksen mukaan mm. tunteiden ja asenteiden ilmaisemiseen, viestin sisällön korostamiseen sekä huumorin välittäjänä. Jotkin tekniikat yhdistyvät selvästi negatiiviseen kommentointiin (esim. ”huuto- ja kysymysmerkkien synergia”), mutta toisten (esim. ”ihailu”) avulla rakennetaan yhteisöllisyyttä nettikeskusteluissa. Tarasovan kuuden tekniikan lisäksi aineistosta löytyi seitsemäs välimerkkitekniikka: kolmen pisteen (ellipsis dots) käyttö luomaan funktionaalinen tauko, jonka avulla voidaan ilmaista esim. hämmennystä, erimielisyyttä ja myös huumoria. Tutkimus osoittaa, että välimerkeillä voidaan vaikuttaa yhteisöllisyyden ja dialogisuuden luomiseen internet-keskusteluissa, ja tulevaisuudessa niitä tutkimalla voitaisiin etsiä ratkaisuja esimerkiksi vihapuheen vähentämiseksi internetissä

    Subregisters on Reddit : Functional Variation across Text Lengths

    This thesis comprises four studies which focus on register variation—the way language is used differently in different situational contexts and for different communicative purposes—within the social media platform Reddit. In particular, the focus of the present work is on variation in communicative function across Reddit comments of different lengths. Even though text length is often considered a confounding factor in corpus-linguistic studies, its role in various types of linguistic variation, including register variation, has received remarkably little study. In order to study register variation across Reddit, the present work makes use of large-scale datasets of Reddit comments. First, I implement a multi-dimensional register analysis (Biber, 1988), and extract three dimensions of register variation from comment threads from a group of thirty-seven subreddits. This study acts as a proof-of-concept pilot study to confirm that register analysis is a meaningful approach to Reddit data. In the three following studies, I propose and develop the idea of lengthwise methods, which make use of the fact that texts which are different in length can be difficult to compare with each other, but texts of the exact same length can be compared trivially. I then make use of such methods and a large-scale one-month dataset of Reddit comments to investigate the relationship between situationally and communicatively motivated linguistic choices, i.e. register variation, and the length of Reddit comments. The results show that comment length and communicative function are linked. Looking at Reddit as a whole, there are clear tendencies in feature distributions which suggest that, for example, narrative content tends to favor longer comments more, whereas interpersonal content tends to favor shorter comments. However, further analysis breaking the data into subcorpora for different subreddits, thematic subforums of Reddit, shows that in many cases, the functional associations of comments of various lengths may differ greatly from one subreddit to another. In other words, there is no single communicative function fulfilled by comments of specific length. The functions nonetheless follow interpretable patterns, but the exact patterns depend on the register. These results highlight the importance of taking into consideration an often overlooked variable, text length, in many linguistic analyses.Väitöskirjani ”Subregisters on Reddit: Functional Variation across Text Lengths” käsittelee englannin kielen rekisterivaihtelua, eli sitä, miten kieltä käytetään eri tavoin eri tilanteissa ja tarkoituksiin. Työni pohjautuu aiempaan rekisteritutkimukseen, joka on havainnut, että monet kielenpiirteet (kuten aikamuodot, sanaluokat ja lauserakenteet) ovat funktionaalisia, eli niitä käytetään useammin sellaisissa tilanteissa ja sellaisiin tarkoituksiin, joiden tarpeisiin ne parhaiten sopivat. Väitöskirjani tärkein innovaatio on yhdistää rekisteripiirteiden analyysiin tekstin pituus. Tekstin pituuden vaikutusta erilaisiin kielellisiin ilmiöihin ei ole tutkittu kovin paljoa. Hypoteesini on, että samoin kuin kielenpiirteet, myös tekstin pituus ohjautuu tekstin funktion mukaan. Jos tämä hypoteesi pitää paikkansa, tekstin pituuden ja siitä löytyvien kielenpiirteiden välillä pitäisi olla yhteys. Väitöskirjani tutkii tätä yhteyttä. Käytän tutkimusaineistonani sosiaalisen median alusta Redditistä peräisin olevaa suurta n. 80 miljoonan kommentin aineistoa, joka kattaa kaikki julkiset Reddit-kommentit yhden kuukauden ajalta. Kehitän aineistoni suurta kokoa hyödyntävän laskennallisen tutkimusmenetelmän, jonka avulla pystyn analysoimaan kielenpiirteiden ja tekstin pituuden välistä yhteyttä. Analysoin tätä menetelmää käyttäen suuren kielenpiirrejoukon vaihtelua aineistossani. Analyysi osoittaa, että hypoteesini mukaisesti tekstin pituuden ja sen kielenpiirteiden välillä on yhteys. Esimerkiksi narratiivit, joissa kerrotaan menneistä tapahtumista, vaikuttavat suosivan pidempiä kommentteja. Selvittääkseni, pitävätkö samat funktionaaliset taipumukset aina paikkansa vai voiko funktio suosia eri tilanteissa eripituisia tekstejä, suoritan samanlaisen analyysin erikseen joukolle niin kutsuttuja ”alireddittejä” eli Redditin alifoorumeita, joista jokainen on omistettu eri aiheelle. Tämän analyysin perusteella selviää esimerkiksi, että kertova funktio suosii pidempiä kommentteja tietyissä aliredditeissä, kun taas monissa muissa aliredditeissä se vaikuttaa esiintyvän jotakuinkin yhtä vahvasti kaiken mittaisissa kommenteissa tai jopa hiukan yleisemmin lyhyemmissä kommenteissa. Funktion ja tekstin pituuden välinen yhteys voi siis vaihdella tilanteesta riippuen. Tutkimukseni osoittaa, että erilaiset funktiot suosivat usein eripituisia tekstejä, mutta että yhteys funktion ja tekstin pituuden välillä ei ole kiinteä, vaan riippuu tekstin ja tilanteen laajemmasta kontekstista. Näiden löydösten keskeisin viesti on, että tekstin pituus, johon kielitieteessä harvoin kiinnitetään paljoa huomiota, on tärkeä muuttuja, joka olisi usein hyödyllistä huomioida kielitieteellisissä tutkimuksissa

    Résoudre des crimes et des énigmes au sein du Reddit Bureau of Investigation : une analyse sociomatérielle de la constitution d'un collectif en contexte numérique

    Cette thèse doctorale étudie les pratiques d’enquêtes criminelles développées par des internautes dits « amateurs » ou « justiciers » dans un contexte sociohistorique où la résolution de crimes est considérée comme étant une activité exclusivement réservée aux professionnels de la sécurité. Nous nous intéressons spécifiquement au cas du Reddit Bureau of Investigation (RBI), un forum en ligne d’environ 70 000 membres dont le but est de résoudre des crimes et des énigmes. De manière générale, l’objectif de cette thèse est d’analyser comment se constitue et s’organise le RBI, ainsi que de comprendre comment ce type de collectif participe aux mutations contemporaines en matière de sécurité publique. Nous développons un cadre conceptuel inspiré du tournant sociomatériel dans les études organisationnelles qui s’articule en deux temps. D’abord, nous mobilisons les approches CCO afin de souligner le caractère constitutif de la communication (et du discours) dans l’émergence de collectifs et la théorie de la ventriloquie afin de comprendre comment le développement de pratiques discursives repose sur l’intervention d’acteurs humains et nonhumains (des usagers, des normes, des images, des objets et, notamment, des figures) qui génèrent des effets spécifiques (comme identifier la visée d’un collectif, définir son identité et les rôles de ses membres, renforcer ses règles, etc.). Ensuite, nous puisons dans les études sur les affordances des médias socionumériques pour comprendre le rôle de la plateforme Reddit dans la matérialisation de ces pratiques discursives en contexte numérique. La présente étude répond à quatre questions de recherche, soit : 1) Quelles sont les principales pratiques discursives développées par les membres du RBI?; 2) Comment les affordances de la plateforme Reddit contribuent-elles à la matérialisation de ces pratiques?; 3) Comment ces pratiques participent-elles (ou échouent-elles) à constituer et à performer le collectif?; et 4) En quoi le RBI participe-t-il aux mutations contemporaines du domaine de la sécurité publique? Pour ce faire, nous mobilisons des outils d’observation en ligne inspirés de l’ethnographie du Web, une recherche documentaire et l’analyse du discours organisationnel. Cet appareillage méthodologique est employé pour analyser un corpus de publications extrait du RBI sur une période de trois mois entre 2014 et 2015. Nos résultats montrent que l’invocation des figures de la police et du vigilantisme, ainsi que leur configuration antagoniste jouent un rôle significatif dans la constitution du RBI. En effet, se dissocier de la figure du vigilantisme permet aux membres de délimiter ce qu’ils ne peuvent pas être au sein du collectif et ce qu’ils ne peuvent pas faire en son nom. À l’inverse, les membres du RBI entretiennent une certaine ambiguïté face à la police. À cet effet, nos résultats soulignent que la légitimité du RBI est négociée quotidiennement entre la reconnaissance de la légitimité policière institutionnelle, les limites (réelles ou projetées) de celle-ci et le rejet de toute identification au vigilantisme.This thesis investigates the websleuthing practices undertaken by “amateurs” or “vigilantes” in a sociohistorical context where criminal investigations are understood as being exclusive to security professionals. We specifically examine the case of the Reddit Bureau of Investigation (RBI), an online forum that is composed of approximately 70 000 members and whose aim is to solve crimes and mysteries. Overall, the objective of this study is to analyze the processes through which the RBI is constituted and organized, as well as to understand how such a collective contributes to mutations in contemporary policing. We develop a two-fold conceptual framework that draws from the sociomaterial turn in organizational studies. Firstly, we mobilize the CCO perspective to underline the constitutive nature of communication (and discourse) in the emergence of collectives, as well as the ventriloquist theory to understand how the development of discursive practices rely on the intervention of human and nonhuman actors (users, norms, images, objects, and, more importantly, figures) that generate certain effects (like identifying the collective’s goal, defining its identity and the roles of its members, reinforcing its rules, etc.). Secondly, we draw from studies on social media affordances to understand how Reddit’s platform materializes such discursive practices online. This study answers four research questions: 1) What are the main discursive practices that are developed by RBI members?; 2) How do Reddit’s affordances contribute to materializing such practices?; 3) How do these practices (fail to) constitute and perform the collective?; and 4) In what ways does the RBI contribute to mutations in terms of contemporary policing? To do so, we mobilize observational tools from online ethnography, documentary research, and organizational discourse analysis. This methodological apparatus is then used to analyze a corpus of posts that was extracted from the RBI over a period of three months between 2014 and 2015. Our results show that invoking the figures of the police and of vigilantism, as well as their antagonistic configuration played a significant part in the constitution of the RBI. Indeed, to dissociate from vigilantism allows members to identify what they cannot be and what they cannot do in the name of the collective. Inversely, RBI members maintain a certain ambiguity toward the police. To that effect, our results underline how the RBI’s legitimacy is negotiated daily between the recognition of the police’s own legitimacy, the limits of this institution (whether real or perceived), and the rejection of any identification with vigilantism