Variation in morphological productivity in the BNC : Sociolinguistic and methodological considerations
WOS:000291539000006The first aim of this work is to examine gender-based variation in the productivity of the nominal suffixes -ness and -ity in present-day British English. Possible interpretations are presented for the findings that -ity is used less productively by women, while with -ness there is no gender difference. The second aim is to analyse the validity of hapax-based measures of productivity in sociolinguistic research. It is discovered that they require a significantly larger corpus than type-based ones, and that the category-conditioned degree of productivity P is unusable when comparing subcorpora based on social groups. Otherwise, hapax legomena remain a theoretically well-founded component of productivity measures.Peer reviewe
Sociolinguistic variation in morphological productivity in eighteenth-century English
Special Issue: How do corpus-based techniques advance description and theory in English historical linguistics?, Guest Editors: Martin Hilpert and Hubert CuyckensThis paper presents ongoing work on Säily and Suomela’s (2009) method of comparing type frequencies across subcorpora. The method is here used to study variation in the productivity of the suffixes -ness and -ity in the eighteenth-century sections of the Corpora of Early English Correspondence and of the Old Bailey Corpus (OBC). Unlike the OBC, the eighteenth-century section of the letter corpora differs from previously studied materials in that there is no significant gender difference in the productivity of -ity. The study raises methodological issues involving periodization, multiple hypothesis testing, and the need for an interactive tool. Several improvements have been implemented in a new version of our software.Peer reviewe
Comparing type counts : The case of women, men and -ity in early English letters
This work is a case study of applying nonparametric statistical methods to corpus data. We show how to use ideas from permutation testing to answer linguistic questions related to morphological productivity and type richness. In particular, we study the use of the suffixes -ity and -ness in the 17th-century part of the Corpus of Early English Correspondence within the framework of historical sociolinguistics. Our hypothesis is that the productivity of -ity, as measured by type counts, is significantly low in letters written by women. To test such hypotheses, and to facilitate exploratory data analysis, we take the approach of computing accumulation curves for types and hapax legomena. We have developed an open source computer program which uses Monte Carlo sampling to compute the upper and lower bounds of these curves for one or more levels of statistical significance. By comparing the type accumulation from women’s letters with the bounds, we are able to confirm our hypothesis.Peer reviewe
Challenges of combining structured and unstructured data in corpus development
Special issue, Challenges of Combining Structured and Unstructured Data in Corpus Development, ed. by Tanja Säily & Jukka Tyrkkö.Recent advances in the availability of ever larger and more varied electronic datasets, both historical and modern, provide unprecedented opportunities for corpus linguistics and the digital humanities. However, combining unstructured text with images, video, audio as well as structured metadata poses a variety of challenges to corpus compilers. This paper presents an overview of the topic to contextualise this special issue of Research in Corpus Linguistics. The aim of the special issue is to highlight some of the challenges faced and solutions developed in several recent and ongoing corpus projects. Rather than providing overall descriptions of corpora, each contributor discusses specific challenges they faced in the corpus development process, summarised in this paper. We hope that the special issue will benefit future corpus projects by providing solutions to common problems and by paving the way for new best practices for the compilation and development of rich-data corpora. We also hope that this collection of articles will help keep the conversation going on the theoretical and methodological challenges of corpus compilation.Non peer reviewe
Variation in noun and pronoun frequencies in a sociohistorical corpus of English
WOS:000291063000003Many corpus linguists make the tacit assumption that part-of-speech frequencies remain constant during the period of observation. In this article, we will consider two related issues: (1) the reliability of part-of-speech tagging in a diachronic corpus and (2) shifts in tag ratios over time. The purpose is both to serve the users of the corpus by making them aware of potential problems, and to obtain linguistically interesting results. We use noun and pronoun ratios as diagnostics indicative of opposing stylistic tendencies, but we are also interested in testing whether any observed variation in the ratios could be accounted for in sociolinguistic terms. The material for our study is provided by the Parsed Corpus of Early English Correspondence (PCEEC), which consists of 2.2 million running words covering the period 1415–1681. The part-of-speech tagging of the PCEEC has its problems, which we test by reannotating the corpus according to our own principles and comparing the two annotations. While there are quite a few changes, the mean percentage of change is very small for both nouns and pronouns. As for variation over time, the mean frequency of nouns declines somewhat, while the mean frequency of pronouns fluctuates with no clear diachronic trend. However, women consistently use more pronouns than men, while men use more nouns than women. More fine-grained distinctions are needed to uncover further regularities and possible reasons for this variation.Peer reviewe
Productivity of the suffixes -ness and -ity in 17th-century English letters : A sociolinguistic approach
Tässä työssä tutkitaan englannin kielen substantiivijohtimien -ness ja -ity produktiivisuutta 1600-luvulla kirjoitetuissa kirjeissä. Näitä lähes synonyymisiä johtimia käytetään yleensä merkitykseltään abstraktien substantiivien muodostamiseen adjektiiveista (esim. productive 'produktiivinen' > productiveness tai productivity 'produktiivisuus'). Johtimista -ity on lainautunut englantiin ranskasta ja myöhemmin myös latinasta; se on sekä fonologialtaan että semantiikaltaan läpinäkymättömämpi kuin kotoperäinen -ness. Lisäksi -ity-johdinta on käytetty enimmäkseen formaaleissa tilanteissa ja tieteellisissä teksteissä, kun taas -ness on ollut yleiskäyttöisempi.
Tutkielman lähestymistapa on sosiolingvistinen: oletetaan, että johtimien produktiivisuus (eli valmius muodostaa uusia johdoksia) voi vaihdella eri sosiaaliryhmissä. Sosiolingvistiikkaa ei ole aiemmin juurikaan sovellettu produktiivisuuden tutkimiseen. Tutkimusaineistona on Helsingin yliopiston VARIENG-tutkimusyksikön laatima Corpus of Early English Correspondence, varhaisista englanninkielisistä kirjeistä koostuva korpus eli elektroninen tekstikokoelma, joka on suunniteltu historiallisen sosiolingvistiikan tarpeisiin. Korpuksen 1600-luvun kirjeitten yhteenlaskettu pituus on noin 1,4 miljoonaa sanaa, ja ne on kirjoitettu vuosina 1600-1681. Tutkielman tärkeimpänä produktiivisuusmittarina käytetään johtimien avulla muodostettujen eri sanojen eli tyyppien lukumäärää. Hypoteesina on, että -ity-tyyppien määrä on keskimääräistä pienempi huonosti koulutettujen sosiaaliryhmien kirjeissä. Näitä olivat 1600-luvulla naiset sekä alhaisimmat yhteiskuntaryhmät, kuten talonpojat ja käsityöläiset. Johtimen -ness tyyppimäärissä ei odoteta esiintyvän sosiolingvististä variaatiota.
Tutkielmassa käsitellään myös tyyppimäärien vertailuun liittyviä metodologisia ongelmia. Koska vaikkapa naisilta ja miehiltä on eri määrä dataa, ei heidän tyyppimääriään voida suoraan verrata keskenään. Esimerkiksi tyyppimäärien normalisointi tuhatta sanaa kohti ei myöskään ole mahdollista, koska tyyppien lukumäärä ei kasva lineaarisesti korpuksen kasvaessa. Tutkielmassa esitetään kielitieteessä harvoin käytetty tilastotieteellinen menetelmä, jonka avulla korpuksen eri osista saatuja tyyppimääriä voidaan verrata koko korpukseen ja testata, ovatko ne tilastollisesti merkittävän pieniä tai suuria. Toisin kuin monet yleisemmät menetelmät, tämä tyyppikertymiin ja permutaatiotesteihin perustuva metodi ei vaadi yksinkertaistavien oletuksien tekemistä.
Tutkimustulokset vahvistavat hypoteesin oikeaksi: naisten -ity-tyyppien lukumäärä on tilastollisesti merkittävän alhainen, kun taas -ness-tyyppien määrissä ei ole tilastollisesti merkittäviä eroja. Alhaisimpien yhteiskuntaryhmien osalta tuloksia ei saada, koska niiltä on korpuksessa liian vähän dataa. Analyysissä paljastuu myös yllättävä eroavaisuus: korpuksen ajallisesti ensimmäisessä puoliskossa (1600-1639) on merkittävän vähän -ity-tyyppejä. Tämä voidaan tulkita kielelliseksi muutokseksi: -ity-johtimen produktiivisuus kasvaa kirjeissä 1600-luvun aikana. Saattaa olla, että johtimen produktiivisuus on ensin kasvanut formaalimmissa tekstilajeissa, joista lisääntynyt käyttö on sitten levinnyt myös kirjeisiin, ehkäpä 1640-luvun sisällissodan synnyttämien kontaktiverkostojen siivittämänä.
Tuloksien perusteella voidaan sanoa, että sosiolingvistinen vaihtelu on merkittävä tekijä ainakin joittenkin johtimien produktiivisuudessa, joten vaihtelua on syytä tutkia enemmänkin. Tutkimuksessa käytetty metodi mahdollistaa osakorpuksien tyyppimäärien luotettavan vertailun melko pienissäkin korpuksissa, joten se soveltuu hyvin niin historialliseen kielitieteeseen kuin sosiolingvistiikkaankin
Sosiolingvistisen vaihtelun tarkastelu englannin sananmuodostuksessa historiallisen korpustutkimuksen keinoin
This dissertation studies how the productivity of word-formation varies across social groups in the history of the English language. Previous research into variation and change within the morphological productivity of derivational affixes has been hampered by the lack of suitable methods for comparing productivity measures across subcorpora. A further problem has been how to assess the statistical significance of the differences observed. The latter issue is also present in comparisons of word frequencies in diachronic corpus linguistics: previous work has tended to use tests which make the invalid assumption that words occur randomly in texts. Moreover, the question often arises whether the change observed is linguistic, stylistic or an artefact of the corpus.
The present work explores sociolinguistic variation and change in the morphological productivity of the nominal suffixes -ness and -ity from Early Modern English to Present-day English, using materials such as the Corpora of Early English Correspondence and the British National Corpus. To do this, it employs robust methods to compare item frequencies over time and across social categories. Developed in collaboration with computer scientists, the methods include non-parametric measures of statistical significance as well as visualisations revealing variability within (sub)corpora and facilitating exploration. In addition to research into individual linguistic features, the methods can be used to compare corpora and study genre continuity at the levels of vocabulary and parts of speech.
Besides corpus-linguistic methodology, the work contributes to the theory and description of derivational productivity. Firstly, it shows that each of the social categories studied - gender, social rank, and register in terms of participant relations - may have an influence on productivity, gender being the most consistent factor in the case of -ity. Furthermore, it shows that while productivity measures based on the frequency of hapax legomena, or words occurring only once in the corpus, are unusable in small corpora, they do function as expected in large corpora and remain theoretically valid. These findings should be taken into account in future research, and it is to be hoped that future studies will be significantly facilitated by the methodological contributions presented in this dissertation.Tämä väitöskirja tutkii laajojen elektronisten tekstikorpusten avulla, miten sananmuodostuksen produktiivisuus eli uusien sanojen tuottamisen todennäköisyys vaihtelee eri sosiaaliryhmien välillä englannin kielen historiassa. Kirjassa tarkastellaan, kuinka paljon vaihtelua ja millaisia muutoksia esiintyy englannin substantiivijohtimien -ness ja -ity produktiivisuudessa 1600-luvulta nykypäivään.
Tutkimustulokset osoittavat, että johtimien produktiivisuuteen voivat vaikuttaa kaikki tutkituista sosiaalisista kategorioista: kielenkäyttäjien sukupuoli ja yhteiskuntaluokka sekä viestintätilanteen osallistujien väliset suhteet. Englantiin ranskasta ja latinasta lainautuneen -ity-johtimen kannalta merkittävin kategoria on sukupuoli, sillä johtimen käyttö on miesvaltaista jokaisena aineistojen kattamana aikakautena. Tämä saattaa selittyä sukupuolittuneilla kirjoitustyyleillä. Kotoperäisen -ness-johtimen produktiivisuuden vaihtelu on vähäisempää.
Produktiivisuuden vaihtelua ja muutosta on aiemmin ollut vaikeaa tutkia korpuslingvistisesti, koska mittaustulosten vertailuun ei ole ollut sopivia menetelmiä. Ongelmallista on ollut myös vaihtelun tilastollisen merkitsevyyden määrittäminen. Sama ongelma on vaivannut kielen muutoksen tutkimusta yleisemminkin. Lisäksi on usein epäselvää, liittyykö havaittu muutos kielen vai kirjoitustyylin muuttumiseen, vai johtuuko se aineiston epätasaisuudesta.
Tässä tutkimuksessa käytetään uusia, yhteistyössä tietojenkäsittelytieteilijöiden kanssa kehitettyjä menetelmiä, jotka mahdollistavat kielellisten piirteiden esiintymistiheyden luotettavan vertailun eri ajanjaksojen ja sosiaaliryhmien välillä. Tilastollisen merkitsevyyden mittareiden lisäksi esitellään visualisointimenetelmiä, joiden avulla voidaan perehtyä aineistojen sisäiseen vaihteluun ja löytää uusia tutkimuskohteita. Menetelmiä voidaan käyttää myös aineistojen vertailuun sekä tekstilajien muutoksen tutkimiseen
