    Disambiguating human spoken diary entries using context information

    The EPA has commissioned studies to gather fine-grained time / activity / location / exposure data from a diverse cross-section of the population. The information is recorded into digital voice diaries and transcribed by a human for classification into a standard representational system, the Consolidated Human Activity Database. Analysis of the diary entries is a long and tedious process for a human encoder. Automating the process and providing useful information can greatly assist a human encoder in correctly classifying the diary entries. This paper will discuss utilizing Natural Language Processing (NLP) techniques to analyze spoken diary entries and classify the locations and activities into semantic categories. There will be three main foci that form the hypotheses of the study: improving diary classification accuracy using context information, using thresholds to balance precision and recall tradeoffs, and utilizing the CHAD database structure to improve accuracy by generalizing the semantic ontologies. The word and context based system shows the relevance of using context information to improve CHAD code classification by using the surrounding diary entry context to augment the word analysis of the diary entries. The threshold-based system shows relative difference levels between top scoring CHAD codes can be utilized to balance tradeoffs between precision and recall. The semantic ontology system shows that generalizing semantic ontologies by employing the CHAD database structure can improve classification accuracy by reducing granularity

    The corporate blog as an emerging genre of computer-mediated communication: features, constraints, discourse situation

    Digital technology is increasingly impacting how we keep informed, how we communicate professionally and privately, and how we initiate and maintain relationships with others. The function and meaning of new forms of computer-mediated communication (CMC) is not always clear to users on the onset and must be negotiated by communities, institutions and individuals alike. Are chatrooms and virtual environments suitable for business communication? Is email increasingly a channel for work-related, formal communication and thus "for old people", as especially young Internet users flock to Social Networking Sites (SNSs)? Cornelius Puschmann examines the linguistic and rhetorical properties of the weblog, another relatively young genre of CMC, to determine its function in private and professional (business) communication. He approaches the question of what functions blogs realize for authors and readers and argues that corporate blogs, which, like blogs by private individuals, are a highly diverse in terms of their form, function and intended audience, essentially mimic key characteristics of private blogs in order to appear open, non-persuasive and personal, all essential qualities for companies that wish to make a positive impression on their constituents.

    Linguistic Representation and Processing of Copredication

    This thesis addresses the lexical and psycholinguistic properties of copredication. In particular, it explores its acceptability, frequency, crosslinguistic and electrophysiological features. It proposes a general parsing bias to account for novel acceptability data, through which Complex-Simple predicate orderings are degraded across distinct nominal types relative to the reverse order. This bias, Incremental Semantic Complexity, states that the parser seeks to process linguistic representations in incremental stages of semantic complexity. English and Italian acceptability data are presented which demonstrate that predicate order preferences are based not on sense dominance but rather sense complexity. Initial evidence is presented indicating that pragmatic factors centred on coherence relations can impact copredication acceptability when such copredications host complex (but not simple) predicates. The real-time processing and electrophysiological properties of copredication are also presented, which serve to replicate and ground the acceptability dynamics presented in the thesis

    Text Types in Personal Chronic Pain Blogs : Variation of Werlich's Text-Typical Clause Structures

    Tiivistelmä – Referat – Abstract Tutkimuksessa määritetään kroonisen kivun henkilökohtaisissa englanninkielisissä blogeissa esiintyvät yleisimmät tekstityypit. Määrittely kuvaa Werlichin tekstityypillisen lausemuodon yleisyyttä kertovana, kuvailevana, perustelevana, erittelevänä tai ohjailevana tekstityyppinä blogitekstin lauseissa sekä tekstiryhmätasolla. Lisäksi arvioidaan tekstityyppien yleisyyttä sosiolingvistisestä näkökulmasta blogikirjoittajien kolmen tilastollisen ominaisuuden vaikutuksena tekstityyppien esiintymiseen. Työssä tekstityyppi määritellään lausetasolla tiettyjä lauserakennemuotoja edustaviksi luokiksi, jotka kuvastavat kirjoittajan keskittymistä tiettyyn tapaan jäsentää havaintoja. Tekstityyppi määritellään tekstin kielipiirteitä kuvaavaksi luokaksi erotuksena tekstin käyttötapaan perustuvaan genreluokitteluun. Kroonisen kivun blogien tekstityyppejä ei ole tutkittu vaikka krooninen kipu on yleinen tila aikuisväestössä. Tutkimuksissa on todettu kirjoittajien hyötyvän kipublogeista kivunhallinnassa. Lisäksi on tunnistettu useita kipublogien kirjoittamisen tavoitteita, joiden on todettu muuttuvan ajan mittaan osalla kirjoittajista. Aiemmissa blogitekstien luokitteluissa on tunnistettu kaksi yleistä blogityyppiä, joita määrittävät kielipiirteet havaitaan osittain lausetason tekstityyppejä vastaaviksi. Tutkimusmenetelmänä käytettiin tekstilingvististä yhdistelmää tekstityyppien laadullisesta lauseanalyysistä ja määrällisestä kokotekstianalyysistä sekä määrällistä sosiolingvististä tilastollisten muuttujien analyysiä. Tarkasteltavien blogitekstien aineisto koostuu 26:sta kokonaisesta blogitekstistä. Kirjoittajia on 13 ja jokaiselta on kaksi blogitekstiä. Analysoitavia lauseita on 1068. Lähdeblogit valittiin tekstitietokantaan lumipallo-otannalla ja tarkoituksellisella otannalla, joissa valintakriteerinä olivat kirjoittajan krooninen kipu ja toimiminen blogin ainoana kirjoittajana. Tuloksissa huomataan lausetasolla tekstityyppiluokkien määritelmien osittainen päällekkäisyys. Yleisimmiksi tekstityypeiksi muodostuvat väittävän, ohjeistavan ja kertovan tekstityypin yhdistelmät, joista väittävä tyyppi on yllättävän vallitseva. Tekstityyppien osuuksien vaihtelu ei työssä selity kirjoittajan tilastollisten ominaisuuksien vaihtelulla, koska tilastollinen tarkastelu nähdään pienen otannan takia vain suuntaa antavana. Lisätutkimusta toivotaan tekstin lausekohtaisista aiheista ja tekstityypeistä yhdistämällä sisältöanalyysiä ja tekstilingvistiikkaa. Lisäksi ehdotetaan kipublogitekstien tutkimista vertailemalla tekstien hierarkkisia ja vaihemaisia rakennepiirteitä, kuten lauseen Teema-Reema aiheita.This study describes personal chronic pain blog entries written in English by defining the common text types in the blogs. Text types are defined as text-classifying tools that combine a clause-level structural perspective and a whole-text level category perspective. On the clause level, each clause is defined as representing one of five Werlich's text types that reflect author focus on cognitive processes. The study also explores the effect of author socio-demographic attributes of gender, age and duration of chronic pain on the text types identfied in the analysis. Chronic pain is a common health condition that also affects the sufferer’s focus of attention. The text types in chronic pain blogs have not been studied even though studies have found that blog writing has therapeutic effects on pain management for chronic pain sufferers. Studies have also identified several purposes for writing chronic pain blogs. The purposes have been found to change for some of the chronic pain blog writers. Previous studies on blog types suggest two common text types. A combined qualitative-quantitative analysis of text-typical clauses and blog entries was conducted on a sample of 26 whole-text entries. The sample consists of two entries from 13 authors with total of 1068 clauses. Additionally, a socio-linguistic variable analysis was conducted with text types as dependent variables and author attributes as independent variables. The data was gathered with a combined purposive-snowball method with author chronic pain condition and personal authorship as sample selection criteria. The results show some overlapping analytical criteria for clause-level text types. The most frequent text types are identified as combinations of argumentation, instruction and narration with argumentation being surprisingly high in prevalence. The text-typical variation does not seem to be an effect of a specific author variable although the socio-linguistic analysis is not proved as statistically significant because of the small sample size. Further study on text types is suggested in a combined interpersonal feature and text type analysis of chronic pain blog entries. A different approach is also suggested in identification and comparison of hierarchical and text-organizational features such as Theme-Rheme analysis of clauses