23 research outputs found

    Suomalaisten naisopiskelijoiden luennan perustaajuuden muutos 1990-luvulta 2010-luvulle

    Get PDF
    Habitual speaking pitch is both an individual, situational and social variable. A tendency for a lower speaking pitch in women has been reported in various countries during the last century. Changes in speaking pitch are supposed to refl ect changes in the society. Th e present study investigates the commonly used correlates of speaking pitch, the mean and median of fundamental frequency, fo, in neutral text reading (160 words, duration of ca 1 minute) from young 20–25-year-old Finnish female university students in the 1990’s and 2010’s. Th e material was derived from the sound archive of Speech and Voice Research Laboratory at Tampere University. We chose randomly samples from 136 females who did not have any known pathologies of the voice or hearing, and whose voice quality sounded normal. Th e samples were recorded digitally in a well-damped studio using a measuring microphone. Th e analyses were made using Praat soft ware. In the results, a small but signifi cant (Student’s t test p < 0.001) increase in fo was observed (in the 1990’s the fo mean was 195,7 Hz, and in the 2010’s it was 210,6 Hz, while the corresponding values of fo median were 190,9 Hz and 203,2 Hz). Th e change in Finnish female university students’ fo may potentially refl ect the eff ect of foreign languages and global entertainment culture.Puhekorkeus on sekä yksilöllinen ja tilannekohtainen että myös sosiaalinen muuttuja. Eri maissa on viimeisen sadan vuoden aikana raportoitu naisten puhekorkeuden laskua. Puhekorkeuden muutoksen oletetaan heijastelevan yhteiskunnallisia muutoksia. Keskimääräistä puhekorkeutta mitataan usein perustaajuuden keskiarvolla ja mediaanilla. Tässä tutkimuksessa tarkastellaan suomalaisten yliopistossa opiskelevien naisten perustaajuuden (fo) keskiarvoa ja mediaania 160-sanaisessa, noin minuutin mittaisessa neutraalissa tekstiluennassa, joka on äänitetty 1990- ja 2010-luvuilla. Tutkimuksen aineisto on peräisin Tampereen yliopiston Puheen ja äänen tutkimuksen laboratorion äänitearkistosta. Tutkimukseen valittiin satunnaisesti 136 (N) 20–25-vuotiasta naista, joilla ei ollut tiedossa ääntöelimistön tai kuulon sairauksia, ja joiden ääni oli kuulonvaraisesti arvioituna normaali. Näytteet oli taltioitu vaimennetussa äänitysstudiossa digitaalisesti mittamikrofonia käyttäen, ja ne analysoitiin Praat-ohjelmalla. Perustaajuuden keskiarvo näyttää nousseen aiemmasta 195,7 Hz:stä 210,6 Hz:iin ja mediaani 190,9 Hz:stä 203,2 Hz:iin. Muutokset ovat tilastollisesti merkitseviä (Studentin t-testi, p = < 0,001 molemmissa). Vieraiden kielten ja globaalin viihdekulttuurin vaikutus voinee osaltaan selittää muutosta

    Tunne-etsivät-pelin vaikuttavuus lasten sosioemotionaalisen kehityksen tukemisessa

    Get PDF
    Tässä tutkimuksessa kartoitettiin joihinkin kommunikointihäiriöryhmiin kuuluvien 6–10-vuotiaiden lasten taitoja erottaa tunteita puheesta ja kasvoilta ja lisäksi muita tunnetaitoja. Tutkittavina oli 35 lasta, joilla oli jokin autismin kirjon häiriö (useimmiten Aspergerin oireyhtymä), ADHD, kielellinen erityisvaikeus tai kuulovika ja joilla vanhemmat, opettajat ja/tai kuntouttajat olivat havainneet olevan hankaluuksia tunteiden tunnistamisessa. Koeryhmän lapset harjoittelivat tunteiden erottelua ja muita taitoja internetissä pelattavan Tunne-etsivät-pelin avulla kahden kuukauden ajan keskimäärin tunnin viikossa. Taitoja testattiin ennen interventiota, heti sen päätyttyä ja vielä kuukauden kuluttua pelaamisjakson päättymisen jälkeen. Lasten arkipäivän sosioemotionaalisia taitoja tarkasteltiin vanhempien täyttämien kyselylomakkeiden avulla (VAS-arviot tunteiden tunnistamiskyvystä ja Vahvuuksien ja vaikeuksien kyselylomake, SDQ). Koeryhmän lasten tunteiden erottelutaito oli ennen pelaamisjaksoa kaikissa tehtävissä heikompi kuin ikätovereilla (N = 101). Taidot olivat peli-intervention jälkeen kuitenkin tilastollisesti merkitsevästi lähtötilannetta paremmat sekä heti peli-intervention jälkeen että vielä kuukausi sen päättymisestä. Taidot paranivat eri tehtävissä keskimäärin 5–19 prosenttiyksikköä ja ne vastasivat pelijakson päätyttyä ikätovereiden taitoja kaikissa paitsi yhdessä tehtävässä. Vanhempien VAS-asteikolla antamat arviot lapsensa tunteiden tunnistamistaidoista ja SDQ-kyselylomakkeen avulla antamat arviot sosioemotionaalisista vahvuuksista ja vaikeuksista eivät sen sijaan muuttuneet pelaamisjakson jälkeen. Toisin kuin ennen pelaamisjaksoa, peli-intervention jälkeen vanhempien VAS-arviot lapsensa tunteiden tunnistustaidosta kasvoilta vastasivat kuitenkin kohtalaisesti testaustilanteessa todettuja lapsen taitoja FEFA2-testissä ja tehtävässä, jossa oli eroteltava tunteita valokuvista.peerReviewedVertaisarvioit

    Emosfääri: teoreettinen näkökulma ihmisen tunneviestintään kulttuurisessa kontekstissa

    Get PDF
    The paper introduces a theory of “emosphere”. It is based on Yuri Lotman’s concept of semiosphere, where signs get their meanings only in the dialogue across and over their boundaries. This is also the case with the emosphere: the dialogic sphere of emotions exists before a single emotion, e.g. anger becomes anger only when it is distinguished from fear or joy. This dialogue, a continuous process of changes, a layered universe of emotions, forms a hermeneutic circle: new knowledge is filtered by the previously earned knowledge, and vice versa, new knowledge modifies earlier knowledge. The theory of emosphere aims to conceptualize some basic communicational and wider social questions (nature vs. culture, individual vs. universal, and especially their interaction) and to show that sense precedes emotions.Artikkelissa kehitellään emosfäärin teoriaa, joka perustuu Juri Lotmanin ideaan semiosfääristä. Emosfäärillä pyritään erittelemään ja käsitteellistämään ihmisen tunneviestintää kahden dikotomian avulla, jotka ovat universaali ja kulttuurinen sekä intra- ja interpersonaalinen. Keskiössä on näiden ulottuvuuksien rajavyöhykkeillä käytävä dialogi ja sen suhde aikaan. Artikkelissa tutkitaan yhteyksiä Aristoteleen komponentiaalisen tunneteorian ja viimeaikaisen neurotieteen välillä ja korostetaan, että tunne on järjen ja järki tunteen edellytys

    Ylen tv-uutistenlukijoiden puheääni ennen ja jälkeen sosiaalisen median

    Get PDF
    Median jakaman tiedon saavutettavuuteen vaikuttaa keskeisesti se, onko tieto ymmärrettävää. Julkisen puheen laadun tulisi olla sellaista, että sen pystyvät vastaanottamaan ja ymmärtämään tasavertaisesti kaikki. Julkinen puhe edellyttää selkeää artikulaatiota ja sen tulee olla riittävästi tavallisen keskustelupuheen kaltaista, jotta sitä on helppo seurata. Mediakulttuurissa koetut muutokset heijastuvat myös muutoksiin kielessä ja puhetavoissa. Tarkastelemme tässä tutkimuksessa, onko normatiivisena pidetyssä Ylen tv-uutispuheessa tapahtunut muutosta sosiaalisen median tulon jälkeen. Tutkimuksen aineistona on Ylen arkistoista saadut suomen- ja ruotsinkielisten uutistenlukijoiden puhenäytteet aikaväleiltä 1990–1995 ja 2015–2023 (N = 76, miehiä 34, naisia 42; suomenkielisiä 41 ja ruotsinkielisiä 35). Näytteiden akustiset ominaisuudet analysoitiin Praat-ohjelmalla ja ne arvioitiin myös kuuntelukokeessa. Naisten keskimääräisessä uutispuhekorkeudessa emme havainneet muutosta mittaustuloksissa, mutta sen sijaan miesten uutispuheessa puhekorkeus oli noussut ja puhekorkeuden vaihtelu oli lisääntynyt verrattaessa 1990-luvun näytteitä uudempiin näytteisiin. Uutispuheen tempo oli nopeampi 1990-luvulla kuin uudemmissa näytteissä. Puheäänen korkeampien taajuusalueiden äänienergia oli keskiarvoisesti vähentynyt. Äänen yleislaatu arvioitiin molempina tarkasteluajanjaksoina hyväksi. Äänen tiiviys, puheen tauotukset, painotukset ja sävelkorkeusvaihtelun (intonaation) laajuus arvioitiin suuremmiksi kuin keskimäärin ”tavallisten” puhujien. Toimittajan hyvä äänenlaatu toteuttaa osaltaan luotettavan median roolia. Ylen uutispuhe on säilyttänyt tietyn normatiivisuuden, mitä voidaan pitää perusteltuna puheen helpon ja miellyttävän seurattavuuden ja siten viestin tehokkaan välittymisen kannalta. Tässä Yle pyrkii toteuttamaan tiedon saavutettavuutta, ymmärrettävyyttä ja tasa-arvoa.Speaking Voice of the TV News Readers at Yle Before and After Social Media The accessibility of the information shared by the media is essentially affected by understandability of the information. The quality of the public speech has to be receivable and understandable by each member of the society. Articulation has to be clear and conversational enough in order to be easy to follow. Changes in media culture are also reflected in changes in language and the manner of speaking. In this study, we examine whether there are changes in the TV news speech, which is considered as normative, during the last three decades, i.e. before and after social media (time periods 1990–1995 and 2015–2023). The research material consists of speech samples (N = 76; men 34, women 42) from Finnish- (n = 41) and Swedish-speaking (n = 35) newsreaders obtained from the archives of Yle (the Finnish National Broadcasting Company). The samples were analyzed for their acoustic characteristics using the Praat software, and they were also evaluated in a listening test. According to the results, the mean fundamental frequency (f0) and the frequency range of men’s voices have increased in news speech when comparing the samples from the 1990s with the newer samples. In the female samples, the frequency range variation also has increased. The tempo of the news speech was faster in the 1990s than in more recent samples. The average of the voice energy in the higher frequency areas had decreased. Voice quality of the anchors was estimated as better than that of the “ordinary” speakers’ in both time periods studied. Voice balance between soft and tense, voice color, pauses, stress and intonation variation were evaluated larger that in “ordinary” speakers. The good voice quality in news journalists contributes to the role of reliable media. Yle’s news speech has maintained a certain normativity, which is easy and pleasant to follow, and which can be considered as an effective transmission of a message. Media culture has experienced a historical change along with the Internet and many new platforms, enabling different kinds of manners and styles of speaking. The present study shows that these changes have not destabilized the news genre, and normative expression still has its place, especially in the TV news. News journalists’ good voice quality implement the role of trustworthy media as a form of credible communication. Accessibility, understandability and equality are the key words for institutional public speech.fi=vertaisarvioitu|en=peerReviewed

    Emotions in voice. Acoustic and perceptual analysis of voice quality in the vocal expression of emotions

    No full text
    Emootiot äänessä Inhimillinen viestintä sisältää aina emotionaalista informaatiota. Sekä evoluutio, ympäröivä kulttuuri että yksilölliset ominaisuudet ja kokemukset vaikuttavat viestintätapoihimme, niin viestijänä kuin viestin vastaanottajanakin. Emosfäärin käsitettä voidaan käyttää näin muovautuneen emotionaalisen kokemusmaailman kuvaamiseen. Viestiä välittävät puheen sisältö, puhujan ulkoiset piirteet sekä puhujan äänenlaatu. Entuudestaan tiedetään, että äänen perustaajuudella (F0, Hz) ja äänenpainetasolla (SPL, dB) sekä ilmaisun kestosuhteilla on vaikutusta tunteiden välittämisessä. Sen sijaan äänenlaatua on tässä suhteessa tutkittu varsin vähän. Tämän tutkimuksen tavoitteena oli selvittää, mitä vaikutuksia äänenlaadun eri akustisilla ominaisuuksilla on emootioiden välittämisessä ja onko emootioita ilmaisevasta luennasta eristetty yksittäinen pääpainollinen vokaali (~150 ms) riittävä signaali emootion tai sen valenssin (positiivisuuden, neutraalisuuden tahi negatiivisuuden) havaitsemiseen. Lisäksi tutkittiin, voiko yhdeltä sävelkorkeudelta tuotetusta vokaalista (~2400 ms) tunnistaa eri tunnetiloja. Tavoitteena oli selvittää, voiko emootioilmaisu olla sävelkorkeusvaihteluista riippumatonta. Selvitettiin myös, onko sukupuolten välillä eroja emootioiden ilmaisussa tai vastaanotossa. Tämän perustutkimuksen tuloksia voidaan soveltaa äänenkäytön ja puhetekniikan kouluttamisessa. Lisäksi tietoa emotionaalisen ilmaisun äänellisistä piirteistä voidaan hyödyntää puheteknologiassa, kuten puhujan- ja puheentunnistuksen ja synteesin kehittämisessä. Näitä voidaan parantaa, kun käytettävissä on enemmän tietoa yksilöllisistä variaatiomahdollisuuksista äänisignaalissa ja tunneilmausten vastaanottoon liittyvästä merkityksestä. Akustisena ilmiönä äänenlaatu tarkoittaa äänienergian jakautumista taajuusasteikolle. Äänenlaatua voidaan tarkastella kahdella tasolla, äänilähteen (äänihuulivärähtelyn tuottama jaksollinen ilmavirtausvaihtelu) ja suotimen (ääniväylän resonanssit eli formantit, jotka vaihtelevat artikulaation mukaan) tasolla. Tutkimusmateriaalina käytettiin näyttelijöiden tuottamia emootionäytteitä, joille tehtiin akustiset ja tilastolliset analyysit. Yhteensä neljän osatutkimuksen kuuntelukokeisiin osallistui kuhunkin 30, 40 tai 50 kuuntelijaa. Kuuntelukokeiden tulokset analysoitiin tilastollisesti. Lisäksi vertailtiin kuuntelukokeen ja tietokonetunnistuksen välisiä eroja emootioiden tunnistamisessa. Tulokseksi saatiin, että valenssi välittyi lyhyistä (~150 ms) näytteistä ja että yhdeltä sävelkorkeudelta ilmaistuista vokaaleista (~2400 ms) pystyttiin nimeämään eri emootiot. Tosin eri vokaaleilla oli keskenään erilainen kyky välittää emotionaalista informaatiota, esimerkiksi [u:] välitti parhaiten surua ja [a:] hellyyttä. Viha tunnistettiin hyvin kaikista tutkituista vokaaleista. Formanttitaajuudet yhdistettiin valenssin vastaanottoon [a:]-vokaalista niin, että hieman korkeammat resonanssitaajuudet tulkittiin välittävän positiivisempaa sointiväriä kuin vähän matalammat taajuudet. Lähdeäänellä (äänihuulivärähtelyllä) näytti olevan osin itsenäinen rooli emootioilmaisussa niin, että sen vaihtelut eivät olleet ainoastaan sidoksissa äänen perustaajuuden tai äänenpainetason vaihteluihin. Tietokoneen automaattinen emootioluokittelu näytti hyödyntävän parhaiten sellaisia muuttujia, joilla ei ollut merkitsevyyttä kuuntelukokeessa. Näin ollen tietokone ja kuuntelijat käyttivät tunteiden erottelussa erilaista informaatiota hyväkseen. Automaattinen emootioluokittelu antoi jonkin verran paremman tuloksen kuin kuuntelukoe, mutta se ei kuitenkaan tunnistanut yhtä hyvin vihaa kuin koehenkilöt. Sen sijaan ilon se taas tunnisti kuuntelijoita paremmin. Naiset tunnistivat emootiot hiukan paremmin kuin miehet (52 % / 48 %), mutta tällä ei ollut tilastollista merkitsevyyttä. Sen sijaan miehet jättivät vastaamatta tilastollisesti merkitsevästi useammin esitettyihin näytteisiin kuin naiset. Tämä saattaa kertoa miesten suuremmasta epävarmuudesta emotionaalisen informaation vastaanotossa. Sukupuolten välisiä eroja tunnetilojen vastaanottamisessa olisi syytä tutkia tarkemmin, esimerkiksi aivotutkimuksen keinoin. Puheeseen liittyvän emootioilmaisun moniulotteisuus näkyi suurina yksilöllisinä eroina. Muuttujien erilaisten yhdistelmien vaikutukset kuulohavaintoon vaatisivat jatkotutkimusta. Äänilähteen ja ääniväylän vaikutusten välistä suhdetta eri vokaaleissa on syytä tutkia jatkossa synteesin avulla, mikä mahdollistaa halutunasteiset muutokset pelkästään valituissa muuttujissa. Väitöstutkimus koostuu neljästä julkaistusta artikkelista. Tutkimus tehtiin yhteistyöprojektina Helsingin Teknillisen korkeakoulun Signaalinkäsittelyn ja akustiikan laitoksen sekä Oulun yliopiston MediaTeamin kanssa.The vocal interaction plays a central role in the interpersonal communication situations and it tends to be more or less coloured by emotions. The emotional development of an individual is influenced both by universal and cultural and by intra- and interpersonal aspects. This continuum of the emotional development is called emosphere and it can be described in a four-dimensional field. Prosodic variables like fundamental frequency (F0), sound pressure level (SPL or Leq) and temporal aspects such as word pause relation, duration of a phoneme or a syllable have largely been studied in relation to emotional expressions. The role of voice quality, instead, has been studied far less. Voice quality is a combination of two factors, the voice source (vibrating vocal folds) and vocal tract function (resonances, i.e. formants). Both of these factors are seen in the manner sound energy is distributed along the frequency range in the spectrum. According to earlier findings, the recognition of vocal emotional information takes place within the first 100-150 ms of the expression and primarily appears to be based on voice quality. Perception of valence (positive, negative or neutral colouring of the voice) is even faster than cognitive identification of an actual emotion. In order to find out what kind of role, if any, voice quality plays in emotional communication, the effect of pitch variation was eliminated by using short samples (~ 100 2, 500 ms) in every study of this dissertation. This strict definition for the research object seemed justified since the technical equipment used in speech and speaker recognition and other applications (e.g. applications for disabled people) are developing fast and more detailed knowledge of ever smaller units is needed in order to create more natural sound quality. The results of the present study may also be used as basic knowledge for emotional voice production in the education of vocologists, speech communication researchers and actors. In the Article I the interest was to see if there were voice quality parameters which may affect the perception of emotional valence and psycho-physiological activity level other than those frequently studied speech prosodic characteristics, F0, Leq and duration. In the Article II the aim was to investigate whether there were differences between human listeners and computer classification of the emotional stimuli and what kind of differences they might be. The third study reported in Article III investigated the role of F3 in conveyance of emotional valence using semi-synthesized vowels with F3 modifications. The last fourth investigation Article IV focused on perception of emotional qualities in mono-pitched expressions of different vowels. The speech data for the first and second studies were collected from professional actors who read a text expressing sadness, joy, anger, tenderness and a neutral emotional state in random order. A stress-carrying vowel [a:] in a Finnish word taakkahan was extracted for analyses. In the third study, some of the [a:] samples derived from the first study, were used as material for semi-synthesis, where F3 was raised in frequency, and lowered, and removed completely, otherwise the spectral structures were intact. For the fourth study student actors produced three mono-pitched prolonged vowels [a:], [i:] and [u:] expressing five emotional states in random order. The emotionally expressed vowel samples were presented to 30, 40 or 50 listeners whose task was to note which emotion or valence (positive, neutral or negative) they heard. The samples were analyzed for their acoustic characteristics, and statistical analyses were made. The acoustic variable relations to the valence and psycho-physiological activity level perceived were studied. In the second study, the results of the listening test were compared to the results of the automatic classification test. Confusion matrices were created for the intended and perceived emotions in the human evaluation test and in the automatic emotion classification experiment. It was concluded that: 1. It appeared to be possible to identify emotional valence from vowel samples as short as on average 150 ms in duration and the actual emotions from vowel samples on average 2400 ms in duration. 2. The automatic classification of emotional phoneme-length stimuli has also been shown to be possible with a good accuracy rate. Human listeners accuracy in recognizing emotional content in speech was clearly below the computer classification. 3. Voice source did not only reflect variations of F0 and Leq but appeared to have an independent role in expression, reflecting phonation types. 5. Formant frequencies F1, F2, F3 and F4 were related to the valence perceived in vowel [a:]. The perception of positive valence tended to be associated with a higher frequency of F3 but no clear pattern could be detected, probably reflecting the differences in formant use on different activity levels. 6. Mono-pitched vowels [a:], [i:] and [u:] differed in their capacity to carry emotional information: [a:] conveyed better anger, tenderness and neutrality than the other two vowels; Anger was conveyed well by all vowels studied; Joy was slightly better recognized in vowel [i:] than in [a:] but distinctively better in [i:] than in [u:]; However, sadness was signalled well by both [i:] and [u:] vowels. In vowels [i:] and [u:] Leq was the only statistically significant variable in emotional expressions. This may be due to different use of voice source and filter characteristics in different vowels or due to the fact that the same phonatory or articulatory characteristics have different acoustic consequences in the vocal tract setting in different vowels. 7. In both genders, psycho-physiological activity level was coded mainly through Leq. 8. Perception of valence tends to be a complex multilevel parameter with wide individual variations (i.e. due to differences in the individual emosphere). 9. The perceptual effects of the interplay between voice source and formant frequencies in different vowels warrant further study by modified synthetic samples yet preserving natural sound. 10. There may be more hesitation in males than females in making decisions on the quality of emotional information perceived. Whether the reason for this is simply motivational or due to gender differences in brain processing warrants further study

    Emootiot äänessä : tunneilmaisun akustiset ominaisuudet ja vastaanotto

    Get PDF
    Lectio praecursoria puheopin väitöskirjaksi tarkoitetun tutkimuksen Emotions in voice. Acoustic and perceptual analysis of voice quality in the vocal expression of emotions tarkastustilaisuudessa Tampereen yliopistossa 8.5.2009. Vastaväittäjänä toimi professori Olli Aaltonen (Helsingin yliopisto) ja kustoksena professori Anna-Maija Korpijaakko-Huuhka

    Emotions in voice. Acoustic and perceptual analysis of voice quality in the vocal expression of emotions

    No full text
    Emootiot äänessä Inhimillinen viestintä sisältää aina emotionaalista informaatiota. Sekä evoluutio, ympäröivä kulttuuri että yksilölliset ominaisuudet ja kokemukset vaikuttavat viestintätapoihimme, niin viestijänä kuin viestin vastaanottajanakin. Emosfäärin käsitettä voidaan käyttää näin muovautuneen emotionaalisen kokemusmaailman kuvaamiseen. Viestiä välittävät puheen sisältö, puhujan ulkoiset piirteet sekä puhujan äänenlaatu. Entuudestaan tiedetään, että äänen perustaajuudella (F0, Hz) ja äänenpainetasolla (SPL, dB) sekä ilmaisun kestosuhteilla on vaikutusta tunteiden välittämisessä. Sen sijaan äänenlaatua on tässä suhteessa tutkittu varsin vähän. Tämän tutkimuksen tavoitteena oli selvittää, mitä vaikutuksia äänenlaadun eri akustisilla ominaisuuksilla on emootioiden välittämisessä ja onko emootioita ilmaisevasta luennasta eristetty yksittäinen pääpainollinen vokaali (~150 ms) riittävä signaali emootion tai sen valenssin (positiivisuuden, neutraalisuuden tahi negatiivisuuden) havaitsemiseen. Lisäksi tutkittiin, voiko yhdeltä sävelkorkeudelta tuotetusta vokaalista (~2400 ms) tunnistaa eri tunnetiloja. Tavoitteena oli selvittää, voiko emootioilmaisu olla sävelkorkeusvaihteluista riippumatonta. Selvitettiin myös, onko sukupuolten välillä eroja emootioiden ilmaisussa tai vastaanotossa. Tämän perustutkimuksen tuloksia voidaan soveltaa äänenkäytön ja puhetekniikan kouluttamisessa. Lisäksi tietoa emotionaalisen ilmaisun äänellisistä piirteistä voidaan hyödyntää puheteknologiassa, kuten puhujan- ja puheentunnistuksen ja synteesin kehittämisessä. Näitä voidaan parantaa, kun käytettävissä on enemmän tietoa yksilöllisistä variaatiomahdollisuuksista äänisignaalissa ja tunneilmausten vastaanottoon liittyvästä merkityksestä. Akustisena ilmiönä äänenlaatu tarkoittaa äänienergian jakautumista taajuusasteikolle. Äänenlaatua voidaan tarkastella kahdella tasolla, äänilähteen (äänihuulivärähtelyn tuottama jaksollinen ilmavirtausvaihtelu) ja suotimen (ääniväylän resonanssit eli formantit, jotka vaihtelevat artikulaation mukaan) tasolla. Tutkimusmateriaalina käytettiin näyttelijöiden tuottamia emootionäytteitä, joille tehtiin akustiset ja tilastolliset analyysit. Yhteensä neljän osatutkimuksen kuuntelukokeisiin osallistui kuhunkin 30, 40 tai 50 kuuntelijaa. Kuuntelukokeiden tulokset analysoitiin tilastollisesti. Lisäksi vertailtiin kuuntelukokeen ja tietokonetunnistuksen välisiä eroja emootioiden tunnistamisessa. Tulokseksi saatiin, että valenssi välittyi lyhyistä (~150 ms) näytteistä ja että yhdeltä sävelkorkeudelta ilmaistuista vokaaleista (~2400 ms) pystyttiin nimeämään eri emootiot. Tosin eri vokaaleilla oli keskenään erilainen kyky välittää emotionaalista informaatiota, esimerkiksi [u:] välitti parhaiten surua ja [a:] hellyyttä. Viha tunnistettiin hyvin kaikista tutkituista vokaaleista. Formanttitaajuudet yhdistettiin valenssin vastaanottoon [a:]-vokaalista niin, että hieman korkeammat resonanssitaajuudet tulkittiin välittävän positiivisempaa sointiväriä kuin vähän matalammat taajuudet. Lähdeäänellä (äänihuulivärähtelyllä) näytti olevan osin itsenäinen rooli emootioilmaisussa niin, että sen vaihtelut eivät olleet ainoastaan sidoksissa äänen perustaajuuden tai äänenpainetason vaihteluihin. Tietokoneen automaattinen emootioluokittelu näytti hyödyntävän parhaiten sellaisia muuttujia, joilla ei ollut merkitsevyyttä kuuntelukokeessa. Näin ollen tietokone ja kuuntelijat käyttivät tunteiden erottelussa erilaista informaatiota hyväkseen. Automaattinen emootioluokittelu antoi jonkin verran paremman tuloksen kuin kuuntelukoe, mutta se ei kuitenkaan tunnistanut yhtä hyvin vihaa kuin koehenkilöt. Sen sijaan ilon se taas tunnisti kuuntelijoita paremmin. Naiset tunnistivat emootiot hiukan paremmin kuin miehet (52 % / 48 %), mutta tällä ei ollut tilastollista merkitsevyyttä. Sen sijaan miehet jättivät vastaamatta tilastollisesti merkitsevästi useammin esitettyihin näytteisiin kuin naiset. Tämä saattaa kertoa miesten suuremmasta epävarmuudesta emotionaalisen informaation vastaanotossa. Sukupuolten välisiä eroja tunnetilojen vastaanottamisessa olisi syytä tutkia tarkemmin, esimerkiksi aivotutkimuksen keinoin. Puheeseen liittyvän emootioilmaisun moniulotteisuus näkyi suurina yksilöllisinä eroina. Muuttujien erilaisten yhdistelmien vaikutukset kuulohavaintoon vaatisivat jatkotutkimusta. Äänilähteen ja ääniväylän vaikutusten välistä suhdetta eri vokaaleissa on syytä tutkia jatkossa synteesin avulla, mikä mahdollistaa halutunasteiset muutokset pelkästään valituissa muuttujissa. Väitöstutkimus koostuu neljästä julkaistusta artikkelista. Tutkimus tehtiin yhteistyöprojektina Helsingin Teknillisen korkeakoulun Signaalinkäsittelyn ja akustiikan laitoksen sekä Oulun yliopiston MediaTeamin kanssa.The vocal interaction plays a central role in the interpersonal communication situations and it tends to be more or less coloured by emotions. The emotional development of an individual is influenced both by universal and cultural and by intra- and interpersonal aspects. This continuum of the emotional development is called emosphere and it can be described in a four-dimensional field. Prosodic variables like fundamental frequency (F0), sound pressure level (SPL or Leq) and temporal aspects such as word pause relation, duration of a phoneme or a syllable have largely been studied in relation to emotional expressions. The role of voice quality, instead, has been studied far less. Voice quality is a combination of two factors, the voice source (vibrating vocal folds) and vocal tract function (resonances, i.e. formants). Both of these factors are seen in the manner sound energy is distributed along the frequency range in the spectrum. According to earlier findings, the recognition of vocal emotional information takes place within the first 100-150 ms of the expression and primarily appears to be based on voice quality. Perception of valence (positive, negative or neutral colouring of the voice) is even faster than cognitive identification of an actual emotion. In order to find out what kind of role, if any, voice quality plays in emotional communication, the effect of pitch variation was eliminated by using short samples (~ 100 2, 500 ms) in every study of this dissertation. This strict definition for the research object seemed justified since the technical equipment used in speech and speaker recognition and other applications (e.g. applications for disabled people) are developing fast and more detailed knowledge of ever smaller units is needed in order to create more natural sound quality. The results of the present study may also be used as basic knowledge for emotional voice production in the education of vocologists, speech communication researchers and actors. In the Article I the interest was to see if there were voice quality parameters which may affect the perception of emotional valence and psycho-physiological activity level other than those frequently studied speech prosodic characteristics, F0, Leq and duration. In the Article II the aim was to investigate whether there were differences between human listeners and computer classification of the emotional stimuli and what kind of differences they might be. The third study reported in Article III investigated the role of F3 in conveyance of emotional valence using semi-synthesized vowels with F3 modifications. The last fourth investigation Article IV focused on perception of emotional qualities in mono-pitched expressions of different vowels. The speech data for the first and second studies were collected from professional actors who read a text expressing sadness, joy, anger, tenderness and a neutral emotional state in random order. A stress-carrying vowel [a:] in a Finnish word taakkahan was extracted for analyses. In the third study, some of the [a:] samples derived from the first study, were used as material for semi-synthesis, where F3 was raised in frequency, and lowered, and removed completely, otherwise the spectral structures were intact. For the fourth study student actors produced three mono-pitched prolonged vowels [a:], [i:] and [u:] expressing five emotional states in random order. The emotionally expressed vowel samples were presented to 30, 40 or 50 listeners whose task was to note which emotion or valence (positive, neutral or negative) they heard. The samples were analyzed for their acoustic characteristics, and statistical analyses were made. The acoustic variable relations to the valence and psycho-physiological activity level perceived were studied. In the second study, the results of the listening test were compared to the results of the automatic classification test. Confusion matrices were created for the intended and perceived emotions in the human evaluation test and in the automatic emotion classification experiment. It was concluded that: 1. It appeared to be possible to identify emotional valence from vowel samples as short as on average 150 ms in duration and the actual emotions from vowel samples on average 2400 ms in duration. 2. The automatic classification of emotional phoneme-length stimuli has also been shown to be possible with a good accuracy rate. Human listeners accuracy in recognizing emotional content in speech was clearly below the computer classification. 3. Voice source did not only reflect variations of F0 and Leq but appeared to have an independent role in expression, reflecting phonation types. 5. Formant frequencies F1, F2, F3 and F4 were related to the valence perceived in vowel [a:]. The perception of positive valence tended to be associated with a higher frequency of F3 but no clear pattern could be detected, probably reflecting the differences in formant use on different activity levels. 6. Mono-pitched vowels [a:], [i:] and [u:] differed in their capacity to carry emotional information: [a:] conveyed better anger, tenderness and neutrality than the other two vowels; Anger was conveyed well by all vowels studied; Joy was slightly better recognized in vowel [i:] than in [a:] but distinctively better in [i:] than in [u:]; However, sadness was signalled well by both [i:] and [u:] vowels. In vowels [i:] and [u:] Leq was the only statistically significant variable in emotional expressions. This may be due to different use of voice source and filter characteristics in different vowels or due to the fact that the same phonatory or articulatory characteristics have different acoustic consequences in the vocal tract setting in different vowels. 7. In both genders, psycho-physiological activity level was coded mainly through Leq. 8. Perception of valence tends to be a complex multilevel parameter with wide individual variations (i.e. due to differences in the individual emosphere). 9. The perceptual effects of the interplay between voice source and formant frequencies in different vowels warrant further study by modified synthetic samples yet preserving natural sound. 10. There may be more hesitation in males than females in making decisions on the quality of emotional information perceived. Whether the reason for this is simply motivational or due to gender differences in brain processing warrants further study

    Finnish male university students' mean fundamental frequency in text reading in the 1990's and 2010's

    Get PDF
    Puhekorkeus vaihtelee yksilön, tilanteen ja kulttuurin mukaan. Puhekorkeudessa tapahtuvat muutokset eri aikakausina saattavat heijastaa kulttuurin muutoksia. Koska puheen sisältö ja puhetilanne vaikuttavat puhekorkeuteen, on neutraalin tekstiluennan perustaajuuskeskiarvoa käytetty väljästi puhujan totunnaisen neutraalin puhekorkeuden estimaattina. Viimeaikaisessa tutkimuksessamme havaitsimme, että nuorten suomalaisten yliopistossa opiskelevien naisten luennan perustaajuus on merkitsevästi noussut viimeksi kuluneiden vuosikymmenten aikana. Tämä tutkimus keskittyy miehiin. Valitsimme Puheen ja äänen tutkimuksen laboratorion studioäänitearkistosta satunnaisesti 40–60 sekunnin mittaisen luentanäytteen 95:ltä mieheltä (ikä Md 24v, VV 19-30 v) 1990-luvulta ja 2010-luvulta. Miehillä ei ollut tiedossa olevia äänen tai kuulon häiriöitä, ja heidän äänensä arvioitiin kuunteluanalyysillä normaaliksi. Näytteiden perustaajuusanalyysi suoritettiin Praat-ohjelmalla. Miesten perustaajuus oli 1990-luvulla keskimäärin 108 Hz (KH 16,9 Hz) ja 2010-luvulla 111 Hz (KH 12,8 Hz). Näytekohtainen perustaajuuden keskihajonta oli keskimäärin 2,7 psa (KH 0,68 psa) ja 2,9 psa (KH 0,78 psa). Erot eivät olleet tilastollisesti merkitseviä (riippumattomien muuttujien Studentin t-testi, p > 0,05). Tulosten perusteella miesten puhekorkeudessa ei näytä tapahtuneen merkitsevää muutosta tutkitulla aikavälillä.Speaking pitch varies individually and according to situation and culture. Average changesin the speaking pitch may reflect changes in the culture. As the content of speech and the situation largely affect pitch, the mean fundamental frequency (fo) of neutral text reading has been used as a rough estimate of habitual neutral speaking pitch. Our recent study showed that the mean fo in text reading of young Finnish female university students has significantly increased during the last three decades. This study focuses on males. The material was obtained from the archive of studio recordings made at the Speech and Voice Research Laboratory in Tampere University. Text reading samples (duration 40–60 sec) from 95 Finnish male university students (age Md 24 years, range 19-30 years) were included. The students had not reported any voice or hearing problems, and the voice quality in the samples was evaluated to be normophonic. The samples were analyzed using Praat. On average, the mean fo of the males in the 1990’s was 108 Hz (SD 16.9 Hz) and 111 Hz (SD 12.8 Hz) in the 2010’s. Mean within sample standard deviation for fo (in semitones) was 2.7 st (SD 0.68 st) and 2.9 st (SD 0.78 st), respectively. The differences were not statistically significant (Independent samples Student’s t-test, p > 0.05). The results seem to suggest that the speaking pitch of young Finnish males has not changed significantly during the time period studied
    corecore