Tämän tutkimuksen tarkoituksena oli selvittää, miten kasvojen kääntäminen ylösalaisin vaikuttaa audiovisuaalisen puheen havaitsemiseen ja erityisesti audiovisuaalisessa puheessa tapahtuvaan aistitiedon yhdistämiseen. Tiedetään, että kasvojen havaitsemisessa on käytössä erikoistuneita mekanismeja, ja on esitetty, että kasvojen kääntäminen ylösalaisin estäisi pääsyn näihin mekanismeihin. Toisaalta tiedetään, että puheen havaitseminen on niin ikään erikoistunut prosessi, jossa aistitiedon yhdistäminen on voimakasta. Tutkimuksessa haluttiin selvittää, onko voimakas aistitiedon yhdistäminen audiovisuaalisen puheen havaitsemisessa yksi tällaisista erikoistuneista mekanismeista, jota ei pystytä hyödyntämään kasvoärsykkeen muuttuessa.
Oikeinpäin ja ylösalaisin esitettyjen kasvoärsykkeiden audiovisuaalisen integraation mahdollista eroa tutkittiin psykofysiikan menetelmin summaatiokoeasetelmassa. Tutkimuksessa mitattiin yksi- ja moniaistisia erotuskynnyksiä, jolla kaksi tavua [pa] ja [ka] erotetaan toisistaan audiovisuaalisessa kohinassa. Erotuskynnyksiin sovitettiin Minkowski-metriikka, josta pystytään johtamaan erilaisia summaatiomalleja sille, miten aistitiedon yhdistäminen tapahtuu.
Tutkimuksen tulosten perusteella visuaalisen puheen havaitseminen oli vaikeampaa ylösalaisin esitetyillä kasvoilla, mutta oikeinpäin ja ylösalaisin havaitut kasvoärsykkeet eivät eronneet toisistaan audiovisuaalisen integraation suhteen. Tutkimuksen tulokset ovat yhdenmukaisia aikaisemman käsityksen kanssa siitä, että visuaalisen puheen havaitseminen heikentyy huomattavasti kasvojen ollessa ylösalaisin. Aikaisempi tutkimus aistitiedon yhdistämisestä audiovisuaalisessa puheessa samankaltaisella asetelmalla on vähäistä. Tämä tutkimus viittaisi siihen, että nähtyä ja kuultua puhetta yhdistetään samalla tavalla sekä oikeinpäin että ylösalaisissa kasvoissa. Vaikuttaisi siltä, ettei audiovisuaalisessa puheessa ilmenevä voimakas summaatio nojaa niihin mekanismeihin, jotka inversioefektissä heikentyvät.The purpose of this study was to examine how inverting the face upside down impacts the perception of audiovisual speech and especially the integration of sensory information during such speech perception. It is well known that face perception involves specialized mechanisms, and it has been suggested that inverting the face would impair the use of to these mechanisms. On the other hand, speech perception is also known to be a specialized process, categorized by a strong audiovisual summation. The aim of this study was to find out whether the strong integration of sensory information in the perception of audiovisual speech is one such specialized mechanism that impairs when the face is inverted.
The potential difference in audiovisual summation between upright and inverted faces was investigated using subthreshold summation paradigm. In this paradigm, single and multisensory discrimination thresholds were measured by presenting subjects video clips of spoken syllables [pa] and [ka] masked with audiovisual noise. The task was to identify which of the syllables were presented. Then, by fitting the Minkowski metric to the separation thresholds it is possible to derive different summation models that describe the strength of summation.
The study’s results suggest that visual speech perception was poorer when the faces were perceived upside down. However, the audiovisual summation was equally strong for both upright and inverted faces. These results align with the previous knowledge that visual speech perception is considerably impaired when the face is inverted. While there is limited previous research on the effect of inversion on audiovisual summation using a similar setup, this study indicates that auditory and visual speech are combined in the same manner for both upright and inverted faces. Therefore, it seems, that the mechanisms responsible for the strong summation taken place in audiovisual speech perception appear to be distinct from those processes that are impaired in face inversion