research

Frühe Prozesse der Gesichtserkennung

Abstract

0\. TITLE PAGE, TABLE OF CONTENTS, ACKNOWLEDGMENTS 1\. INTRODUCTION 1 1.1. Subgoals, goals and limitations 1 1.2. We cannot help seeing them: Our world is full of faces 1 1.3. Importance of face recognition 3 1.4. Applications 3 2\. FACE RECOGNITION 4 2.1. Why investigating face recognition? 4 2.2. Expertise 5 2.3. Impressive abilities 9 3\. MODELS OF FACE PROCESSING 14 3.1. Different kinds of information 14 3.2. Face processing 33 4\. EMPIRICAL STUDIES 49 4.1. Open questions 49 4.2. Methodological Introduction 50 4.3. Experiments with unfamiliar faces 57 4.4. Experiments with familiar Thatcher faces 118 5\. GENERAL DISCUSSION 148 6\. GLOSSARY 153 7\. REFERENCES 156 8\. APPENDIX 176 8.1. Material 176 8.2. Statistics 179In the present work, early processes in the recognition of faces are investigated. Short presentation times of 200 ms were chosen because within this time window the noise in the behavioral data which is produced by eye saccades is reduced to the minimum. Moreover, underlying perceptual recognition strategies seem to be less cognitive penetrable (cf. Pylyshyn, 1999) within such a short time window. The work is separated in two distinct empirical parts. The first part (Experiment 1 and Exp.2), deals with unfamiliar faces and the processing order of several face features The second part (Exp. 3a, 3b, 4, 5) uses familiar faces and explores the role of local vs. configural and holistic facial information in the recognition of faces. In two pre-studies the facial material for the first experimental series was constructed. The artificial faces consisted of parts of natural faces. Based on these natural faces, the eyes-, nose- and mouth-region were systematically manipulated. This was done in a high salient and a low salient way. Moreover,locally and configurally changed variants were constructed. In the local version, the focus points (eyes, nose, mouth) were replaced with alternative features. In the configural version, the eyes were shifted inwards, and the noses and the mouths were shifted downwards. In order to test specific feature processing models, a stimulus limitation paradigm with backward masking was used. The participants had to answer quickly as well as accurately, whether two sequentially presented faces were same or different. The presentation times (PTs) of the target face (second face) were varied between 32 ms and 94 ms. Then, the percentage of correct rates were calculated for every combination of feature manipulations (E: eyes, N: nose, M: mouth, EN, EM, NM, ENM), every PT and both=0Dmanipulation classes (local vs. configural). The results show that the data-fit is best for two different processing models with respect to the two used manipulation classes. First, analyzing the data for local changes, a strict-serial microgenetic model seems to be the most preferable processing order. Thus, participants processed changes to faces, which were locally changed, in a serial way. Starting with the recognition of the eyes, the further recognition processing mentally jumps to the mouth area. After having processed the mouth, the nose will be processed. Second, a totally different processing pattern seems to be pursuit, if the participants had to detect changes of configurally changed faces. Here, they processed the faces in a holistic way. With a little priority for the eyes detection, all succeeding features were processed in parallel. Therefore, local and configural changes seem to be dissociable on the basis of the underlying recognition processes. The second experimental series investigated the role of local identification processes within the early recognition of faces. In order to test, whether local identification processes are beneficial for the identification of a face inverted Thatcher-faces (Thompson, 1980) are used. In such faces, the eyes- the mouth-regions are turned upside-down. Interestingly, these tremendous changes are hardly detectable when the faces are inverted. Therefore, Thatcher-faces seem to be ideally suitable for testing the role of local identification, because the only changing to these faces is the turning of these two discrete regions, without changing the overall appearance of the stimuli at all. If inverted Thatcher-faces will be faster recognized than inverted normal faces, then the RT-advantage must be caused by the specific manipulation of the Thatcher-faces. The eyes- and mouth regions of inverted Thatcher-faces are already in a correct orientation, but this is not the case for inverted normal faces, where these regions are turned upside-down. Thus, the RT-benefit would be caused by the identification of local structures, which have not to be rotated according to the mental rotation hypothesis (Shepard & Metzler, 1971) as their counterparts of the inverted normal faces have to. The alternative hypothesis assumes that Thatcher faces will be recognized with the same speed or even slower than normal faces. The same speed would be assumed only if the outline of faces can be recognized in the used PTs of only 26 or 200 ms, respectively.Longer RTs would be assumed if holistic or template-like recognition processes are responsible for the early processing of faces. Experiment 3 and Experiment 5 revealed that inverted Thatcher faces were processed faster than inverted normal faces when they were presented for only 26 ms. Thus, the hypothesis of early identification processes was supported. However, using a PT of 200 ms, this RT-relationship was inverted. Now, the recognition of complete, i.e. normal faces was faster than the recognition of Thatcher-faces. Therefore, it seems that only with very limited time resources, local identification processes are particular beneficial for the recognition of faces. If there are no such time constraints, then holistic face processing strategies seem to be more advantageous. The present work uses important new experimental paradigms to test specific face processing models. It demonstrates not only that local face information plays a distinct role for the recognition of faces under different time resources. Moreover, it shows that local and configural information is processed in a different way.In der vorliegenden Arbeit werden frühe Prozesse der Gesichtsverarbeitung untersucht. Frühe Prozesse werden in dieser Arbeit prozessual und nicht etwa ontogenetisch gefasst. Den Hauptfokus bilden Verarbeitungsprozesse von Gesichtsreizen, die nicht länger als 200 ms dargeboten werden. Die wissenschaftliche Beschäftigung mit Phänomenen der Gesichtsverarbeitung ist deswegen von so herausragender Bedeutung, da Gesichter eine außerordentliche Bedeutung für das alltägliche soziale Leben besitzen. Es ist nicht nur von hoher Wichtigkeit, Gesichter zielgenau und ökonomisch zu identifizieren und semantisch einzuordnen, ebenso wichtig ist es, emotionale Zustände, physische Veränderungen und Auffälligkeiten möglichst schnell und akkurat zu erkennen und zu interpretieren. Die Verwendung sehr kurzer Präsentationszeiten in den vorliegenden Experimenten hat zwei Vorteile. Zum einen ist die Wahrscheinlichkeit sehr gering, dass während eines kurzen Zeitfensters von 200 ms bereits Augensakkaden auftreten. Zum anderen, sind Wahrnehmungsleistungen innerhalb dieser gewählten Zeitspanne weniger kognitiv penetrabel als bei längerer Darbietung. Dadurch wird der zugrundeliegende Wahrnehmungsprozess relativ wenig von höheren kognitiven Prozessen oder Lösungsstrategien überlagert. Der erste Teil der Arbeit beschäftigt sich mit den theoretischen als auch empirischen Grundlagen der internationalen Gesichtsforschung. Ziel dabei ist, dem Leser den aktuellen Stand der Forschung über Gesichtsverarbeitung zu vermitteln und ihm verschiedene Prozessmodelle der Gesichtsverarbeitung vorzustellen. Auf diesem Grundlagenwissen aufbauend, werden im zweiten Teil der Arbeit eigene empirische Untersuchungen vorgestellt, die sich mit verschiedenen Aspekten der frühen Gesichtserkennung beschäftigen. Im besonderen werden unterschiedliche Prozessmodelle gegeneinander getestet und darauf aufbauend neue Experimentalanordnungen entwickelt, um spezifische Effekte weitergehend untersuchen zu können. Im empirischen Teil dieser Arbeit liegt das Hauptaugenmerk auf der Verarbeitung von Gesichtern. In insgesamt sechs Experimenten (Exp.1, 2, 3a, 3b, 4, 5) und mehreren Vor- und Nachstudien (Pre-Study 1a, 1b, 2, Post-Study 1) wurde untersucht, welche Informationen in einem Gesicht in welcher zeitlichen Abfolge verarbeitet werden können und wie diese Verarbeitungen einzelner Strukturen miteinander in Beziehung stehen. Die Experimente lassen sich in zwei Hauptgruppen gliedern. In der ersten Gruppe wurden als Stimulusmaterial artifizielle Gesichter verwendet, die den Versuchspersonen prä-experimentell nicht bekannt gewesen waren. Das verwendete Stimulusmaterial wurde systematisch aus einzelnen Teilen von natürlichen Gesichtern hergestellt. Die Auswahl dieser Gesichtsmerkmale (Augen-, Nasen- und Mundbereich) erfolgte aufgrund ihrer eingeschätzten Auffälligkeit (distinctiveness), welche in einer separaten Vorstudie erhoben worden war (Pre-Study 1a). Mit Hilfe der Auffälligkeitsbewertungen wurden zwei disjunkte Mengen für jedes Gesichtsmerkmal erstellt, wobei in der einen Menge jeweils niedrig-auffällige Merkmale und in der anderen Menge hoch-auffällige Merkmale enthalten waren. Die klassifizierten Merkmale wurden mit Hilfe eines Bildbearbeitungsprogramms systematisch in bereits vorhandene natürliche Gesichter (Basisgesichter) eingesetzt. Um den Einfluss von verschiedenen Gesichtsbereichen mit unterschiedlichen Auffälligkeitsstufen auf die Gesichtserkennung untersuchen zu können, wurde in jedes Basisgesicht entweder ein neuer (A)ugen-, (M)und- oder (N)asenbereich, bzw. eine Kombination dieser Merkmale eingepasst (A, N, M, AN, AM, NM, ANM). Diese Merkmalssubstituierung erfolgte mit niedrigauffälligen und hochauffälligen Merkmalen. Zusätzlich zu dieser "lokalen" Manipulationsvariante, in der ausschließlich lokale Merkmale ausgetauscht worden waren, wurden "konfigurale" Manipulationen durchgeführt. Diese wurden durch die räumliche Verschiebung von Komponenten realisiert. In einer zweiten Vorstudie (Pre-Study 2) sollten diese artifiziellen Gesichter wiederum hin-sichtlich ihrer Auffälligkeit eingeschätzt werden. Die Auffälligkeit wurde prä-experimentell erhoben, da sie einen wesentlichen Prädiktor für die Erkennensleistung und die Geschwindig-keit von Verarbeitungsprozessen eines Gesichts darstellt. Zusätzlich schätzten die Versuchs-personen alle künstlichen Gesichter hinsichtlich ihrer Attraktivität und ihre Alltagsplausibilität ein. Beide Maße dienten dazu, abzuschätzen, ob die vorgenommenen Manipulationen tatsäch-lich noch als natürliche Gesichter wahrgenommen oder bereits als manipuliert interpretiert wurden. Vor allem konfigural veränderte Gesichter, deren Merkmale stark (hoch-auffällig) verschoben worden waren, erwiesen sich als weniger attraktiv und weniger plausibel. Verän-derungen an den Augen wurden unabhängig von der Klasse der Veränderungen (konfigural vs. lokal) als am auffälligsten empfunden. Insgesamt wurden konfigurale und lokale Veränderungen als gleich auffällig eingeschätzt. Experiment 1 untersuchte die Verarbeitung der manipulierten Gesichter mit einem Unterschiedserkennungs-Paradigma (change-detection) mit limitierter Darbietung. Versuchspersonen mussten in einer seriellen Vergleichsaufgabe (matching task) entscheiden, ob ein erstgezeigtes Basisgesicht und ein darauffolgendes Zielgesicht gleich oder unterschiedlich waren. Die Darbietungszeiten der Zielreize waren auf 32-94 ms limitiert und wurden von einem direkt anschließend gezeigten Zufallsmuster maskiert. Die Versuchspersonen waren aufgefordert, die gestellte Aufgabe möglichst schnell und dennoch akkurat zu bearbeiten. Wie erwartet zeigte sich, dass Reaktionen auf hoch-saliente Gesichter gegenüber niedrig-salienten schneller und akkurater ausfielen. Außerdem wurden lokale Veränderungen bereits bei kürzerer Darbietungszeit als konfigurale Manipulationen erkannt, obwohl beide Klassen sich in Hinblick auf die eingeschätzte Auffälligkeit in Pre-Study 2 nicht unterschieden hatten. Es ergab sich außerdem eine charakteristische Abfolge einzelner Merkmale. Lokale Austauschungen des Augen- und Mundbereichs wurden bereits bei einer Darbietungszeit von 32 ms relativ gut detektiert, lokale Veränderungen an der Nase dagegen benötigten mindestens eine Darbietung von 84 ms. Konfigurale Veränderungen wurden erst ab einer Mindestdarbietungszeit von 53 ms erkannt, und konfigural veränderte Nasen wurden überhaupt nur im gewählten Zeitrahmen erkannt, wenn sie hoch-salient waren. Zusätzlich zu den frühestmöglichen Zeitpunkten, zu denen einzelne Merkmalsveränderungen erkannt worden waren, wurden spezifische Prozessmodelle auf ihre Validität überprüft. Dazu wurden die Erkennungsraten zu allen Darbietungszeiten in einem integrierenden Maß zusammengefasst. Dieser sogenannte "WOM"-Wert gewichtet frühe Erkennungsleistungen, d.h. Erkennungsraten bei kürzeren Darbietungszeiten stärker als Erkennungsraten bei längeren Darbietungszeiten. Dadurch erhält man ein Maß, welches nicht nur die reine Erkennungsleistung erfasst, sondern zusätzlich einen Hinweis darauf gibt, wann diese geleistet wurde. Mit Hilfe von WOM-Werten für die einzelnen Merkmale und Merkmalskombinationen ließen sich spezifische Prozessabläufe untersuchen. Es wurden vier verschiedene Prozessmodelle gegeneinander getestet, von denen zwei Modelle eine serielle Verarbeitungsstruktur und zwei andere Modelle eine parallele Struktur postulieren. Es zeigte sich, dass die WOM-Daten für lokale Veränderungen in allen vorhergesagten Relationen der Merkmale auf ein streng serielles Verarbeitungsmodell passten. Demnach werden in einem Gesicht mit lokalen Veränderungen zuerst die Augen, dann der Mund und schließlich die Nase verarbeitet (A-M-N). Dies widerspricht einer einfachen mentalen Abtast- Strategie (scanning-strategy), die z.B. von oben nach unten verarbeiten würde. Demgegenüber erklärt ein paralleles Modell am besten die Erkennungsraten konfigural veränderter Gesichter. Dieses Modell sieht zwar ebenfalls eine prioritäre Erkennung der Augen vor, jedoch wird angenommen, dass die weitere Verarbeitung der Augen parallel zur Erkennung des Mund- und Nasenbereichs verläuft. Zusätzliche Auswertungen von Reaktionszeiten konnten die in Hinblick auf die WOM-Daten passenden Modelle ebenfalls validieren. Um Bodeneffekte in den Erkennungsraten auszuschließen, wurden die Modellannahmen nochmals mit einer Teilmenge des Datenmaterials getestet, welche ausschließlich hoch- saliente Manipulationen enthielt. Die WOM-Daten hoch-salienter Gesichter ergaben wiederum die gleichen Anpassungen an die Prozessmodelle. Dies kann ebenfalls als weitere Validierung der gefundenen Prozessmodelle gewertet werden. Von diesem strikt seriellen Verarbeitungsschema A-M-N für lokal veränderte Gesichter wichen nur wenige Versuchspersonen ab. Eine Analyse des Gesichtsmaterials deckte einen Fehler bei der Herstellung des lokalen Stimulusmaterials für ein einzelnes Gesicht auf. Bei der hoch-salienten Gesichtsvariante war fälschlicherweise ein stark rotgeschminkter Mund einge- setzt worden, obwohl die Vorgaben für die Herstellung von Gesichtern ausdrücklich gesichts-fremde, extrem auffällige Attribute ausgeschlossen hatten. Bei Versuchspersonen, denen jenes Gesicht präsentiert wurde, konnte eine Veränderung der oben berichteten seriellen Reihenfolge beobachtet werden. Statt A-M-N wiesen jene Versuchspersonen die Sequenz der Merkmale M-A-N auf. Diese Veränderung der Sequenz durch einen besonders auffälligen Reiz lässt darauf schließen, dass die Verarbeitungsfolge lokaler Merkmale penetrabel ist. Hoch-saliente Reize scheinen prioritär verarbeitet zu werden. Zusätzlich ließen sich Hinweise auf kognitive Penetrabilität im Verarbeitungsmuster einer speziellen Vp finden. Die Verarbeitung lokal veränderte Gesichter startete bei dieser Vp stets im Mundbereich, wobei die Vp in einem post-experimentellen Interview angab, vor jedem Durchgang ihren Blick auf den Mund fixiert zu haben. Das Hauptergebnis von Experiment 1, einer Priorität der Verarbeitung von lokalen Veränderungen gegenüber konfiguralen, wird intensiv diskutiert und auf mögliche prä-experimentelle Unterschiede untersucht. Zwar hatte Vorstudie 2 gezeigt, dass sich die Auffälligkeit von ganzheitlich dargebotenen konfiguralen und lokalen Gesichtern nicht unterscheidet, es gilt jedoch zu bezweifeln, ob die Bewertung von ganzen Gesichtern tatsächlich eine valide Aussage über die Auffälligkeit von subliminal dargebotenen Gesichtern zulässt. Es wäre denkbar, dass bei einer entsprechend kurzen Darbietung nicht die Auffälligkeit des gesamten Gesichts entscheidend für die Aufmerksamkeitslenkung ist, sondern eher die relevanten, veränderten Gesichtsteile. Deshalb wurde in einer post-experimentellen Studie zusätzlich die Auffälligkeit von Gesichtsausschnitten der verwendeten Bilder erhoben (Post-Study 1). Es zeigte sich, dass hoch-saliente konfigurale Manipulationen wesentlich weniger auffällig beurteilt wurden, wenn sie als Ausschnitt präsentiert worden waren. Dies wäre eine mögliche Erklärung für eine spätere Verarbeitung und weniger akkurate Erkennung konfiguraler Merkmale. Die Erkennungsraten für veränderte Nasenbereiche innerhalb der vorgegebenen Darbietungszeit von maximal 94 ms (Experiment 1) waren äußerst gering. Dies kann im wesentlichen zwei Gründe haben. Zum einen könnten die spezifischen Veränderungen, die an der Nase vorgenommen wurden, überhaupt nicht erkannt werden, da sie zu schwach ausgefallen waren. Zum anderen könnten prozesstheoretisch Nasen erst nach längeren Darbietungszeiten verarbeitet werden. Um dies zu testen, wurde in Experiment 2 die grundsätzliche Versuchsdurchführung von Experiment 1 repliziert, als Präsentationszeiten wurden nun jedoch längere Zeiten gewählt (200 ms und 400 ms). Es zeigte sich, dass nach 400 ms sowohl lokal als auch konfigural ver-änderte Nasen erkannt werden konnten, allerdings nur, wenn diese in hoch-salienter Weise manipuliert worden waren. In einer zweiten Experimentalreihe wurde das Verhältnis von lokaler Merkmalsverarbeitung und der Erkennung globaler Strukturen untersucht. Dazu wurden sehr vertraute Gesichter von Film- und TV-Stars verwendet, um eine schnelle Erkennung ohne vorausgehende Lernphase zu ermöglichen. Die Gesichter wurden entweder unmanipuliert oder als sogenannte "Thatcher-Gesichter" gezeigt. Bei Thatcher-Gesichtern wird der Augen- und Mundbereich jeweils um 180° gedreht und wieder an seine ursprüngliche Position eingesetzt. Dreht man diese manipulierten Gesichter wiederum komplett um 180°, so ergibt sich ein interessanter Wahrnehmungseffekt. Die im aufrechten Zustand augenfälligen Manipulationen werden nun nicht mehr wahrgenommen. Der Thatcher-Effekt (siehe Thompson, 1980) wurde ausgenutzt, um eine spezielle Hypothese hinsichtlich lokaler Merkmalserkennung zu überprüfen. Dazu wurden die Reaktionszeiten, die für die Erkennung eines Thatcher-Gesichts und eines normalen invertierten Gesichts nötig sind, verglichen. Bei Thatcher-Gesichtern sind sowohl der Augen- als auch der Mundbereich bereits in einer für die menschliche Gesichtswahrnehmung gewohnten Ausgangsposition zu sehen. Dagegen befinden sich in invertierten normalen Gesichtern diese Bereiche in einer 180° gedrehten Stellung. Die sogenannte mentale Rotationshypothese (Shepard & Metzler, 1971) geht davon aus, dass die Verarbeitung eines Objekts umso mehr Zeit benötigt je weiter dieses von seiner Ausgangorientierung entfernt ist. Sollten frühe lokale Erkennungsprozesse von Vorteil für die Verarbeitung von Gesichtern sein, so müssten daher Thatcher-Gesichter schneller als normale invertierte Gesichter verarbeitet werden können. Diese Hypothese eines schneller verarbeiteten Thatcher-Gesichts bestätigte sich tatsächlich, wenn der Reiz nur für 26 ms dargeboten wurde (Experiment 3a). Präsentierte man die Ge- sichtsreize für 200 ms, so veränderte sich dieser Vorteil zu einem Reaktionszeit-Nachteil, d.h. bei längerer Darbietungszeit wurden Originalgesichter schneller verarbeitet als entsprechende Thatcher-Gesichter. Dies lässt darauf schließen, dass bei sehr kurzer Darbietung vor allem lokale Reize vorteilhaft für die weitere Verarbeitung sind. Dieser Vorteil entwickelt sich jedoch bei längerer Darbietung zu einem Nachteil, da nun eher holistische Prozesse eine wesentliche Rolle spielen. Bei längerer Darbietungszeit scheinen lokale Prozesse für das Identifizieren von Gesichtern nicht mehr so wichtig zu sein. Vielmehr werden nun ganzheitliche Gesicht-Erkennungsstrategien verwendet. In einem Kontrollexperiment (Experiment 3b) wurden zusätzlich aufrechte Gesichter verwendet. Bei sonst gleichem Versuchsablauf zeigte sich nun bereits nach 26 ms eine hohe Sensibi-lität der Versuchspersonen für Thatcher-Gesichter. Im Gegensatz zu Experiment 3a, in welchem die Vp originale Gesichter nicht von Thatcher-Gesichtern unterscheiden konnten, war dies bei aufrechten Gesichtern sehr leicht möglich. Schon nach 26 ms wurden die starken Ver-änderungen an einem Thatcher-Gesicht wahrgenommen. Aufgrund dieser kurzen Darbie-tungszeit kann man höhere kognitive Prozesse für die Erkennung ausschließen. In Experiment 3a wurde ein Zufallspunktemuster als visuelle Maskierung benutzt. Es ist fraglich, ob eine derartige Maske geeignet ist, ein Gesichtsreiz effektiv aus dem ikonischen Gedächtnis zu löschen. Deshalb wurde für Experiment 4 eine alternative Maskierung verwendet. Diese bestand aus einer Überlagerung von allen verwendeten Gesichtsbilder, die zusätzlich durch einen Gauss'schen Weichzeichner verfremdet wurde. Es zeigte sich, dass diese Maske in

    Similar works