7,192 research outputs found

    Finding any Waldo: zero-shot invariant and efficient visual search

    Full text link
    Searching for a target object in a cluttered scene constitutes a fundamental challenge in daily vision. Visual search must be selective enough to discriminate the target from distractors, invariant to changes in the appearance of the target, efficient to avoid exhaustive exploration of the image, and must generalize to locate novel target objects with zero-shot training. Previous work has focused on searching for perfect matches of a target after extensive category-specific training. Here we show for the first time that humans can efficiently and invariantly search for natural objects in complex scenes. To gain insight into the mechanisms that guide visual search, we propose a biologically inspired computational model that can locate targets without exhaustive sampling and generalize to novel objects. The model provides an approximation to the mechanisms integrating bottom-up and top-down signals during search in natural scenes.Comment: Number of figures: 6 Number of supplementary figures: 1

    A lesson from robotics: Modeling infants as autonomous agents

    Get PDF
    While computational models are playing an increasingly important role in developmental psychology, at least one lesson from robotics is still being learned: modeling epigenetic processes often requires simulating an embodied, autonomous organism. This paper first contrasts prevailing models of infant cognition with an agent-based approach. A series of infant studies by Baillargeon (1986; Baillargeon & DeVos, 1991) is described, and an eye-movement model is then used to simulate infants' visual activity in this study. I conclude by describing three behavioral predictions of the eyemovement model, and discussing the implications of this work for infant cognition research

    Visual Attention in Virtual Reality:(Alternative Format Thesis)

    Get PDF

    Task-demands can immediately reverse the effects of sensory-driven saliency in complex visual stimuli

    Get PDF
    In natural vision both stimulus features and task-demands affect an observer's attention. However, the relationship between sensory-driven (“bottom-up”) and task-dependent (“top-down”) factors remains controversial: Can task-demands counteract strong sensory signals fully, quickly, and irrespective of bottom-up features? To measure attention under naturalistic conditions, we recorded eye-movements in human observers, while they viewed photographs of outdoor scenes. In the first experiment, smooth modulations of contrast biased the stimuli's sensory-driven saliency towards one side. In free-viewing, observers' eye-positions were immediately biased toward the high-contrast, i.e., high-saliency, side. However, this sensory-driven bias disappeared entirely when observers searched for a bull's-eye target embedded with equal probability to either side of the stimulus. When the target always occurred in the low-contrast side, observers' eye-positions were immediately biased towards this low-saliency side, i.e., the sensory-driven bias reversed. Hence, task-demands do not only override sensory-driven saliency but also actively countermand it. In a second experiment, a 5-Hz flicker replaced the contrast gradient. Whereas the bias was less persistent in free viewing, the overriding and reversal took longer to deploy. Hence, insufficient sensory-driven saliency cannot account for the bias reversal. In a third experiment, subjects searched for a spot of locally increased contrast (“oddity”) instead of the bull's-eye (“template”). In contrast to the other conditions, a slight sensory-driven free-viewing bias prevails in this condition. In a fourth experiment, we demonstrate that at known locations template targets are detected faster than oddity targets, suggesting that the former induce a stronger top-down drive when used as search targets. Taken together, task-demands can override sensory-driven saliency in complex visual stimuli almost immediately, and the extent of overriding depends on the search target and the overridden feature, but not on the latter's free-viewing saliency

    Semantic context and visual feature effects in object naming: an fMRI study using arterial spin labeling

    Get PDF
    Previous behavioral studies reported a robust effect of increased naming latencies when objects to be named were blocked within semantic category, compared to items blocked between category. This semantic context effect has been attributed to various mechanisms including inhibition or excitation of lexico-semantic representations and incremental learning of associations between semantic features and names, and is hypothesized to increase demands on verbal self-monitoring during speech production. Objects within categories also share many visual structural features, introducing a potential confound when interpreting the level at which the context effect might occur. Consistent with previous findings, we report a significant increase in response latencies when naming categorically related objects within blocks, an effect associated with increased perfusion fMRI signal bilaterally in the hippocampus and in the left middle to posterior superior temporal cortex. No perfusion changes were observed in the middle section of the left middle temporal cortex, a region associated with retrieval of lexical–semantic information in previous object naming studies. Although a manipulation of visual feature similarity did not influence naming latencies, we observed perfusion increases in the perirhinal cortex for naming objects with similar visual features that interacted with the semantic context in which objects were named. These results provide support for the view that the semantic context effect in object naming occurs due to an incremental learning mechanism, and involves increased demands on verbal self-monitoring

    Spatial analysis in the human cerebral cortex : behavioural and functional magnetic resonance studies of spatial transformations in visual perception and imagery

    Get PDF
    Die vorliegende Dissertation berichtet über eine Serie von Verhaltens- und funktionellen Bildgebungsstudien zu experimentalpsychologischen Paradigmata, die eine räumliche Analyse und Koordinatentransformation von Material der visuellen Wahrnehmung oder Vorstellung beinhalten. Nach einer Einführung in die Prinzipien und Techniken der funktionellen Kernspintomographie, der hier benutzten Methode für die Messung von Gehirnaktivität, werden die Versuche einer Replikation des berühmten Stratton'schen Umkehrbrillen-Experiments dargestellt (Kapitel 1). Unsere vier Probanden zeigten zwar eine zügige Anpassung der visuomotorischen Funktionen an die neue visuelle Umwelt, berichteten aber, anders als Stratton, nicht, daß sie die Welt nach einigen Tagen mit der Umkehrbrille wieder normal sähen. Diese Persistenz des umgekehrten Bildes wurde durch eine psychphysische Testbatterie bestätigt. Des weiteren ergaben die funktionellen Kernspinmessungen, daß sich die kortikale retinotope Organisation im Verlaufe des Experiments nicht geändert hat. Da sich also Strattons Haupteffekt, das Aufrechtsehen durch die Umkehrbrille nach einwöchiger Adaptation, nicht replizieren ließ, werden andere Möglichkeiten der Interpretation der verschiedenen Umkehrexperimente der letzten hundert Jahre vorgeschlagen. Dieses Ergebnis einer funktionellen Anpassung ohne größere Änderungen der visuellen Wahrnehmung (und ohne Veränderungen der Repräsentation der Netzhautareale in der Sehrinde) führte zu der Hypothese, daß die erforderlichen Transformationen auf einer höheren Stufe der kortikalen Hierarchie der visuellen Verarbeitung erfolgen. Zur Testung dieser Hypothese wurde eine funktionelle Kernspinstudie des Umkehrlesens durchgeführt (Kapitel 2). Hierbei lasen die Probanden Wörter und Sätze in Spiegelschrift oder auf dem Kopf. Der neuronale Mechanismus der räumlichen Transformationen, die zur Bewältigung dieser Aufgabe nötig sind, konnte in bestimmten Regionen des Parietallappens, die zwischen den Probanden sehr konstant waren, lokalisiert werden. Weiterhin fand sich eine Koaktivierung okzipitootemporaler Objekterkennungs-Areale. Die Spezifizität der parietalen Aktivierungsfoci wurde durch ein Kontrollexperiment bestätigt, in welchem das kortikale System für räumliche Transformationen von den Netzwerken der allgemeinen visuellen Aufmerksamkeit und der Augenbewegungskontrolle unterschieden werden konnte. In einem weiteren Experiment wurden die räumlichen Funktionen des Parietallappens unter dem Vorzeichen der visuellen Vorstellung untersucht. Als Paradigma wurde der "mental clock" - Test verwendet, bei welchem die Probanden die Winkel der Zeiger zweier Uhren vergleichen müssen, deren Zeiten nur akustisch vorgegeben werden (Kapitel 3). Diese Aufgabe erfordert die Generierung eines entsprechenden Vorstellungsbildes und dessen räumliche Analyse, stellt also sowohl ein kontrolliertes Vorstellungs-Paradigma als auch einen Test räumlicher Funktionen dar, der nicht auf visuell präsentiertem Material beruht. Das parietale Aktivierungsmuster, das der Analyse der Winkel dieser vorgestellten Uhren zugeschrieben werden konnte, entsprach weitgehend demjenigen, das mit der räumlichen Transformation von Buchstaben verbunden war. Es handelt sich also wahrscheinlich um ein kortikales System für räumliche Analyse und Koordinatentransformationen, das nicht auf eine visuelle Stimulation angewiesen ist, sondern auch bei bloßer visueller Vorstellung aktiv werden kann. Die vorgelegten Resultate werden im Kontext neuerer neuropsychologischer Befunde zu Defiziten räumlicher Analyse und Vorstellung bei Läsionen des Parietallappens diskutiert (Kapitel 4). Auch die methodologischen Probleme der kognitiven Subtraktion, die in unseren Studien teilweise benutzt wurde, werden behandelt. Dabei wird erläutert, inwiefern diese für die Beurteilung der vorgelegten Studien nur von untergeordneter Bedeutung sind. Nichtsdestoweniger schlagen wir Modifikationen der experimentellen Paradigmata im Sinne des parametrischen Designs und des "event-related functional magnetic resonance imaging" vor, die bei zukünftigen Studien einen vollständigen Verzicht auf die kognitive Subtraktion ermöglichen dürften. Schließlich wird die Bedeutung der vorgelegten Ergebnisse für die Erforschung der Anpassungsfähigkeit des menschlichen Gehirns und des Verhältnisses von Vorstellung und visueller Wahrnehmung dargelegt
    corecore