3 research outputs found
Face and object recognition by 3D cortical representations
This thesis presents a novel integrated cortical architecture with significant
emphasis on low-level attentional mechanisms—based on retinal nonstandard
cells and pathways—that can group non-attentional, bottom-up
features present in V1/V2 into “proto-object” shapes. These shapes are extracted
at first using combinations of specific cell types for detecting corners,
bars/edges and curves which work extremely well for geometrically
shaped objects. Later, in the parietal pathway (probably in LIP), arbitrary
shapes can be extracted from population codes of V2 (or even dorsal V3)
oriented cells that encode the outlines of objects as “proto-objects”. Object
shapes obtained at both cortical levels play an important role in bottom-up
local object gist vision, which tries to understand scene context in less than
70 ms and is thought to use both global and local scene features.
Edge conspicuity maps are able to detect borders/edges of objects and
attribute them a weight based on their perceptual salience, using readily
available retinal ganglion cell colour-opponency coding. Conspicuity maps
are fundamental in building posterior saliency maps—important for both
bottom-up attention schemes and also for Focus-of-Attention mechanisms
that control eye gaze and object recognition.
Disparity maps are also a main focus of this thesis. They are built upon
binocular simple and complex cells in quadrature, using a Disparity-Enery
Model. These maps are fundamental for perception of distance within a
scene and close/far object relationships in doing foreground to background
segregation.
The role of cortical disparity in 3D facial recognition was also explored
when processing faces with very different facial expressions (even extreme
ones), yielding state-of-the-art results when compared to other, non-biological,
computer vision algorithms.A presente tese descreve uma nova arquitectura cortical integrada, com
ĂŞnfase especial em mecanismos de atenção a baixo nĂvel—baseados em
conexões corticais que utilizam células retinais não-padronizadas—conseguindo
agrupar diversas caracterĂsticas visuais de baixo nĂvel, ainda num
estado prĂ©-atencional, presentes nas áreas V1/V2, em formas especĂficas
de “proto-objectos”. As formas em questĂŁo sĂŁo extraĂdas em primeira mĂŁo
através de combinações de células especializadas que detectam localmente
cantos, rectas/arestas e curvaturas, funcionando extremamente bem para a detecção
de objectos com formas geométricas. Posteriormente, no lobo parietal
(provavelmente no cĂłrtex Lateral Intra-Parietal), já podem ser extraĂdas
formas arbitrárias, através de padrões de activação de populações de
neurónios, presentes em V2 (ou até em V3-dorsal), que codificam a periferia
de objectos como “proto-objectos”—representações básicas de categorias
especĂficas de objectos no cĂ©rebro. Ambas as formas extraĂdas nos dois
tipos de processamento cortical (utilizando cĂ©lulas especĂficas ou uma codificação
de formas arbitrária) desempenham um papel importante na visão
gist local, que tenta compreender o contexto geral da cena apresentada ao
sistema visual, em menos de 70 ms, sendo esperado que para tal se usem
tanto caracterĂsticas visuais globais como locais.
São também utilizados mapas de conspicuicidade, que permitem detectar
linhas e arestas de objectos, atribuindo-lhes um peso baseado na sua
saliência perceptual—utilizando para tal a codificação natural das células
retinais, em que as cores sĂŁo representadas por oponĂŞncia: claro/escuro,
vermelho/verde e amarelo/azul. Os mapas de conspicuicidade sĂŁo fundamentais
na construção posterior de mapas de saliência—importantes nos
esquemas prĂ©-atencionais de nĂvel celular baixo e tambĂ©m para os mecanisix
mos de Foco-de-Atenção que controlam o movimento ocular e reconhecimento
de caras e objectos.
Em paralelo, são também desenvolvidos os mapas de disparidade cortical,
sendo estes também um dos maiores focos desta tese. Estes são baseados
em células corticais binoculares simples e complexas, através de um processamento
das últimas em quadratura—modelo denominado por “Disparity-
Energy Model”. Estes mapas de disparidade são fundamentais na percepção
de distâncias dentro de uma cena visual e também para resolver o problema
da segregação objecto/fundo.
O papel da disparidade cortical é também explorado no reconhecimento
facial a 3D, em especial quando as faces a reconhecer apresentam expressões
faciais de diversas formas e nĂveis de intensidade. O modelo utilizado apresentou
resultados excelentes, atingindo o estado-da-arte, inclusivamente ficando
acima de modelos de visão computacional não biológicos.Fundação para a Ciência e a TecnologiaComissão Europei