2 research outputs found
Human pose and action recognition
This thesis focuses on detection of persons and pose recognition using neural networks.
The goal is to detect human body poses in a visual scene with multiple
persons and to use this information in order to recognize human activity. This is
achieved by rst detecting persons in a scene and then by estimating their body
joints in order to infer articulated poses.
The work developed in this thesis explored neural networks and deep learning
methods. Deep learning allows to employ computational models that are composed
of multiple processing layers to learn representations of data with multiple levels
of abstraction. These methods have greatly improved the state-of-the-art in many
domains such as speech recognition and visual object detection and classi cation.
Deep learning discovers intricate structure in data by using the backpropagation
algorithm to indicate how a machine should change its internal parameters that are
used to compute the representation in each layer from the representation provided
by the previous one.
Person detection, in general, is a di cult task due to a large variability of representation
due to di erent factors such as scales, views and occlusion. An object
detection framework based on multi-stage convolutional features for pedestrian detection
is proposed in this thesis. This framework extends the Fast R-CNN framework
for the combination of several convolutional features from di erent stages of
a CNN (Convolutional Neural Network) to improve the detector's accuracy. This
provides high quality detections of persons in a visual scene, which are then used
as input in conjunction with a human pose estimation model in order to estimate
human body joint locations of multiple persons in an image.
Human pose estimation is done by a deep convolutional neural network composed
of a series of residual auto-encoders. These produce multiple predictions which are
later combined to provide a heatmap prediction of human body joints. In this network
topology, features are processed across all scales capturing the various spatial
relationships associated with the body. Repeated bottom-up and top-down processing
with intermediate supervision for each auto-encoder network is applied. This
results in very accurate 2D heatmaps of body joint predictions.
The methods presented in this thesis were benchmarked against other topperforming
methods on popular datasets for human pedestrian and pose estimation,
achieving good results compared with other state-of-the-art algorithms.Esta tese foca a detec c~ao de pessoas e o reconhecimento de poses usando redes neuronais.
O objectivo e detectar poses humanas num ambiente (cena) com m ultiplas
pessoas e usar essa informa c~ao para reconhecer actividade humana. Isto e alcan cado
ao detectar, em primeiro lugar, pessoas numa cena e, seguidamente, estimar as suas
juntas corporais de modo a inferir poses articuladas.
O trabalho desenvolvido nesta tese explorou m etodos de redes neuronais e de
aprendizagem profunda. A aprendizagem profunda permite que modelos computacionais
compostos por m ultiplas camadas de processamento aprendam representa
c~oes de dados com m ultiplos n veis de abstra c~ao. Estes m etodos t^em drasticamente
melhorado o estado-da-arte em muitos dom nios como o reconhecimento
de fala e a classi ca c~ao e o reconhecimento de objectos visuais. A aprendizagem
profunda descobre estruturas intr nsecas em conjuntos de dados ao usar algoritmos
de propaga c~ao inversa (backpropagation) para indicar como uma m aquina deve alterar
os seus par^ametros internos que, por sua vez, s~ao usados para processar a
representa c~ao em cada camada a partir da representa c~ao da camada anterior.
A detec c~ao de pessoas em geral e uma tarefa dif cil dado a grande variabilidade de
representa c~oes devido a diferentes escalas, vistas e oclus~oes. Uma estrutura de detec
c~ao de objectos baseada em caracter sticas convolucionais de m ultiplos est agios
para a detec c~ao de pedestres e proposta nesta tese. Esta estrutura estende a estrutura
Fast R-CNN com a combina c~ao de v arias caracter sticas convolucionais de
diferentes est agios da CNN (Convolutional Neural Network) usada de modo a melhorar
a precis~ao do detector. Isto proporciona detec c~oes de pessoas com elevada
abilidade numa cena, que s~ao posteriormente conjuntamente usadas como entrada
no modelo de estima c~ao de poses humanas de modo a estimar a localiza c~ao de
articula c~oes humanas para a detec c~ao de m ultiplas pessoas numa imagem.
A estima c~ao de poses humanas e obtido atrav es de redes neuronais convolucionais
profundas que s~ao compostas por uma s erie de auto-codi cadores residuais que
fornecem m ultiplas previs~oes que s~ao, posteriormente, combinadas para fornecer
um \mapa de calor" de articula c~oes corporais. Nesta topologia de rede, as caracter
sticas da imagem s~ao processadas ao longo de v arias escalas, capturando as
v arias rela c~oes espaciais associadas com o corpo humano. Repetidos processos de
baixo-para-cima e de cima-para-baixo com supervis~ao interm edia para cada autocodi
cador s~ao aplicados. Isto resulta em mapas de calor 2D muito precisos de
estima c~oes de articula c~oes corporais de pessoas.
Os m etodos apresentados nesta tese foram comparados com outros m etodos de
alto desempenho em bases de dados de detec c~ao de pessoas e de reconhecimento de
poses humanas, alcan cando muito bons resultados comparando com outros algoritmos
do estado-da-arte
Human pose and action recognition
This thesis focuses on detection of persons and pose recognition using neural networks.
The goal is to detect human body poses in a visual scene with multiple
persons and to use this information in order to recognize human activity. This is
achieved by rst detecting persons in a scene and then by estimating their body
joints in order to infer articulated poses.
The work developed in this thesis explored neural networks and deep learning
methods. Deep learning allows to employ computational models that are composed
of multiple processing layers to learn representations of data with multiple levels
of abstraction. These methods have greatly improved the state-of-the-art in many
domains such as speech recognition and visual object detection and classi cation.
Deep learning discovers intricate structure in data by using the backpropagation
algorithm to indicate how a machine should change its internal parameters that are
used to compute the representation in each layer from the representation provided
by the previous one.
Person detection, in general, is a di cult task due to a large variability of representation
due to di erent factors such as scales, views and occlusion. An object
detection framework based on multi-stage convolutional features for pedestrian detection
is proposed in this thesis. This framework extends the Fast R-CNN framework
for the combination of several convolutional features from di erent stages of
a CNN (Convolutional Neural Network) to improve the detector's accuracy. This
provides high quality detections of persons in a visual scene, which are then used
as input in conjunction with a human pose estimation model in order to estimate
human body joint locations of multiple persons in an image.
Human pose estimation is done by a deep convolutional neural network composed
of a series of residual auto-encoders. These produce multiple predictions which are
later combined to provide a heatmap prediction of human body joints. In this network
topology, features are processed across all scales capturing the various spatial
relationships associated with the body. Repeated bottom-up and top-down processing
with intermediate supervision for each auto-encoder network is applied. This
results in very accurate 2D heatmaps of body joint predictions.
The methods presented in this thesis were benchmarked against other topperforming
methods on popular datasets for human pedestrian and pose estimation,
achieving good results compared with other state-of-the-art algorithms.Esta tese foca a detec c~ao de pessoas e o reconhecimento de poses usando redes neuronais.
O objectivo e detectar poses humanas num ambiente (cena) com m ultiplas
pessoas e usar essa informa c~ao para reconhecer actividade humana. Isto e alcan cado
ao detectar, em primeiro lugar, pessoas numa cena e, seguidamente, estimar as suas
juntas corporais de modo a inferir poses articuladas.
O trabalho desenvolvido nesta tese explorou m etodos de redes neuronais e de
aprendizagem profunda. A aprendizagem profunda permite que modelos computacionais
compostos por m ultiplas camadas de processamento aprendam representa
c~oes de dados com m ultiplos n veis de abstra c~ao. Estes m etodos t^em drasticamente
melhorado o estado-da-arte em muitos dom nios como o reconhecimento
de fala e a classi ca c~ao e o reconhecimento de objectos visuais. A aprendizagem
profunda descobre estruturas intr nsecas em conjuntos de dados ao usar algoritmos
de propaga c~ao inversa (backpropagation) para indicar como uma m aquina deve alterar
os seus par^ametros internos que, por sua vez, s~ao usados para processar a
representa c~ao em cada camada a partir da representa c~ao da camada anterior.
A detec c~ao de pessoas em geral e uma tarefa dif cil dado a grande variabilidade de
representa c~oes devido a diferentes escalas, vistas e oclus~oes. Uma estrutura de detec
c~ao de objectos baseada em caracter sticas convolucionais de m ultiplos est agios
para a detec c~ao de pedestres e proposta nesta tese. Esta estrutura estende a estrutura
Fast R-CNN com a combina c~ao de v arias caracter sticas convolucionais de
diferentes est agios da CNN (Convolutional Neural Network) usada de modo a melhorar
a precis~ao do detector. Isto proporciona detec c~oes de pessoas com elevada
abilidade numa cena, que s~ao posteriormente conjuntamente usadas como entrada
no modelo de estima c~ao de poses humanas de modo a estimar a localiza c~ao de
articula c~oes humanas para a detec c~ao de m ultiplas pessoas numa imagem.
A estima c~ao de poses humanas e obtido atrav es de redes neuronais convolucionais
profundas que s~ao compostas por uma s erie de auto-codi cadores residuais que
fornecem m ultiplas previs~oes que s~ao, posteriormente, combinadas para fornecer
um \mapa de calor" de articula c~oes corporais. Nesta topologia de rede, as caracter
sticas da imagem s~ao processadas ao longo de v arias escalas, capturando as
v arias rela c~oes espaciais associadas com o corpo humano. Repetidos processos de
baixo-para-cima e de cima-para-baixo com supervis~ao interm edia para cada autocodi
cador s~ao aplicados. Isto resulta em mapas de calor 2D muito precisos de
estima c~oes de articula c~oes corporais de pessoas.
Os m etodos apresentados nesta tese foram comparados com outros m etodos de
alto desempenho em bases de dados de detec c~ao de pessoas e de reconhecimento de
poses humanas, alcan cando muito bons resultados comparando com outros algoritmos
do estado-da-arte