2 research outputs found
Real-time human body detection and tracking for augmented reality mobile applications
Hoje em dia, cada vez mais experiências culturais são melhoradas tendo por base aplicações
móveis, incluindo aqueles que usam Realidade Aumentada (RA). Estas aplicações
têm crescido em número de utilizadores, em muito suportadas no aumento do
poder de cálculo dos processadores mais recentes, na popularidade dos dispositivos
móveis (com câmaras de alta definição e sistemas de posicionamento global – GPS), e
na massificação da disponibilidade de conexões de internet. Tendo este contexto em
mente, o projeto Mobile Five Senses Augmented Reality System for Museums (M5SAR)
visa desenvolver um sistema de RA para ser um guia em eventos culturais, históricos
e em museus, complementando ou substituindo a orientação tradicional dada pelos
guias ou mapas. O trabalho descrito na presente tese faz parte do projeto M5SAR. O
sistema completo consiste numa aplicação para dispositivos móveis e num dispositivo
físico, a acoplar ao dispositivo móvel, que em conjunto visam explorar os 5 sentidos
humanos: visão, audição, tato, olfacto e paladar.
O projeto M5SAR tem como objetivos principais (a) detectar peças do museu (por
exemplo, pinturas e estátuas (Pereira et al., 2017)), (b) detectar paredes / ambientes do
museu (Veiga et al., 2017) e (c) detectar formas humanas para sobrepor o conteúdo de
Realidade Aumentada (?). Esta tese apresenta uma abordagem relativamente ao último
objectivo, combinando informações de articulações do corpo humano com métodos
de sobreposição de roupas. Os atuais sistemas relacionados com a sobreposição de roupas, que permitem ao
utilizador mover-se livremente, são baseados em sensores tridimensionais (3D), e.g.,
Sensor Kinect (Erra et al., 2018), sendo estes não portáteis. A contribuição desta tese é
apresentar uma solução portátil baseado na câmara (RGB) do telemóvel que permite
ao utilizador movimentar-se livremente, fazendo ao mesmo tempo a sobreposição de
roupa (para o corpo completo).
Nos últimos anos, a capacidade de Redes Neurais Convolucionais (CNN) foi comprovado
numa grande variedade de tarefas de visão computacional, tais como classificação
e detecção de objetos e no reconhecimento de faces e texto (Amos et al., 2016;
Ren et al., 2015a). Uma das áreas de uso das CNN é a estimativa de posição (pose)
humana em ambientes reais (Insafutdinov et al., 2017; Pishchulin et al., 2016). Recentemente,
duas populares CNN frameworks para detecção e segmentação de formas
humanas apresentam destaque, o OpenPose (Cao et al., 2017;Wei et al., 2016) e o Mask
R-CNN (He et al., 2017). No entanto, testes experimentais mostraram que as implementações
originais não são adequadas para dispositivos móveis. Apesar disso, estas
frameworks são a base para as implementações mais recentes, que possibilitam o uso
em dispositivos móveis. Uma abordagem que alcança a estimativa e a segmentação de
pose de corpo inteiro é o Mask R-CNN2Go (Jindal, 2018), baseado na estrutura original
do Mask R-CNN. A principal razão para o tempo de processamento ser reduzido
foi a otimização do número de camadas de convolução e a largura de cada camada.
Outra abordagem para obter a estimativa de pose humana em dispositivos móveis
foi a modificação da arquitetura original do OpenPose para mobile (Kim, 2018; Solano,
2018) e sua combinação com MobileNets (Howard et al., 2017). MobileNets, como o
nome sugere, é projetado para aplicativos móveis, fazendo uso de camadas de convoluções
separáveis em profundidade. Essa modificação reduz o tempo de processamento,
mas também reduz a precisão na estimativa da pose, quando comparado à
arquitetura original.
É importante ressaltar que apesar de a detecção de pessoas com a sobreposição de roupas ser um tema atual, já existem aplicações disponíveis no mercado, como o
Pozus (GENTLEMINDS, 2018). O Pozus é disponibilizado numa versão beta que é
executado no sistema operativo iOS, usa a câmera do telemóvel como entrada para a
estimação da pose humana aplicando segmentos de texturas sobre o corpo humano.
No entanto, Pozus não faz ajuste de texturas (roupas) à forma da pessoa.
Na presente tese, o modelo OpenPose foi usado para determinar as articulações do
corpo e diferentes abordagens foram usadas para sobreposição de roupas, enquanto
uma pessoa se move em ambientes reais. A primeira abordagem utiliza o algoritmo
GrabCut (Rother et al., 2004) para segmentação de pessoas, permitindo o ajuste de segmentos
de roupas. Uma segunda abordagem usa uma ferramenta bidimensional (2D)
de Animação do Esqueleto para permitir deformações em texturas 2D de acordo com
as poses estimadas. A terceira abordagem é semelhante à anterior, mas usa modelos
3D, volumes, para obter uma simulação mais realista do processo de sobreposição de
roupas. Os resultados e a prova de conceito são mostrados.
Os resultados são coerentes com uma prova de conceito. Os testes revelaram que
como trabalho futuro as otimizações para melhorar a precisão do modelo de estimação
da pose e o tempo de execução ainda são necessárias para dispositivos móveis. O
método final utilizado para sobrepor roupas no corpo demonstrou resultados positivos,
pois possibilitaram uma simulação mais realística do processo de sobreposição
de roupas.When it comes to visitors at museums and heritage places, objects speak for themselves.
Nevertheless, it is important to give visitors the best experience possible, this
will lead to an increase in the visits number and enhance the perception and value
of the organization. With the aim of enhancing a traditional museum visit, a mobile
Augmented Reality (AR) framework is being developed as part of the Mobile Five
Senses Augmented Reality (M5SAR) project. This thesis presents an initial approach
to human shape detection and AR content superimposition in a mobile environment,
achieved by combining information of human body joints with clothes overlapping
methods.
The present existing systems related to clothes overlapping, that allow the user to
move freely, are based mainly in three-dimensional (3D) sensors (e.g., Kinect sensor
(Erra et al., 2018)), making them far from being portable. The contribution of this
thesis is to present a portable system that allows the user to move freely and does full
body clothes overlapping.
The OpenPose model (Kim, 2018; Solano, 2018) was used to compute the body
joints and different approaches were used for clothes overlapping, while a person is
moving in real environments. The first approach uses GrabCut algorithm (Rother
et al., 2004) for person segmentation, allowing to fit clothes segments. A second approach
uses a bi-dimensional (2D) skeletal animation tool to allow deformations on 2D textures according to the estimated poses. The third approach is similar to the previous,
but uses 3D clothes models (volumes) to achieve a more realistic simulation of
the process of clothes superimposition. Results and proof-of-concept are shown
Cultural heritage visits supported on visitors' preferences and mobile devices
Monuments, museums and cities are great places to feel and experience neat and interesting things. But cultural heritage is experienced differently by different visitors. The more erudite may know beforehand what they intend to explore, while the least literate usually know and are capable of expressing some of their preferences but do not exactly realize what to see and explore. This paper proposes the use of a mobile application to set an itinerary where you can move at your own pace and, at the same time, have all the complementary information you need about each of the points of interest. The application is designed in face of an adaptive user interface where the routing and augmented reality are connected to acknowledge the needs of different user categories, such as elders, kids, experts or general usersPortuguese Foundation for Science and Technology (FCT)Portuguese Foundation for Science and Technology [UID/EEA/50009/2013, UID/SOC/04020/2013]CRESC ALGARVE 2020, PORTUGAL 2020 [3322]FEDER European Commissioninfo:eu-repo/semantics/publishedVersio