Most artistic performances rely on human gestures, ultimately resulting in an elaborate
interaction between the performer and the audience.
Humans, even without any kind of formal analysis background in music, dance or
gesture are typically able to extract, almost unconsciously, a great amount of relevant
information from a gesture. In fact, a gesture contains so much information,
why not use it to further enhance a performance?
Gestures and expressive communication are intrinsically connected, and being
intimately attached to our own daily existence, both have a central position in our
(nowadays) technological society. However, the use of technology to understand
gestures is still somehow vaguely explored, it has moved beyond its first steps
but the way towards systems fully capable of analyzing gestures is still long and
difficult (Volpe, 2005). Probably because, if on one hand, the recognition of
gestures is somehow a trivial task for humans, on the other hand, the endeavor of
translating gestures to the virtual world, with a digital encoding is a difficult and illdefined
task. It is necessary to somehow bridge this gap, stimulating a constructive
interaction between gestures and technology, culture and science, performance
and communication. Opening thus, new and unexplored frontiers in the design of
a novel generation of multimodal interactive systems.
This work proposes an interactive, real time, gesture recognition framework called
the Zatlab System (ZtS). This framework is flexible and extensible. Thus, it is in
permanent evolution, keeping up with the different technologies and algorithms that emerge at a fast pace nowadays. The basis of the proposed approach is to partition
a temporal stream of captured movement into perceptually motivated descriptive
features and transmit them for further processing in Machine Learning algorithms.
The framework described will take the view that perception primarily depends on
the previous knowledge or learning. Just like humans do, the framework will have
to learn gestures and their main features so that later it can identify them. It is
however planned to be flexible enough to allow learning gestures on the fly.
This dissertation also presents a qualitative and quantitative experimental validation
of the framework. The qualitative analysis provides the results concerning
the users acceptability of the framework. The quantitative validation provides the
results about the gesture recognizing algorithms. The use of Machine Learning
algorithms in these tasks allows the achievement of final results that compare or
outperform typical and state-of-the-art systems.
In addition, there are also presented two artistic implementations of the framework,
thus assessing its usability amongst the artistic performance domain.
Although a specific implementation of the proposed framework is presented in this
dissertation and made available as open source software, the proposed approach
is flexible enough to be used in other case scenarios, paving the way to applications
that can benefit not only the performative arts domain, but also, probably in the near
future, helping other types of communication, such as the gestural sign language
for the hearing impaired.Grande parte das apresentações artísticas são baseadas em gestos humanos,
ultimamente resultando numa intricada interação entre o performer e o público.
Os seres humanos, mesmo sem qualquer tipo de formação em música, dança ou
gesto são capazes de extrair, quase inconscientemente, uma grande quantidade
de informações relevantes a partir de um gesto. Na verdade, um gesto contém
imensa informação, porque não usá-la para enriquecer ainda mais uma performance?
Os gestos e a comunicação expressiva estão intrinsecamente ligados e estando
ambos intimamente ligados à nossa própria existência quotidiana, têm uma posicão
central nesta sociedade tecnológica actual. No entanto, o uso da tecnologia para
entender o gesto está ainda, de alguma forma, vagamente explorado. Existem
já alguns desenvolvimentos, mas o objetivo de sistemas totalmente capazes de
analisar os gestos ainda está longe (Volpe, 2005). Provavelmente porque, se
por um lado, o reconhecimento de gestos é de certo modo uma tarefa trivial
para os seres humanos, por outro lado, o esforço de traduzir os gestos para
o mundo virtual, com uma codificação digital é uma tarefa difícil e ainda mal
definida. É necessário preencher esta lacuna de alguma forma, estimulando uma
interação construtiva entre gestos e tecnologia, cultura e ciência, desempenho e
comunicação. Abrindo assim, novas e inexploradas fronteiras na concepção de
uma nova geração de sistemas interativos multimodais .
Este trabalho propõe uma framework interativa de reconhecimento de gestos, em tempo real, chamada Sistema Zatlab (ZtS). Esta framework é flexível e extensível.
Assim, está em permanente evolução, mantendo-se a par das diferentes tecnologias
e algoritmos que surgem num ritmo acelerado hoje em dia. A abordagem
proposta baseia-se em dividir a sequência temporal do movimento humano nas
suas características descritivas e transmiti-las para posterior processamento, em
algoritmos de Machine Learning. A framework descrita baseia-se no facto de que
a percepção depende, principalmente, do conhecimento ou aprendizagem prévia.
Assim, tal como os humanos, a framework terá que aprender os gestos e as suas
principais características para que depois possa identificá-los. No entanto, esta
está prevista para ser flexível o suficiente de forma a permitir a aprendizagem de
gestos de forma dinâmica.
Esta dissertação apresenta também uma validação experimental qualitativa e quantitativa
da framework. A análise qualitativa fornece os resultados referentes à
aceitabilidade da framework. A validação quantitativa fornece os resultados sobre
os algoritmos de reconhecimento de gestos. O uso de algoritmos de Machine
Learning no reconhecimento de gestos, permite a obtençãoc¸ ˜ao de resultados finais
que s˜ao comparaveis ou superam outras implementac¸ ˜oes do mesmo g´enero.
Al ´em disso, s˜ao tamb´em apresentadas duas implementac¸ ˜oes art´ısticas da framework,
avaliando assim a sua usabilidade no dom´ınio da performance art´ıstica.
Apesar duma implementac¸ ˜ao espec´ıfica da framework ser apresentada nesta dissertac¸ ˜ao
e disponibilizada como software open-source, a abordagem proposta ´e suficientemente
flex´ıvel para que esta seja usada noutros cen´ arios. Abrindo assim, o
caminho para aplicac¸ ˜oes que poder˜ao beneficiar n˜ao s´o o dom´ınio das artes
performativas, mas tamb´em, provavelmente num futuro pr ´oximo, outros tipos de
comunicac¸ ˜ao, como por exemplo, a linguagem gestual usada em casos de deficiˆencia
auditiva