With the recent technological advancements, using video has become a focal point on
many ubiquitous activities, from presenting ideas to our peers to studying specific events
or even simply storing relevant video clips. As a result, taking or making notes can
become an invaluable tool in this process by helping us to retain knowledge, document
information, or simply reason about recorded contents.
This thesis introduces new features for a pre-existing Web-Based multimodal anno-
tation tool, namely the integration of 3D components in the current system and pose
estimation algorithms aimed at the moving elements in the multimedia content. There-
fore, the 3D developments will allow the user to experience a more immersive interaction
with the tool by being able to visualize 3D objects either in a neutral or 360º background
to then use them as traditional annotations. Afterwards, mechanisms for successfully
integrating these 3D models on the currently loaded video will be explored, along with
a detailed overview of the use of keypoints (pose estimation) to highlight details in this
same setting.
The goal of this thesis will thus be the development and evaluation of these features
seeking the construction of a virtual environment in which a user can successfully work
on a video by combining different types of annotations.Ao longo dos anos, a utilização de video tornou-se um aspecto fundamental em várias
das atividades realizadas no quotidiano como seja em demonstrações e apresentações
profissionais, para a análise minuciosa de detalhes visuais ou até simplesmente para
preservar videos considerados relevantes. Deste modo, o uso de anotações no decorrer
destes processos e semelhantes, constitui um fator de elevada importância ao melhorar
potencialmente a nossa compreensão relativa aos conteúdos em causa e também a ajudar
a reter características importantes ou a documentar informação pertinente.
Efetivamente, nesta tese pretende-se introduzir novas funcionalidades para uma fer-
ramenta de anotação multimodal, nomeadamente, a integração de componentes 3D no
sistema atual e algorítmos de Pose Estimation com vista à deteção de elementos em mo-
vimento em video. Assim, com estas features procura-se proporcionar um experiência
mais imersiva ao utilizador ao permitir, por exemplo, a visualização preliminar de objec-
tos num plano tridimensional em fundos neutros ou até 360º antes de os utilizar como
elementos de anotação tradicionais.
Com efeito, serão explorados mecanismos para a integração eficiente destes modelos
3D em video juntamente com o uso de keypoints (pose estimation) permitindo acentuar
pormenores neste ambiente de visualização. O objetivo desta tese será, assim, o desenvol-
vimento e avaliação continuada destas funcionalidades de modo a potenciar o seu uso em
ambientes virtuais em simultaneo com as diferentes tipos de anotações já existentes