7 research outputs found
Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning
Dancing to music is one of human's innate abilities since ancient times. In
machine learning research, however, synthesizing dance movements from music is
a challenging problem. Recently, researchers synthesize human motion sequences
through autoregressive models like recurrent neural network (RNN). Such an
approach often generates short sequences due to an accumulation of prediction
errors that are fed back into the neural network. This problem becomes even
more severe in the long motion sequence generation. Besides, the consistency
between dance and music in terms of style, rhythm and beat is yet to be taken
into account during modeling. In this paper, we formalize the music-driven
dance generation as a sequence-to-sequence learning problem and devise a novel
seq2seq architecture to efficiently process long sequences of music features
and capture the fine-grained correspondence between music and dance.
Furthermore, we propose a novel curriculum learning strategy to alleviate error
accumulation of autoregressive models in long motion sequence generation, which
gently changes the training process from a fully guided teacher-forcing scheme
using the previous ground-truth movements, towards a less guided autoregressive
scheme mostly using the generated movements instead. Extensive experiments show
that our approach significantly outperforms the existing state-of-the-arts on
automatic metrics and human evaluation. We also make a demo video in the
supplementary material to demonstrate the superior performance of our proposed
approach.Comment: Accepted by ICLR 202
A framework for correcting human motion alignment for traditional dance training using augmented reality
This paper presents a framework for motion capture
analysis for dance learning technology using Microsoft Kinect V2. The proposed technology
utilizes motion detection, emotion analysis,
coordination analysis and interactive feedback
techniques for a particular dance style selected by the trainee.This motion capture system solves the
heterogeneity of the existing dance learning system
and hence provides robustness. The analysis of the
proposed work is carried out using query techniques
and heuristic evaluation. The Microsoft Kinect V2
embedded with Augmented Reality (AR) technology
is explored to demonstrate the recognition accuracy
of the proposed framework
ChoreoNet: Towards Music to Dance Synthesis with Choreographic Action Unit
Dance and music are two highly correlated artistic forms. Synthesizing dance
motions has attracted much attention recently. Most previous works conduct
music-to-dance synthesis via directly music to human skeleton keypoints
mapping. Meanwhile, human choreographers design dance motions from music in a
two-stage manner: they firstly devise multiple choreographic dance units
(CAUs), each with a series of dance motions, and then arrange the CAU sequence
according to the rhythm, melody and emotion of the music. Inspired by these, we
systematically study such two-stage choreography approach and construct a
dataset to incorporate such choreography knowledge. Based on the constructed
dataset, we design a two-stage music-to-dance synthesis framework ChoreoNet to
imitate human choreography procedure. Our framework firstly devises a CAU
prediction model to learn the mapping relationship between music and CAU
sequences. Afterwards, we devise a spatial-temporal inpainting model to convert
the CAU sequence into continuous dance motions. Experimental results
demonstrate that the proposed ChoreoNet outperforms baseline methods (0.622 in
terms of CAU BLEU score and 1.59 in terms of user study score).Comment: 10 pages, 5 figures, Accepted by ACM MM 202
Time to act: The relationship of time perception, action and expertise
Η περίπλοκη βιολογική κίνηση (π.χ., χορός) αποτελεί ένα ξεχωριστό πολυπαραγοντικό πεδίο μελέτης, το οποίο χάρις την ενσώματη και χωροχρονική πτυχή του, έλκει με ταχύτατους ρυθμούς το επιστημονικό ενδιαφέρον στο τομέα της γνωσιακής επιστήμης, και πιο συγκεκριμένα, στη μελέτη της χρονικής αντίληψης. Η έρευνα της χρονικής αντίληψης μέσω του χορού, δύναται να απαντήσει σε διάφορα ανοιχτά ερωτήματα και μεθοδολογικές ασυμφωνίες, προσδίδοντας μια πιο σύνθετη και οικολογικής εγκυρότητας οπτική, επεκτείνοντας τα ήδη υπάρχοντα πειραματικά έργα. Η παρούσα διδακτορική διατριβή με στόχο μια περαιτέρω εξέταση ακριβώς αυτής της σχέσης της περίπλοκης βιολογικής κίνησης (π.χ., χορός) και της χρονικής αντίληψης, χωρίζεται σε τρία κεφάλαια: σε μια κριτική ανασκόπηση της σχετικής βιβλιογραφίας των τελευταίων 15 ετών (Κεφάλαιο 1) και στην πραγματοποίηση πρωτότυπων πειραμάτων που διερευνούν τη σύνδεση αυτών των δύο στοιχείων (Κεφάλαια 2 & 3). Τα πειράματα που περιγράφονται στα Κεφάλαια 2 & 3, μπορούν να συμπεριληφθούν στην πρώτη ενότητα της ανασκόπησης μας, μιας και εστιάζουν σε μια πιθανή διασύνδεση του χορού με την εκτίμηση της χρονικής διάρκειας.
Στο πρώτο κεφάλαιο παρατίθεται μια ανασκόπηση των υπαρχουσών ερευνών που στοχεύουν στην παγίωση της σχέσης του χορού με : α) την εκτίμηση της χρονικής διάρκειας, β) το συγχρονισμό, γ) τις χρονικές παραμέτρους της κοινωνικής αλληλεπίδρασης, και δ) την επίδραση της τροπικότητας στη χρονική αντίληψη. Ο σκοπός αυτής της ανασκόπησης, είναι να διαμορφωθεί για πρώτη φορά μια σαφής και ολοκληρωμένη εικόνα της εδραιωμένης γνώσης πάνω στην αλληλεπίδραση του χορού και της χρονικής αντίληψης, η οποία δεν περιορίζεται σε αποτελέσματα βασικής έρευνας, αλλά ενέχει πιθανές κλινικές και τεχνολογικές εφαρμογές. Ευελπιστούμε αυτή η ανασκόπηση να λειτουργήσει ως εργαλείο στην περαιτέρω έρευνα των αναπάντητων ερωτημάτων στη χρονική αντίληψη αλλά και την εν γένει μελέτη του χορού.
Στο δεύτερο κεφάλαιο, εστιάζοντας ακριβώς στην προαναφερθείσα σχέση χορού και χρονικής αντίληψης περιγράφεται ένα πείραμα που εστίασε στη διαφορετική πιθανή επίδραση της αληθινής σε σύγκριση με την υπονοούμενη χορευτική κίνηση στην εκτίμηση της χρονικής διάρκειας. Έχει υποστηριχθεί ότι η κίνηση μπορεί να υπονοηθεί μέσω στατικών εικόνων, οι οποίες δύνανται να αποδώσουν ικανοποιητικά ένα δυναμικό γεγονός. Οι εικόνες υπονοούμενης κίνησης έχουν θεωρηθεί ένας ξεχωριστός τύπος ερεθίσματος, το οποίο μοιράζεται κοινούς μηχανισμούς επεξεργασίας με αληθινά κινούμενα ερεθίσματα. Σχετικές έρευνες έχουν δείξει μια υπερεκτίμηση της χρονικής διάρκειας των κινούμενων ερεθισμάτων σε σύγκριση με τα στατικά (χωρίς υπονοούμενη κίνηση) και των ερεθισμάτων που εμπεριέχουν περισσότερη σε σύγκριση με λιγότερη υπονοούμενη κίνηση. Ωστόσο, δεν έχει μελετηθεί ακόμα η άμεση σύγκριση αληθινής και αντίστοιχης υπονοούμενης κίνησης σε ένα χρονικό έργο εκτίμησης της διάρκειας. Στο συγκεκριμένο πείραμα, εξετάστηκε ακριβώς η επίδραση δυο υποθετικά ανάλογων ερεθισμάτων που εμπεριείχαν διαφορετική ποσότητα μπαλετικής κίνησης (ή υπονοούμενης μπαλετικής κίνησης) σε ένα έργο χρονικής αναπαραγωγής. Η ανάλυση έδειξε υπερεκτίμηση και μεγαλύτερη συνέπεια στις αποκρίσεις για τα ερεθίσματα που εμπεριείχαν αληθινή σε σύγκριση με υπονοούμενη κίνηση. Τα συγκεκριμένα ευρήματα επιβεβαιώνουν και επεκτείνουν παλιότερες μελέτες που υποστηρίζουν την υπερεκτίμηση κινούμενων ερεθισμάτων σε σύγκριση με στατικά, ακόμα και αν - όπως στην περίπτωση μας - υπονοούν κινηση. Ταυτόχρονα, η προαναφερθείσα προτεινόμενη αναλογία ανάμεσα σε αληθινή και υπονοούμενη κίνηση αμφισβητείται στο τομέα της χρονικής αντίληψης. Η αμφισβήτηση αυτή ενισχύεται από τα αποτελέσματα μας όσον αφορά την ποσότητα της κίνησης που εμπεριείχαν τα ερεθίσματα, η οποία φάνηκε να επηρεάζει μόνο τις συνθήκες αληθινής κίνησης.
Στο τρίτο κεφάλαιο, παραμένοντας στην αναζήτηση της σχέσης χορού και χρόνου παρουσιάζονται δύο πειράματα εμπνευσμένα από την ιδέα ότι η εκτίμηση της χρονικής διάρκειας συχνά επηρεάζεται από μη-χρονικούς παράγοντες, όπως για παράδειγμα, τη κατεύθυνση της κίνησης. Έχει παρατηρηθεί ότι η κίνηση προς τα μπροστά (που πλησιάζει το συμμετέχοντα) υπερεκτιμάται σε σύγκριση με τη κίνηση προς τα πίσω (που απομακρύνεται από το συμμετέχοντα). Αυτή η αντιληπτική ασυμμετρία έχει ερμηνευτεί βάσει της εξελικτικής σκοπιάς, σύμφωνα με την οποία δίνεται προτεραιότητα στα ερεθίσματα που κινούνται προ τα μπροστά ως έχοντα εξέχουσα σημασία, έτσι ώστε να υπάρχει αρκετός χρόνος για τη κατάλληλη αντίδραση σε κάτι που μας πλησιάζει. Η μελέτη αυτή της ασυμμετρίας έχει γίνει κυρίως με αφηρημένα ερεθίσματα τα οποία στερούνται κοινωνικής συνάφειας. Με έμφαση ακριβώς στο κοινωνικό πλαίσιο, εμείς χρησιμοποιήσαμε νατουραλιστικά ερεθίσματα οικολογικής εγκυρότητας σε ένα χρονικό έργο αναπαραγωγής. Στο πρώτο πείραμα συγκρίναμε ερεθίσματα που παρουσίαζαν μια κοπέλα να κάνει ένα βήμα προς τα μπροστά (πλησιάζοντας τους συμμετέχοντες) ή προς τα πίσω (απομακρυνόμενη από τους συμμετέχοντες) σε διάφορα χρονικά διαστήματα και δε βρήκαμε καμιά επίδραση της κατεύθυνσης της κίνησης στην εκτίμηση της χρονικής διάρκειας. Βασιζόμενοι στην αναφερόμενη «ανωτερότητα» των ακουστικών ερεθισμάτων στα χρονικά έργα, στο δεύτερο μας πείραμα προσθέσαμε ήχο (λευκό θόρυβο) δημιουργώντας συνθήκες συμφωνίας (ήχος και οπτικό ερέθισμα συμφωνούσαν ως προς την κατεύθυνση), ασυμφωνίας (ήχος και οπτικό ερέθισμα είχαν αντίθετες κατευθύνσεις) και ελέγχου (σταθερός/αμετάβλητος ήχος ανεξαρτήτως κατεύθυνσης του οπτικού ερεθίσματος). Η ανάλυση έδειξε υπερεκτίμηση της κίνησης προς τα μπροστά σε σύγκριση με την προς τα πίσω για τη σύμφωνη και τη συνθήκη ελέγχου, ενώ δεν παρατηρήθηκε κάποια επίδραση της κατεύθυνσης της κίνησης στην ασύμφωνη συνθήκη. Σε όλες τις συνθήκες τα διαστήματα που εξετάστηκαν υποεκτιμήθηκαν σε σχέση με την πραγματική τους αντικειμενική διάρκεια. Με βάση αυτή τη διαπίστωση, υποστηρίζουμε ότι η διαφορά που βρήκαμε μπορεί να αποδοθεί στη πιθανότητα να μη δίνεται τόση σημασία σε ήχους που απομακρύνονται σε αντίθεση με τη συνηθέστερη ερμηνεία που βασίζεται στην εξέχουσα σημασία των ερεθισμάτων που πλησιάζουν. Γίνεται επίσης εκτενής συζήτηση των αποτελεσμάτων μας σε σχέση με τη θεώρηση της ηχητικής τροπικότητας ως βέλτιστης σε χρονικά έργα.Complex biological motion (e.g., dance) represents a unique, multifactorial domain that is rapidly gaining the interest of cognitive scientists and timing researchers in particular, given its spatiotemporal complexity and embodied nature. The study of timing through dance can provide valuable insight in remaining open questions and methodological discrepancies, via a more complex and ecologically valid perspective, extending the existing paradigms. This thesis is divided in to three chapters in an effort to further investigate the connection of complex biological motion (e.g., dance) and timing either by thoroughly reviewing the related literature of the past 15 years (Chapter 1) or by conducting original experiments combining these two elements (Chapters 2 & 3). Chapters 2 and 3 could potentially be included in our review’s first aforementioned section, investigating the connection of dance and duration estimation in particular.
Chapter 1 is a narrative review that consolidates current literature on dance and a) duration estimation, b) synchronization/entrainment, c) temporal aspects of social interaction, and d) modality contribution in temporal perception. Thus, aiming to put together, for the first time, a complete picture of the knowledge gained to date on the interaction of dance and timing in regards not only to basic research findings but also potential clinical and technological applications. This overview hopefully, can also serve as a primer for questions that have yet remained unanswered both in timing and dance research.
Chapter 2 focuses on the different effect real vs. implied dance motion might have on duration perception, inspired by the notion of our timing estimates being often prone to distortions from non-temporal attributes. It has been argued that movement can be implied by static cues of images depicting an instance of a dynamic event. Instances of implied motion have been investigated as a special type of stimulus with common processing mechanisms to those of real motion. Timing studies have reported a lengthening of the perceived time for moving as opposed to static stimuli and for stimuli of higher as compared to lower amounts of implied motion. However, the actual comparison of real-versus-implied motion on timing has never been investigated. In the present study, we compared directly the effect of two hypothetically analogous ballet steps with different amounts of movement and static instances of the dynamic peak of these events in a reproduction task. The analysis revealed an overestimation and lower response variability for real as compared to implied motion stimuli. These findings replicate and extend the apparent duration lengthening for moving as compared to static stimulation, even for static images containing implied motion, questioning whether or not the previously reported correspondence between real and implied motion transfers in the timing domain. This lack of correspondence was further supported by the finding that the amount of movement presented affected only displays of real motion.
In Chapter 3 we describe a series of experiments investigating the effect of motion direction on duration judgments. Motion direction has been considered as a modulating factor of timing as well. Relevant research shows an interval dilation when the movement is towards (i.e., looming) as compared to away from the viewer (i.e., receding). This perceptual asymmetry has been interpreted based on the contextual salience and prioritization of looming stimuli that allows for timely reactions to approaching objects. This asymmetry has mainly been studied through abstract stimulation with minimal social relevance. Focusing on the latter, we utilized naturalistic displays of biological motion and examined the aforementioned perceptual asymmetry in the temporal domain. In Experiment 1, we tested visual looming and receding human movement at various intervals in a reproduction task and found no differences in the participants’ timing estimates as a function of motion direction. Given the superiority of audition in timing, in Experiment 2, we combined the looming and receding visual stimulation with sound stimulation of congruent, incongruent, or no direction information. The analysis showed an overestimation of the looming as compared to the receding visual stimulation when the sound presented was of congruent or no direction, while no such difference was noted for the incongruent condition. Both looming and receding conditions (congruent and control) led to underestimations as compared to the physical durations tested. Thus, the asymmetry obtained could be attributed to the potential perceptual negligibility of the receding stimuli instead of the often-reported salience of looming motion. The results are also discussed in term of the optimality of sound in the temporal domain