52 research outputs found
Extending Compositional Attention Networks for Social Reasoning in Videos
We propose a novel deep architecture for the task of reasoning about social
interactions in videos. We leverage the multi-step reasoning capabilities of
Compositional Attention Networks (MAC), and propose a multimodal extension
(MAC-X). MAC-X is based on a recurrent cell that performs iterative mid-level
fusion of input modalities (visual, auditory, text) over multiple reasoning
steps, by use of a temporal attention mechanism. We then combine MAC-X with
LSTMs for temporal input processing in an end-to-end architecture. Our ablation
studies show that the proposed MAC-X architecture can effectively leverage
multimodal input cues using mid-level fusion mechanisms. We apply MAC-X to the
task of Social Video Question Answering in the Social IQ dataset and obtain a
2.5% absolute improvement in terms of binary accuracy over the current
state-of-the-art
Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling
The study of speech disorders can benefit greatly from time-aligned data.
However, audio-text mismatches in disfluent speech cause rapid performance
degradation for modern speech aligners, hindering the use of automatic
approaches. In this work, we propose a simple and effective modification of
alignment graph construction of CTC-based models using Weighted Finite State
Transducers. The proposed weakly-supervised approach alleviates the need for
verbatim transcription of speech disfluencies for forced alignment. During the
graph construction, we allow the modeling of common speech disfluencies, i.e.
repetitions and omissions. Further, we show that by assessing the degree of
audio-text mismatch through the use of Oracle Error Rate, our method can be
effectively used in the wild. Our evaluation on a corrupted version of the
TIMIT test set and the UCLASS dataset shows significant improvements,
particularly for recall, achieving a 23-25% relative improvement over our
baselines.Comment: Interspeech 202
Μελέτη συχνότητας φορέων παθογόνων παραλλαγών σε αυτοσωμικά υπολειπόμενα γονίδια με σκοπό την αξιοποίηση τους για αναπαραγωγικές επιλογές
Η ραγδαία εξέλιξη της τεχνολογίας αλληλούχισης του γονιδιώματος, αλλά και η συνεχιζόμενη ανάπτυξη των τεχνικών ανάλυσης των δεδομένων που προκύπτουν από αυτή, οδήγησε τη δυνατότητα στα νέα ζευγάρια του εκτενούς ελέγχου φορείας για σπάνια υπολειπόμενα γενετικά νοσήματα, ανεξάρτητα από την φυλετική καταγωγή του ζευγαριού και μάλιστα σε προσιτό κόστος. Ο έλεγχος παρέχει στους γονείς την γνώση του κινδύνου να αποκτήσουν παιδί με νόσημα και τη δυνατότητα αναπαραγωγικών επιλογών.
Σκοπός της παρούσας μελέτης είναι ο προσδιορισμός στον ελληνικό πληθυσμό της συχνότητας εμφάνισης παθογόνων παραλλαγών (φορείες) σε 1273 γονίδια που ευθύνονται για την εμφάνιση αυτοσωμικών ή φυλοσύνδετων υπολειπόμενων νοσημάτων όπως καθορίστηκαν στο Αυστραλιανό πρόγραμμα Mackenzie’s Mission. Συγκεκριμένα πραγματοποιήθηκε ανάλυση των δεδομένων από ελέγχους WES 350 ασθενών που παραπέμφθηκαν στο Εργαστήριο Ιατρικής Γενετικής της Ιατρικής Σχολής του ΕΚΠΑ. Από την ανάλυση εντοπίστηκαν 482 παθογόνες παραλλαγές και διαπιστώθηκε ότι περίπου το ~2% των ζευγαριών στην Ελλάδα διατρέχει κίνδυνο να έχει παθολογική κύηση, ενώ περίπου 1/200 νεογνά κινδυνεύουν να πάσχουν από σπάνιο γενετικό νόσημα (υπολογισμοί βασισμένοι στις 85.000 καταγεγραμμένες γεννήσεις το 2021 στη Ελλάδα). Η πιθανότητα αυτή είναι σημαντικά μεγαλύτερη από την αναμενόμενη που οφείλεται σε ανευπλοειδίες οι οποίες ελέγχονται στον προβλεπόμενο προγεννητικό έλεγχο (Down Syndrome με συχνότητα εμφάνισης 1/700 γεννήσεις). Συμπληρωματικά διαπιστώθηκε ότι 20 από τα 1273 γονίδια εμφανίζουν παθογόνες παραλλαγές με συχνότητα μεγαλύτερη του 1% στον ελληνικό πληθυσμό. Εξετάζοντας τα 20 αυτά γονίδια ανιχνεύονται 1192 ζευγάρια που έχουν υψηλό ρίσκο, δηλαδή το 1,39% των ζευγαριών που τεκνοποίησαν στην Ελλάδα το 2021, έναντι 2% που καλύπτει ο έλεγχος των 1273 γονιδίων. Επίσης με αυτόν τον τρόπο ανιχνεύονται οι 296 δυνητικά παθολογικές κυήσεις από τις 400 του συνολικού ελέγχου. Έτσι ελέγχοντας το 1,57% των γονιδίων μπορούμε να αποτρέψουμε το 74% των δυνητικά παθολογικών κυήσεων.
O εκτενής έλεγχος φορείας σπάνιων γενετικών νοσημάτων αποτελεί σημαντικό αναπαραγωγικό εργαλείο για τα νέα ζευγάρια, αλλά και μεγάλη πρόκληση για το ιατρικό προσωπικό να συμβάλλει στη βελτίωση της ποιότητάς του, αλλά και να θέσει τους κανόνες της επαρκούς και ηθικά ασφαλούς εφαρμογής του.The rapid development of genome sequencing technology, and the ongoing development of data analysis techniques, has led to the possibility for new couples to undergo extensive screening for rare recessive genetic diseases, regardless of the couple's racial origin and at an affordable cost. Screening provides parents with knowledge of the risk of having a child with a disease and the possibility of reproductive options.
The aim of the current study is to determine in the Greek population the incidence of pathogenic variants (carriers) in 1273 genes responsible for the occurrence of autosomal or sex-linked recessive diseases as defined in the Australian Mackenzie's Mission program. Specifically, data analysis was performed on WES screening of 350 patients referred to the Laboratory of Medical Genetics of the School of Medicine of the University of Athens. The analysis identified 482 pathogenic variants and found that approximately ~2% of couples in Greece are at risk of having an abnormal pregnancy, while approximately 1/200 newborns are at risk of suffering from a rare genetic disease (calculations based on 85,000 registered births in 2021 in Greece). This probability is significantly higher than the propability that is expected due to aneuploidies that are screened in the planned prenatal screening (Down Syndrome with an incidence of 1/700 births). In addition, 20 of the 1273 genes were found to have pathogenic variants with a frequency of more than 1% in the Greek population. Examining these 20 genes, 1192 high-risk couples are detected, which is 1.39% of couples who have conceived in Greece in 2021, compared to 2% covered by the 1273 gene screening. Also detected in this way are 296 potentially abnormal pregnancies out of 400 in the total screening. Thus by screening 1.57% of genes we can prevent 74% of potentially abnormal pregnancies.
Extensive screening for rare genetic diseases is an important reproductive tool for new couples, but also a great challenge for medical staff to contribute to the improvement of its quality and to set the rules for its adequate and ethically safe application
Investigating Personalization Methods in Text to Music Generation
In this work, we investigate the personalization of text-to-music diffusion
models in a few-shot setting. Motivated by recent advances in the computer
vision domain, we are the first to explore the combination of pre-trained
text-to-audio diffusers with two established personalization methods. We
experiment with the effect of audio-specific data augmentation on the overall
system performance and assess different training strategies. For evaluation, we
construct a novel dataset with prompts and music clips. We consider both
embedding-based and music-specific metrics for quantitative evaluation, as well
as a user study for qualitative evaluation. Our analysis shows that similarity
metrics are in accordance with user preferences and that current
personalization approaches tend to learn rhythmic music constructs more easily
than melody. The code, dataset, and example material of this study are open to
the research community.Comment: Submitted to ICASSP 2024, Examples at https://zelaki.github.io
- …