52 research outputs found

    Extending Compositional Attention Networks for Social Reasoning in Videos

    Full text link
    We propose a novel deep architecture for the task of reasoning about social interactions in videos. We leverage the multi-step reasoning capabilities of Compositional Attention Networks (MAC), and propose a multimodal extension (MAC-X). MAC-X is based on a recurrent cell that performs iterative mid-level fusion of input modalities (visual, auditory, text) over multiple reasoning steps, by use of a temporal attention mechanism. We then combine MAC-X with LSTMs for temporal input processing in an end-to-end architecture. Our ablation studies show that the proposed MAC-X architecture can effectively leverage multimodal input cues using mid-level fusion mechanisms. We apply MAC-X to the task of Social Video Question Answering in the Social IQ dataset and obtain a 2.5% absolute improvement in terms of binary accuracy over the current state-of-the-art

    Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling

    Full text link
    The study of speech disorders can benefit greatly from time-aligned data. However, audio-text mismatches in disfluent speech cause rapid performance degradation for modern speech aligners, hindering the use of automatic approaches. In this work, we propose a simple and effective modification of alignment graph construction of CTC-based models using Weighted Finite State Transducers. The proposed weakly-supervised approach alleviates the need for verbatim transcription of speech disfluencies for forced alignment. During the graph construction, we allow the modeling of common speech disfluencies, i.e. repetitions and omissions. Further, we show that by assessing the degree of audio-text mismatch through the use of Oracle Error Rate, our method can be effectively used in the wild. Our evaluation on a corrupted version of the TIMIT test set and the UCLASS dataset shows significant improvements, particularly for recall, achieving a 23-25% relative improvement over our baselines.Comment: Interspeech 202

    Μελέτη συχνότητας φορέων παθογόνων παραλλαγών σε αυτοσωμικά υπολειπόμενα γονίδια με σκοπό την αξιοποίηση τους για αναπαραγωγικές επιλογές

    Get PDF
    Η ραγδαία εξέλιξη της τεχνολογίας αλληλούχισης του γονιδιώματος, αλλά και η συνεχιζόμενη ανάπτυξη των τεχνικών ανάλυσης των δεδομένων που προκύπτουν από αυτή, οδήγησε τη δυνατότητα στα νέα ζευγάρια του εκτενούς ελέγχου φορείας για σπάνια υπολειπόμενα γενετικά νοσήματα, ανεξάρτητα από την φυλετική καταγωγή του ζευγαριού και μάλιστα σε προσιτό κόστος. Ο έλεγχος παρέχει στους γονείς την γνώση του κινδύνου να αποκτήσουν παιδί με νόσημα και τη δυνατότητα αναπαραγωγικών επιλογών. Σκοπός της παρούσας μελέτης είναι ο προσδιορισμός στον ελληνικό πληθυσμό της συχνότητας εμφάνισης παθογόνων παραλλαγών (φορείες) σε 1273 γονίδια που ευθύνονται για την εμφάνιση αυτοσωμικών ή φυλοσύνδετων υπολειπόμενων νοσημάτων όπως καθορίστηκαν στο Αυστραλιανό πρόγραμμα Mackenzie’s Mission. Συγκεκριμένα πραγματοποιήθηκε ανάλυση των δεδομένων από ελέγχους WES 350 ασθενών που παραπέμφθηκαν στο Εργαστήριο Ιατρικής Γενετικής της Ιατρικής Σχολής του ΕΚΠΑ. Από την ανάλυση εντοπίστηκαν 482 παθογόνες παραλλαγές και διαπιστώθηκε ότι περίπου το ~2% των ζευγαριών στην Ελλάδα διατρέχει κίνδυνο να έχει παθολογική κύηση, ενώ περίπου 1/200 νεογνά κινδυνεύουν να πάσχουν από σπάνιο γενετικό νόσημα (υπολογισμοί βασισμένοι στις 85.000 καταγεγραμμένες γεννήσεις το 2021 στη Ελλάδα). Η πιθανότητα αυτή είναι σημαντικά μεγαλύτερη από την αναμενόμενη που οφείλεται σε ανευπλοειδίες οι οποίες ελέγχονται στον προβλεπόμενο προγεννητικό έλεγχο (Down Syndrome με συχνότητα εμφάνισης 1/700 γεννήσεις). Συμπληρωματικά διαπιστώθηκε ότι 20 από τα 1273 γονίδια εμφανίζουν παθογόνες παραλλαγές με συχνότητα μεγαλύτερη του 1% στον ελληνικό πληθυσμό. Εξετάζοντας τα 20 αυτά γονίδια ανιχνεύονται 1192 ζευγάρια που έχουν υψηλό ρίσκο, δηλαδή το 1,39% των ζευγαριών που τεκνοποίησαν στην Ελλάδα το 2021, έναντι 2% που καλύπτει ο έλεγχος των 1273 γονιδίων. Επίσης με αυτόν τον τρόπο ανιχνεύονται οι 296 δυνητικά παθολογικές κυήσεις από τις 400 του συνολικού ελέγχου. Έτσι ελέγχοντας το 1,57% των γονιδίων μπορούμε να αποτρέψουμε το 74% των δυνητικά παθολογικών κυήσεων. O εκτενής έλεγχος φορείας σπάνιων γενετικών νοσημάτων αποτελεί σημαντικό αναπαραγωγικό εργαλείο για τα νέα ζευγάρια, αλλά και μεγάλη πρόκληση για το ιατρικό προσωπικό να συμβάλλει στη βελτίωση της ποιότητάς του, αλλά και να θέσει τους κανόνες της επαρκούς και ηθικά ασφαλούς εφαρμογής του.The rapid development of genome sequencing technology, and the ongoing development of data analysis techniques, has led to the possibility for new couples to undergo extensive screening for rare recessive genetic diseases, regardless of the couple's racial origin and at an affordable cost. Screening provides parents with knowledge of the risk of having a child with a disease and the possibility of reproductive options. The aim of the current study is to determine in the Greek population the incidence of pathogenic variants (carriers) in 1273 genes responsible for the occurrence of autosomal or sex-linked recessive diseases as defined in the Australian Mackenzie's Mission program. Specifically, data analysis was performed on WES screening of 350 patients referred to the Laboratory of Medical Genetics of the School of Medicine of the University of Athens. The analysis identified 482 pathogenic variants and found that approximately ~2% of couples in Greece are at risk of having an abnormal pregnancy, while approximately 1/200 newborns are at risk of suffering from a rare genetic disease (calculations based on 85,000 registered births in 2021 in Greece). This probability is significantly higher than the propability that is expected due to aneuploidies that are screened in the planned prenatal screening (Down Syndrome with an incidence of 1/700 births). In addition, 20 of the 1273 genes were found to have pathogenic variants with a frequency of more than 1% in the Greek population. Examining these 20 genes, 1192 high-risk couples are detected, which is 1.39% of couples who have conceived in Greece in 2021, compared to 2% covered by the 1273 gene screening. Also detected in this way are 296 potentially abnormal pregnancies out of 400 in the total screening. Thus by screening 1.57% of genes we can prevent 74% of potentially abnormal pregnancies. Extensive screening for rare genetic diseases is an important reproductive tool for new couples, but also a great challenge for medical staff to contribute to the improvement of its quality and to set the rules for its adequate and ethically safe application

    Investigating Personalization Methods in Text to Music Generation

    Full text link
    In this work, we investigate the personalization of text-to-music diffusion models in a few-shot setting. Motivated by recent advances in the computer vision domain, we are the first to explore the combination of pre-trained text-to-audio diffusers with two established personalization methods. We experiment with the effect of audio-specific data augmentation on the overall system performance and assess different training strategies. For evaluation, we construct a novel dataset with prompts and music clips. We consider both embedding-based and music-specific metrics for quantitative evaluation, as well as a user study for qualitative evaluation. Our analysis shows that similarity metrics are in accordance with user preferences and that current personalization approaches tend to learn rhythmic music constructs more easily than melody. The code, dataset, and example material of this study are open to the research community.Comment: Submitted to ICASSP 2024, Examples at https://zelaki.github.io
    corecore