17 research outputs found

    IMPROVING THE QUALITY, ANALYSIS AND INTERPRETATION OF BODY SOUNDS ACQUIRED IN CHALLENGING CLINICAL SETTINGS

    Get PDF
    Despite advances in medicine and technology, Acute Lower Respiratory Diseases are a leading cause of sickness and mortality worldwide, highly affecting countries where access to appropriate medical technology and expertise is scarce. Chest auscultation provides a low-cost, non-invasive, widely available tool for the examination of pulmonary health. Despite universal adoption, its use is riddled by a number of issues including subjectivity in interpretation and vulnerability to ambient noise, limiting its diagnostic capability. Digital auscultation and computerized methods come as a natural aid towards overcoming such imposed limitations. Focused on the challenges, we address the demanding real-life scenario of pediatric lung auscultation in busy clinical settings. Two major objectives lead to our contributions: 1) Can we improve the quality of the delicate auscultated sounds and reduce unwanted noise contamination; 2) Can we augment the screening capabilities of current stethoscopes using computerized lung sound analysis to capture the presence of abnormal breaths, and can we standardize findings. To address the first objective, we developed an adaptive noise suppression scheme that tackles contamination coming from a variety of sources, including subject-centric and electronic artifacts, and environmental noise. The proposed method was validated using objective and subjective measures including an expert reviewer panel and objective signal quality metrics. Results revealed the ability and superiority of the proposed method to i) suppress unwanted noise when compared to state-of-the-art technology, and ii) faithfully maintain the signature of the delicate body sounds. The second objective was addressed by exploring appropriate feature representations that capture distinct characteristics of body sounds. A biomimetic approach was employed, and the acoustic signal was projected onto high-dimensional spaces spanning time, frequency, temporal dynamics and spectral modulations. Trained classifiers produced localized decisions on these breath content features, indicating lung diseases. Unlike existing literature, our proposed scheme is further able to combine and integrate the localized decisions into individual, patient-level evaluation. A large corpus of annotated patient data was used to validate our approach, demonstrating the superiority of the proposed features and patient evaluation scheme. Overall findings indicate that improved accessible auscultation care is possible, towards creating affordable health care solutions with worldwide impact

    Training Audio Captioning Models without Audio

    Full text link
    Automated Audio Captioning (AAC) is the task of generating natural language descriptions given an audio stream. A typical AAC system requires manually curated training data of audio segments and corresponding text caption annotations. The creation of these audio-caption pairs is costly, resulting in general data scarcity for the task. In this work, we address this major limitation and propose an approach to train AAC systems using only text. Our approach leverages the multimodal space of contrastively trained audio-text models, such as CLAP. During training, a decoder generates captions conditioned on the pretrained CLAP text encoder. During inference, the text encoder is replaced with the pretrained CLAP audio encoder. To bridge the modality gap between text and audio embeddings, we propose the use of noise injection or a learnable adapter, during training. We find that the proposed text-only framework performs competitively with state-of-the-art models trained with paired audio, showing that efficient text-to-audio transfer is possible. Finally, we showcase both stylized audio captioning and caption enrichment while training without audio or human-created text captions

    Decoding auditory and tactile attention for use in an EEG-based brain-computer interface

    Get PDF
    International audienceBrain-computer interface (BCI) systems offer a non-verbal and covert way for humans to interact with a machine. They are designed to interpret a user's brain state that can be translated into action or for other communication purposes. This study investigates the feasibility of developing a hands-and eyes-free BCI system based on auditory and tactile attention. Users were presented with multiple simultaneous streams of auditory or tactile stimuli, and were directed to detect a pattern in one particular stream. We applied a linear classifier to decode the stream-tracking attention from the EEG signal. The results showed that the proposed BCI system could capture attention from most study participants using multisensory inputs, and showed potential in transfer learning across multiple sessions

    Digital auscultation in PERCH: Associations with chest radiography and pneumonia mortality in children.

    Get PDF
    BACKGROUND: Whether digitally recorded lung sounds are associated with radiographic pneumonia or clinical outcomes among children in low-income and middle-income countries is unknown. We sought to address these knowledge gaps. METHODS: We enrolled 1 to 59monthold children hospitalized with pneumonia at eight African and Asian Pneumonia Etiology Research for Child Health sites in six countries, recorded digital stethoscope lung sounds, obtained chest radiographs, and collected clinical outcomes. Recordings were processed and classified into binary categories positive or negative for adventitial lung sounds. Listening and reading panels classified recordings and radiographs. Recording classification associations with chest radiographs with World Health Organization (WHO)-defined primary endpoint pneumonia (radiographic pneumonia) or mortality were evaluated. We also examined case fatality among risk strata. RESULTS: Among children without WHO danger signs, wheezing (without crackles) had a lower adjusted odds ratio (aOR) for radiographic pneumonia (0.35, 95% confidence interval (CI): 0.15, 0.82), compared to children with normal recordings. Neither crackle only (no wheeze) (aOR: 2.13, 95% CI: 0.91, 4.96) or any wheeze (with or without crackle) (aOR: 0.63, 95% CI: 0.34, 1.15) were associated with radiographic pneumonia. Among children with WHO danger signs no lung recording classification was independently associated with radiographic pneumonia, although trends toward greater odds of radiographic pneumonia were observed among children classified with crackle only (no wheeze) or any wheeze (with or without crackle). Among children without WHO danger signs, those with recorded wheezing had a lower case fatality than those without wheezing (3.8% vs. 9.1%, p = .03). CONCLUSIONS: Among lower risk children without WHO danger signs digitally recorded wheezing is associated with a lower odds for radiographic pneumonia and with lower mortality. Although further research is needed, these data indicate that with further development digital auscultation may eventually contribute to child pneumonia care

    IMPROVING THE QUALITY, ANALYSIS AND INTERPRETATION OF BODY SOUNDS ACQUIRED IN CHALLENGING CLINICAL SETTINGS

    No full text
    Despite advances in medicine and technology, Acute Lower Respiratory Diseases are a leading cause of sickness and mortality worldwide, highly affecting countries where access to appropriate medical technology and expertise is scarce. Chest auscultation provides a low-cost, non-invasive, widely available tool for the examination of pulmonary health. Despite universal adoption, its use is riddled by a number of issues including subjectivity in interpretation and vulnerability to ambient noise, limiting its diagnostic capability. Digital auscultation and computerized methods come as a natural aid towards overcoming such imposed limitations. Focused on the challenges, we address the demanding real-life scenario of pediatric lung auscultation in busy clinical settings. Two major objectives lead to our contributions: 1) Can we improve the quality of the delicate auscultated sounds and reduce unwanted noise contamination; 2) Can we augment the screening capabilities of current stethoscopes using computerized lung sound analysis to capture the presence of abnormal breaths, and can we standardize findings. To address the first objective, we developed an adaptive noise suppression scheme that tackles contamination coming from a variety of sources, including subject-centric and electronic artifacts, and environmental noise. The proposed method was validated using objective and subjective measures including an expert reviewer panel and objective signal quality metrics. Results revealed the ability and superiority of the proposed method to i) suppress unwanted noise when compared to state-of-the-art technology, and ii) faithfully maintain the signature of the delicate body sounds. The second objective was addressed by exploring appropriate feature representations that capture distinct characteristics of body sounds. A biomimetic approach was employed, and the acoustic signal was projected onto high-dimensional spaces spanning time, frequency, temporal dynamics and spectral modulations. Trained classifiers produced localized decisions on these breath content features, indicating lung diseases. Unlike existing literature, our proposed scheme is further able to combine and integrate the localized decisions into individual, patient-level evaluation. A large corpus of annotated patient data was used to validate our approach, demonstrating the superiority of the proposed features and patient evaluation scheme. Overall findings indicate that improved accessible auscultation care is possible, towards creating affordable health care solutions with worldwide impact

    The effect of room acoustics on audio event classification

    No full text

    Συμπιεστική δειγματοληψία στην απεικόνιση μαγνητικού συντονισμού

    No full text
    Από τη πρώτη μαγνητική πυρηνική εικόνα που παράχθηκε το 1973, η απεικόνιση μαγνητικού συντονισμού (ΜΣ) εξελίχθηκε σε ένα κλινικά απαραίτητο και αποτελεσματικό εργαλείο απεικόνισης στη διαγνωστική ιατρική. Η ραγδαία ανάπτυξη που είχε σε κλινικές εφαρμογές συνοδεύτηκε, με το χρόνο, από πολυάριθμες καινοτομίες και προόδους στην απεικόνιση ΜΣ. Σε σημαντικό βαθμό, αυτή η εξέλιξη έχει επιτευχθεί μέσω αλλαγών στις τεχνικές εντοπισμού και μέσω νέων μηχανισμών αντίθεσης που έχουν βελτιώσει σε μεγάλο βαθμό την ποιότητα της εικόνας. Η ΜΣ απεικόνιση μπορεί να επωφεληθεί από μεθόδους μείωσης του χρόνου σάρωσης, με οφέλη τόσο για τον ασθενή όσο και στο κόστος της παροχής υπηρεσιών υγείας. Ο μηχανισμός της απεικόνισης ΜΣ αποτελεί ένα ταιριαστό πεδίο εφαρμογής της νέας θεωρίας της Συμπιεστικής Δειγματοληψίας (ΣΔ). Η ΣΔ είβναι μία καινοτόμος μέθοδος για την ανάκτηση και ανακατασκευή αραιών σημάτων, από δεδομένα που έχουν ληφθεί με υπο-δειγματοληψία. Η θεωρία του ΣΔ προχωράει πέρα από τη συνήθη μεθοδολογία της συμπίεσης όπου ένα σήμα πρώτα πρέπει να δειγματοληφθεί κατά Nyquist και έπειτα να συμπιεστεί, αποδεικνύοντας πως μια επιτυχής ανακατασκευή ενός αραιού σήματος μπορεί να πραγματοποιηθεί με μεγάλη πιθανότητα, λύνοντας ένα πρόβλημα βελτιστοποίησης με περιορισμούς, χρησιμοποιώντας ένα πολύ μικρό αριθμό μετρήσεων. Το πλήθος αυτών των μετρήσεων, γραμμικών συνδυασμών των τιμών του σήματος είναι ανάλογο της αραιότητας του σήματος και μικρότερο από το πλήθος των δειγμάτων που προβλέπει η κατά Nyquist θεωρία. Δύο προϋποθέσεις εγγυώνται την επιτυχή ανακατασκευή: το σήμα πρέπει να είναι αραιό (η συμπιέσιμο) σε κάποια βάση και οι μετρήσεις του σήματος πρέπει να αποκτούνται μέσω ενός «τυχαίου» τρόπου δειγματοληψίας. Η διαδικασία ΜΣ πληροί τις προϋποθέσεις αυτές. Πράγματι οι εικόνες ΜΣ είναι είτε φυσικά αραιές είτε μπορούν να αναπαρασταθούν αραιά σε κάποιο κατάλληλο πεδίο μετασχηματισμού. Ακόμη, η διαδικασία που λαμβάνεται το σήμα ΜΣ μέσω του τομογράφου, είναι αρκετά ευέλικτη και προσαρμόσιμη, και μπορεί να σχεδιαστεί με τρόπο που να ενσωματώνει την έννοια της τυχαίας λήψης δειγμάτων. Σε αυτή τη διατριβή μελετάμε την απόδοση τριών αλγόριθμων ΣΔ κατά την εφαρμογή τους σε σήματα μαγνητικών τομογραφιών. Στόχος μας είναι η παρουσίαση των βασικών ιδεών της απεικόνισης ΜΣ και με τρόπο που να ενσωματώνει την θεωρία της ΣΔ. Όλες οι μέθοδοι χρησιμοποιούν τη θεωρία ΣΔ για την ανάκτηση των ακατέργαστων ΜΣ από υπο- δειγματοληψία, με σκοπό την ανακατασκευή τηςη εικόνας ΜΣ. Οι αλγόριθμοι διαφέρουν ως προς τη διατύπωση και τον τρόπο που λύνουν το πρόβλημα βελτιστοποίησης. Οι μέθοδοι παρουσιάζονται αναλυτικά, συγκρίνονται και αξιολογούνται με βάση την ποιότητα ανακατασκευής, την αλγοριθμική πολυπλοκότητα, αλλά και τις απαιτήσεις χρόνου. Η πρώτη μέθοδος, Smoothed ℓ0, λύνει το πρόβλημα της ανακατασκευής χρησιμοποιώντας μια προσέγγιση της ℓ0 νόρμας. Είναι μια πολύ γρήγορη τεχνική με χαμηλή πολυπλοκότητα. Οι άλλες δύο μέθοδοι έχουν μεγαλύτερη πολυπλοκότητα αλλά επιτυγχάνουν καλύτερη απόδοση ανακατασκευής: η μέθοδος ℓ1-magic, λύνει το πρόβλημα βελτιστοποίησης της ℓ1 νόρμας μέσω της μεθόδου Newton και χρησιμοποιείται ευρέως από τη κοινότητα ΣΔ. Η τεχνική SparseMRI , χρησιμοποιεί ένα μη-γραμμικό βαθμιδωτό αλγόριθμο καθόδου κλίσης με οπισθοδρόμηση. Οι αλγόριθμοι που παρουσιάζονται συνεισφέρουν στην κατανόηση και στη σύνδεση των μυστικών που κρύβονται πίσω από τις θεωρίες ΣΔ και απεικόνισης ΜΣ.Since the first magnetic nuclear image was produced in 1973, magnetic resonance (MR) imaging has evolved into a clinically indispensable and efeective tool in diagnostic medicine. Over the years, the rapid growth in clinical applications has been accompanied by numerous technological advances in MR imaging (MRI). Much of this evolution has been accomplished through advances in localization techniques and new mechanisms of contrast which have greatly improved image quality. Still, MRI could benefit from approaches for scan time reduction, with benefits for patients and health care economics. The nature of the MRI constitutes a natural fit for Compressive Sensing (CS). Compressive sensing is a novel framework for recovering and reconstructing compressible signals from undersampled data. The theory of CS goes beyond conventional compression schemes where a signal should be sampled first and compressed afterwards, by stating that a successful signal reconstruction can be guaranteed with high probability by solving a convex optimization problem using only a small number of linear combinations of the signal' s values. Successful reconstruction is guaranteed under two assumptions, namely, the signal is sparse or compressible in some basis and the signal measurements are acquired through "random" sampling. The MR modality meets the two assumptions above. Indeed, MR images are either naturally sparse or may be sparsely represented in an appropriate transformed domain. Furthermore, MR acquisition schemes are quite exible and can be explicitly designed in order to incorporate the notion of randomness. In this thesis, we study the performance of three compressive sensing algorithms when applied to magnetic resonance signal modalities. Our goal is to present the basic MRI concepts as incorporated into the theory of CS, in a fashion that is comprehensible to a wide range of readers. All methods use the CS theory to recover the undersampled raw MR data and reconstruct the MR image but they differ in the minimization formulation of the reconstruction schemes they employ. The methods are thoroughly analyzed, compared and evaluated in terms of reconstruction quality, algorithmic complexity, and time consumption. The first method, Smoothed ℓ0 , invokes the theory of CS and uses an ℓ0 approximation to solve the reconstruction problem. It is a very fast technique with low complexity. The two other methods exhibit higher complexity but they are able to achieve better reconstruction results: ℓ1-magic, a commonly used reconstruction algorithm, solves the optimization problem through Newton steps while Sparse MRI uses a non linear gradient descent technique with backtracking. The algorithms presented herein provide a coherent understanding of the secrets and the ideas behind both CS and MRI theories

    Συμπιεστική δειγματοληψία στην απεικόνιση μαγνητικού συντονισμού

    No full text
    Από τη πρώτη μαγνητική πυρηνική εικόνα που παράχθηκε το 1973, η απεικόνιση μαγνητικού συντονισμού (ΜΣ) εξελίχθηκε σε ένα κλινικά απαραίτητο και αποτελεσματικό εργαλείο απεικόνισης στη διαγνωστική ιατρική. Η ραγδαία ανάπτυξη που είχε σε κλινικές εφαρμογές συνοδεύτηκε, με το χρόνο, από πολυάριθμες καινοτομίες και προόδους στην απεικόνιση ΜΣ. Σε σημαντικό βαθμό, αυτή η εξέλιξη έχει επιτευχθεί μέσω αλλαγών στις τεχνικές εντοπισμού και μέσω νέων μηχανισμών αντίθεσης που έχουν βελτιώσει σε μεγάλο βαθμό την ποιότητα της εικόνας. Η ΜΣ απεικόνιση μπορεί να επωφεληθεί από μεθόδους μείωσης του χρόνου σάρωσης, με οφέλη τόσο για τον ασθενή όσο και στο κόστος της παροχής υπηρεσιών υγείας. Ο μηχανισμός της απεικόνισης ΜΣ αποτελεί ένα ταιριαστό πεδίο εφαρμογής της νέας θεωρίας της Συμπιεστικής Δειγματοληψίας (ΣΔ). Η ΣΔ είβναι μία καινοτόμος μέθοδος για την ανάκτηση και ανακατασκευή αραιών σημάτων, από δεδομένα που έχουν ληφθεί με υπο-δειγματοληψία. Η θεωρία του ΣΔ προχωράει πέρα από τη συνήθη μεθοδολογία της συμπίεσης όπου ένα σήμα πρώτα πρέπει να δειγματοληφθεί κατά Nyquist και έπειτα να συμπιεστεί, αποδεικνύοντας πως μια επιτυχής ανακατασκευή ενός αραιού σήματος μπορεί να πραγματοποιηθεί με μεγάλη πιθανότητα, λύνοντας ένα πρόβλημα βελτιστοποίησης με περιορισμούς, χρησιμοποιώντας ένα πολύ μικρό αριθμό μετρήσεων. Το πλήθος αυτών των μετρήσεων, γραμμικών συνδυασμών των τιμών του σήματος είναι ανάλογο της αραιότητας του σήματος και μικρότερο από το πλήθος των δειγμάτων που προβλέπει η κατά Nyquist θεωρία. Δύο προϋποθέσεις εγγυώνται την επιτυχή ανακατασκευή: το σήμα πρέπει να είναι αραιό (η συμπιέσιμο) σε κάποια βάση και οι μετρήσεις του σήματος πρέπει να αποκτούνται μέσω ενός «τυχαίου» τρόπου δειγματοληψίας. Η διαδικασία ΜΣ πληροί τις προϋποθέσεις αυτές. Πράγματι οι εικόνες ΜΣ είναι είτε φυσικά αραιές είτε μπορούν να αναπαρασταθούν αραιά σε κάποιο κατάλληλο πεδίο μετασχηματισμού. Ακόμη, η διαδικασία που λαμβάνεται το σήμα ΜΣ μέσω του τομογράφου, είναι αρκετά ευέλικτη και προσαρμόσιμη, και μπορεί να σχεδιαστεί με τρόπο που να ενσωματώνει την έννοια της τυχαίας λήψης δειγμάτων. Σε αυτή τη διατριβή μελετάμε την απόδοση τριών αλγόριθμων ΣΔ κατά την εφαρμογή τους σε σήματα μαγνητικών τομογραφιών. Στόχος μας είναι η παρουσίαση των βασικών ιδεών της απεικόνισης ΜΣ και με τρόπο που να ενσωματώνει την θεωρία της ΣΔ. Όλες οι μέθοδοι χρησιμοποιούν τη θεωρία ΣΔ για την ανάκτηση των ακατέργαστων ΜΣ από υπο- δειγματοληψία, με σκοπό την ανακατασκευή τηςη εικόνας ΜΣ. Οι αλγόριθμοι διαφέρουν ως προς τη διατύπωση και τον τρόπο που λύνουν το πρόβλημα βελτιστοποίησης. Οι μέθοδοι παρουσιάζονται αναλυτικά, συγκρίνονται και αξιολογούνται με βάση την ποιότητα ανακατασκευής, την αλγοριθμική πολυπλοκότητα, αλλά και τις απαιτήσεις χρόνου. Η πρώτη μέθοδος, Smoothed ℓ0, λύνει το πρόβλημα της ανακατασκευής χρησιμοποιώντας μια προσέγγιση της ℓ0 νόρμας. Είναι μια πολύ γρήγορη τεχνική με χαμηλή πολυπλοκότητα. Οι άλλες δύο μέθοδοι έχουν μεγαλύτερη πολυπλοκότητα αλλά επιτυγχάνουν καλύτερη απόδοση ανακατασκευής: η μέθοδος ℓ1-magic, λύνει το πρόβλημα βελτιστοποίησης της ℓ1 νόρμας μέσω της μεθόδου Newton και χρησιμοποιείται ευρέως από τη κοινότητα ΣΔ. Η τεχνική SparseMRI , χρησιμοποιεί ένα μη-γραμμικό βαθμιδωτό αλγόριθμο καθόδου κλίσης με οπισθοδρόμηση. Οι αλγόριθμοι που παρουσιάζονται συνεισφέρουν στην κατανόηση και στη σύνδεση των μυστικών που κρύβονται πίσω από τις θεωρίες ΣΔ και απεικόνισης ΜΣ.Since the first magnetic nuclear image was produced in 1973, magnetic resonance (MR) imaging has evolved into a clinically indispensable and efeective tool in diagnostic medicine. Over the years, the rapid growth in clinical applications has been accompanied by numerous technological advances in MR imaging (MRI). Much of this evolution has been accomplished through advances in localization techniques and new mechanisms of contrast which have greatly improved image quality. Still, MRI could benefit from approaches for scan time reduction, with benefits for patients and health care economics. The nature of the MRI constitutes a natural fit for Compressive Sensing (CS). Compressive sensing is a novel framework for recovering and reconstructing compressible signals from undersampled data. The theory of CS goes beyond conventional compression schemes where a signal should be sampled first and compressed afterwards, by stating that a successful signal reconstruction can be guaranteed with high probability by solving a convex optimization problem using only a small number of linear combinations of the signal' s values. Successful reconstruction is guaranteed under two assumptions, namely, the signal is sparse or compressible in some basis and the signal measurements are acquired through "random" sampling. The MR modality meets the two assumptions above. Indeed, MR images are either naturally sparse or may be sparsely represented in an appropriate transformed domain. Furthermore, MR acquisition schemes are quite exible and can be explicitly designed in order to incorporate the notion of randomness. In this thesis, we study the performance of three compressive sensing algorithms when applied to magnetic resonance signal modalities. Our goal is to present the basic MRI concepts as incorporated into the theory of CS, in a fashion that is comprehensible to a wide range of readers. All methods use the CS theory to recover the undersampled raw MR data and reconstruct the MR image but they differ in the minimization formulation of the reconstruction schemes they employ. The methods are thoroughly analyzed, compared and evaluated in terms of reconstruction quality, algorithmic complexity, and time consumption. The first method, Smoothed ℓ0 , invokes the theory of CS and uses an ℓ0 approximation to solve the reconstruction problem. It is a very fast technique with low complexity. The two other methods exhibit higher complexity but they are able to achieve better reconstruction results: ℓ1-magic, a commonly used reconstruction algorithm, solves the optimization problem through Newton steps while Sparse MRI uses a non linear gradient descent technique with backtracking. The algorithms presented herein provide a coherent understanding of the secrets and the ideas behind both CS and MRI theories
    corecore