4 research outputs found

    FastICA-algoritmin erottelukyky äänimaisema-analyysissä

    Get PDF
    Tiivistelmä. Ihmisen kuuloaisti kykenee erottelemaan ympäristöstään yksittäisiä ääniä erinomaisella tarkkuudella. Sitä on pyritty jäljittelemään monilla erilaisilla koneellisilla menetelmillä, mutta yksikään niistä ei ole saavuttanut ihmisen kuuloaistin erottelukykyä. Näistä menetelmistä hyödyllisimpiä ovat sokeat signaalin erottelumenetelmät (BSS), joissa äänilähteistä ei tiedetä mitään ennakkoon. Tässä työssä äänilähteiden erotteluun käytetään riippumattomien komponenttien analyysiä (ICA), joka on tehokas BSS-menetelmä. Tällä hetkellä ICA:lla kyetään hyvin erottelemaan äänilähteitä, mutta sen rajoituksia ovat muun muassa mikrofonien lukumäärä, äänilähteiden tilastollinen riippumattomuus, äänilähteiden liikkumattomuus sekä permutaatio ja skaalaus -ongelma. Tässä työssä kehitetyn ohjelmiston toteutus pohjautuu valmiiseen FastICA-algoritmiin, joka on tällä hetkellä yksi nopeimmista olemassa olevista ICA-algoritmeista. FastICA:n erottelukykyä arvioidaan koherenssilla 2–19 äänilähteen erottelussa. Tulokset osoittavat, että FastICA:n erottelukyky heikkenee äänilähteiden lukumäärän kasvaessa ja samankaltaiset äänilähteet eivät erotu hyvin. Lisäksi matalataajuiset signaalit osoittautuivat huonosti erottuviksi. Erinomaiseen erottelutulokseen päästään alle kahdeksalla äänellä, jolloin yli 95 % äänistä erottuu hyvin. Jatkotutkimuksessa tulisi keskittyä lisämenetelmiin, joilla voisi paikata ICA:n rajoituksia.The separation performance of the fastICA algorithm in auditory scene analysis. Abstract. The human sense of hearing is able to separate individual sounds in the environment with extraordinary accuracy. Several attempts have been made to imitate it artificially but so far none of these methods have achieved the performance of the human sense of hearing. The most useful of these methods is blind signal separation (BSS) since it does not need any preliminary information on the sound sources. This work used independent component analysis (ICA) for separating sound sources. ICA is an efficient blind signal separation technique. At the moment, ICA is able to separate sound sources well but it has limitations such as the amount of microphones used, statistical independence between sound sources, immobility of sound sources and the permutation and scaling problem. The software developed for this Bachelor’s thesis is based on the FastICA algorithm, which is currently one of the fastest ICA algorithms in existence. The accuracy of FastICA is measured by calculating the coherence in the separation of 2 to 19 sound sources. The results indicate that the separation performance of FastICA decreases as the number of sources increases and similar sound sources are not separated all that well. Additionally, low frequency signals are separated poorly. The separation performance is excellent with less than eight sound sources and over 95 % of sounds will separate well. In conclusion, it can be said that further research is needed in order to develop methods that deal with the limitations of ICA

    Time-Frequency Masking Performance for Improved Intelligibility with Microphone Arrays

    Get PDF
    Time-Frequency (TF) masking is an audio processing technique useful for isolating an audio source from interfering sources. TF masking has been applied and studied in monaural and binaural applications, but has only recently been applied to distributed microphone arrays. This work focuses on evaluating the TF masking technique\u27s ability to isolate human speech and improve speech intelligibility in an immersive cocktail party environment. In particular, an upper-bound on TF masking performance is established and compared to the traditional delay-sum and general sidelobe canceler (GSC) beamformers. Additionally, the novel technique of combining the GSC with TF masking is investigated and its performance evaluated. This work presents a resource-efficient method for studying the performance of these isolation techniques and evaluates their performance using both virtually simulated data and data recorded in a real-life acoustical environment. Further, methods are presented to analyze speech intelligibility post-processing, and automated objective intelligibility measurements are applied alongside informal subjective assessments to evaluate the performance of these processing techniques. Finally, the causes for subjective/objective intelligibility measurement disagreements are discussed, and it was shown that TF masking did enhance intelligibility beyond delay-sum beamforming and that the utilization of adaptive beamforming can be beneficial

    About Multichannel Speech Signal Extraction and Separation Techniques

    No full text
    corecore