Search CORE

59 research outputs found

Анализ спектра гласных на основе неравномерной психоакустической шкалы эрбов для определения словесного ударения

Author: Евдокимова Вера Вячеславовна
Publication venue: СПб ФИЦ РАН
Publication date: 09/04/2014
Field of study

The paper presents a possibility to determine the stressed syllable in the word by examining features of the vowel formant structure. Based on the analysis of the array of logatoms the vowel formant structure is identified. The energy characteristics of individual formants of different vowels in one word are compared. Spectrum is split by the vowels psychoacoustic ERB scale. For ease of handling of the material resulting array of partial dispersions is codified. To determine the stressed vowel the resulting array codes are broken on the basis of the stressed/unstressed vowel characteristic and phoneme type. Partial arrays comparison enables to confirm the existence of the stress feature characteristic and identify phonetic features of this phenomenon, existing in the vowel formant structure. The vowel stress characteristic is defined by the vowel formant pattern and can effectively complement the determination of stressed syllables being added to conventional stressed vowel characteristics.Рассматривается возможность определения в слове ударного слога путем изучения особенностей формантной картины. На основе анализа массива логатомов выявляются особенности формантной картины, причем сравниваются энергетические характеристики отдельных формант. Опираясь на допущение об оптимальности способа формирования диктором речевой посылки, спектр гласных разбивается по психоакустической шкале эрбов. Для удобства обработки материала полученный массив частичных дисперсий кодифицируется. Для выявления признака ударности полученный массив кодов разбивается по признаку гласной и по признаку ударности. Сравнение частичных массивов дает возможность подтвердить существование исследуемого признака ударности и выявить фонетические особенности этого явления, существующие в формантной картине. Сделан вывод о возможности применения признака ударности по особенностям формантной картины гласной как эффективно дополняющего определение ударности слога в слове по иным общепринятым признакам

Информатика и автоматизация

A Review: Voice Pathology Classification Using Machine Learning

Author: Nisha Balani
Uma Patel Thakur
Zubin Nizam Khan
Publication venue: ASSOC ADVANCEMENT ZOOLOGY , AZADANAGAR COLONY RUSTAMPUR, GORAKHPUR, INDIA, 273001
Publication date: 25/11/2023
Field of study

Voice pathology detection requires the presence of a specialist doctor and time to treat each patient, but it is not always possible to have a doctor who can treat all patients at once and at one precise time. For residents of remote areas, it is all expensive equipment that must be provided. Or even for people who may not be aware of having any voice pathology. Our goal is to design a diagnostic aid system to detect whether the voice is pathological or healthy, so that the patient can be referred to a doctor or not without being moved from the start. Our system is based on the classification, by SVM "Support Vector Machine", using MFCCs "Mel Frequency Cepstral Coefficients" extracted from the patient's voice. The learning and testing of our system are done using the SVD database "Saarbruecken Voice Database

Journal Of Advanced Zoology

Определение патологии голосового аппарата на основе анализа модуляционного спектра речи в критических полосах

Author: Ilya Sergeevich Azarov
Maksim Iosivovich Vashkevich
Publication venue: Russian Academy of Sciences, St. Petersburg Federal Research Center
Publication date: 01/04/2020
Field of study

Предложен метод определения патологических изменений голоса на основе анализа модуляционного спектра речевого сигнала. Модуляционный спектр вычисляется при помощи двух последовательных частотно-временных преобразований: первое переводит сигнал в частотную область, второе – в модуляционную. Особенностью предложенного метода является использование неравномерного частотно-временного плана при переводе сигнала в частотную область. Предложен способ оценки модуляционного спектра, основанный на принципах антропоморфической обработки сигналов, имитирующий неравномерное частотно-временное разрешение слуховой системы человека. Использован неравнополосный банк фильтров модулированный дискретным преобразований Фурье, аппроксимирующий шкалу критических частот и повышающий временное разрешение в широких полосах. Банк фильтров использует фазовые (всепропускающие) звенья в качестве элементов задержки, что позволяет получить неравномерный частотно-временной план. Выполнено сравнение предложенного способа с более традиционным способом вычисления модуляционного спектра в критических полосах с фиксированным временным разрешением. Приведены данные экспериментов по использованию параметров модуляционного спектра для определения патологических изменений голоса, обусловленных: 1) боковым амиотрофическим склерозом (БАС); 2) заболеваниями гортани. Отбор и ранжирование параметров модуляционного спектра, использованных в качестве информационных признаков для классификации, выполнен при помощи метода LASSO. Классификация параметров на основе линейного дискриминантного анализа обеспечила высокую точность определения патологии (более 97%). Полученные результаты свидетельствуют о том, что использование неравномерного частотного-временного плана является предпочтительным в случае, когда анализируемый сигнал является протяжным гласным звуком, поскольку обеспечивает более высокую точность обнаружения патологии при меньшем числе модуляционных параметров

Directory of Open Access Journals

Определение патологии голосового аппарата на основе анализа модуляционного спектра речи в критических полосах

Author: Азаров Илья Сергеевич
Вашкевич Максим Иосифович
Publication venue: СПб ФИЦ РАН
Publication date: 07/04/2020
Field of study

The paper presents an approach to the analysis of the modulation spectrum of a voice signal, in which the primary acoustic analysis is performed in bands of unequal width. Nonuniform analysis corresponds to the psychoacoustic laws of human perception of sound information. In the context of the analysis of the modulation spectrum, the considered approach can significantly reduce the resulting number of parameters, which greatly simplifies the task of detecting pathological changes in the voice signal based on the analysis of the parameters of the modulation spectrum. For frequency decomposition of a signal into bands of unequal width, two methods are considered: 1) DFT with channel combination and 2) the use of an nonuniform filter bank. The first method is characterized by a fixed time window for the analysis of all frequency components, while in the second method the time-frequency analysis plan is consistent with the critical frequency scale of the barks. For each method, a practical signal analysis circuit has been developed and described. The paper presents the experimental data on the application of the developed schemes for the analysis of the modulation spectrum to the problem of detecting pathology in a speech signal. The parameters of the modulation spectrum acted as information signs for a classifier built on the basis of linear discriminant analysis. Three different voice bases were used in the experiment (in two cases, the pathology was neurological ALS disease (amyotrophic lateral sclerosis), and in the third case, diseases of the larynx). The parameters of the modulation spectrum obtained in the DFT-based scheme with channel combining turned out to be more preferable for classification with a small number of features, however, greater accuracy (with an increase in the number of features) made it possible to obtain the parameters obtainedin the scheme based on an unequal filter bank. In all cases, the obtained classifiers were highly accurate (more than 97%). The obtained results show that the use of nonuniform time-frequency representation is preferable in the case when the analyzed signal is a sustained vowel phonation, since it provides higher accuracy of pathology detection using fewer modulation parametersПредложен метод определения патологических изменений голоса на основе анализа модуляционного спектра речевого сигнала. Модуляционный спектр вычисляется при помощи двух последовательных частотно-временных преобразований: первое переводит сигнал в частотную область, второе – в модуляционную. Особенностью предложенного метода является использование неравномерного частотно-временного плана при переводе сигнала в частотную область. Предложен способ оценки модуляционного спектра, основанный на принципах антропоморфической обработки сигналов, имитирующий неравномерное частотно-временное разрешение слуховой системы человека. Использован неравнополосный банк фильтров модулированный дискретным преобразований Фурье,аппроксимирующий шкалу критических частот и повышающий временное разрешение в широких полосах. Банк фильтров использует фазовые (всепропускающие) звенья в качестве элементов задержки, что позволяет получить неравномерный частотно-временной план. Выполнено сравнение предложенного способа с более традиционным способом вычисления модуляционного спектра в критических полосах с фиксированным временным разрешением. Приведены данные экспериментов по использованию параметров модуляционного спектра для определения патологических изменений голоса, обусловленных: 1) боковым амиотрофическим склерозом (БАС); 2) заболеваниями гортани. Отбор и ранжирование параметров модуляционного спектра, использованных в качестве информационных признаков для классификации, выполнен при помощи метода LASSO. Классификация параметров на основе линейного дискриминантного анализа обеспечила высокую точность определения патологии (более 97%). Полученные результаты свидетельствуют о том, чтоиспользование неравномерного частотного-временного плана является предпочтительным в случае, когда анализируемый сигнал является протяжным гласным звуком, поскольку обеспечивает более высокую точность обнаружения патологии при меньшем числе модуляционных параметров

Информатика и автоматизация

Roundoff errors analysis in fixed-point allpass chain implementation

Author: Вашкевич М. И.
Publication venue: Российское научно-техническое общество радиотехники, электроники и связи им. А. С. Попова, РФ
Publication date: 01/01/2021
Field of study

Необходимость реализации цепочки (каскада) фазовых, всепропускающих звеньев возникает при построении систем обработки звуковых сигналов на основе фазового преобразования. Использование фазового преобразования позволяет получать дискретные системы, в которых представление спектральной информации приближено к тому, которое формируется в ухе человека. Целью данной работы являлось исследование шумов квантования возникающих при реализации цепочки фазовых звеньев в арифметике с фиксированной запятой. Исследовались различные схемы квантования результатов арифметических операций: усечение, детерминированное и вероятностное округление, а также метод формирования спектра ошибки. Анализировался уровень ошибок округления, возникающих при использовании данных различной разрядности. Показано, что наилучших результатов удается достигнуть при использовании метода формирования спектра ошибки, а наихудших при использовании усечения

Belarusian State University of Informatics and Radioelectronics Repository

Acoustic Detection, Source Separation, and Classification Algorithms for Unmanned Aerial Vehicles in Wildlife Monitoring and Poaching

Author: Lopez-Tello Carlo
Publication venue: Digital Scholarship@UNLV
Publication date: 01/12/2016
Field of study

This work focuses on the problem of acoustic detection, source separation, and classification under noisy conditions. The goal of this work is to develop a system that is able to detect poachers and animals in the wild by using microphones mounted on unmanned aerial vehicles (UAVs). The classes of signals used to detect wildlife and poachers include: mammals, birds, vehicles and firearms. The noise signals under consideration include: colored noises, UAV propeller and wind noises. The system consists of three sub-systems: source separation (SS), signal detection, and signal classification. Non-negative Matrix Factorization (NMF) is used for source separation, and random forest classifiers are used for detection and classification. The source separation algorithm performance was evaluated using Signal to Distortion Ratio (SDR) for multiple signal classes and noises. The detection and classification algorithms where evaluated for accuracy of detection and classification for multiple signal classes and noises. The performance of the sub-systems and system as a whole are presented and discussed

University of Nevada, Las Vegas Repository

A music cognition-guided framework for multi-pitch estimation.

Author: Li Xiaoquan
Ren Jinchang
Soraghan John
Wang Zheng
Yan Yijun
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 14/06/2022
Field of study

As one of the most important subtasks of automatic music transcription (AMT), multi-pitch estimation (MPE) has been studied extensively for predicting the fundamental frequencies in the frames of audio recordings during the past decade. However, how to use music perception and cognition for MPE has not yet been thoroughly investigated. Motivated by this, this demonstrates how to effectively detect the fundamental frequency and the harmonic structure of polyphonic music using a cognitive framework. Inspired by cognitive neuroscience, an integration of the constant Q transform and a state-of-the-art matrix factorization method called shift-invariant probabilistic latent component analysis (SI-PLCA) are proposed to resolve the polyphonic short-time magnitude log-spectra for multiple pitch estimation and source-specific feature extraction. The cognitions of rhythm, harmonic periodicity and instrument timbre are used to guide the analysis of characterizing contiguous notes and the relationship between fundamental frequency and harmonic frequencies for detecting the pitches from the outcomes of SI-PLCA. In the experiment, we compare the performance of proposed MPE system to a number of existing state-of-the-art approaches (seven weak learning methods and four deep learning methods) on three widely used datasets (i.e. MAPS, BACH10 and TRIOS) in terms of F-measure (F1) values. The experimental results show that the proposed MPE method provides the best overall performance against other existing methods

University of Strathclyde Institutional Repository

Open Access Institutional Repository at Robert Gordon University

University of Dundee Online Publications

ПРОЕКТИРОВАНИЕ ПЕРЕДИСКРЕТИЗИРОBАННОГО НЕРАВНОПОЛОСНОГО КОСИНУСНО-МОДУЛИРОВАННОГО БАНКА ФИЛЬТРОВ

Author: А. А. Петровский
М. И. Вашкевич
Publication venue: UIIP NASB
Publication date: 19/04/2018
Field of study

Предлагается метод проектирования неравнополосного косинусно-модулированного банкафильтров с малым уровнем искажений, вносимых в реконструированный сигнал. Суть метода заключается в использовании для расчета коэффициентов фильтра-прототипа оптимизационной процедуры, позволяющей уменьшить искажения, вносимые при децимации/интерполяции сигналов в каналах банка фильтров. Рассматривается вопрос выбора коэффициентов децимации/интерполяции, которые также учитываются при расчете фильтра-прототипа. Эффективность предлагаемого метода подтверждается практическими примерами

Informatics (E-Journal) / Информатика