59 research outputs found
ΠΠ½Π°Π»ΠΈΠ· ΡΠΏΠ΅ΠΊΡΡΠ° Π³Π»Π°ΡΠ½ΡΡ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠΉ ΠΏΡΠΈΡ ΠΎΠ°ΠΊΡΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠΊΠ°Π»Ρ ΡΡΠ±ΠΎΠ² Π΄Π»Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΡΠ»ΠΎΠ²Π΅ΡΠ½ΠΎΠ³ΠΎ ΡΠ΄Π°ΡΠ΅Π½ΠΈΡ
The paper presents a possibility to determine the stressed syllable in the word by examining features of the vowel formant structure. Based on the analysis of the array of logatoms the vowel formant structure is identified. The energy characteristics of individual formants of different vowels in one word are compared. Spectrum is split by the vowels psychoacoustic ERB scale. For ease of handling of the material resulting array of partial dispersions is codified. To determine the stressed vowel the resulting array codes are broken on the basis of the stressed/unstressed vowel characteristic and phoneme type. Partial arrays comparison enables to confirm the existence of the stress feature characteristic and identify phonetic features of this phenomenon, existing in the vowel formant structure. The vowel stress characteristic is defined by the vowel formant pattern and can effectively complement the determination of stressed syllables being added to conventional stressed vowel characteristics.Π Π°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°Π΅ΡΡΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ Π² ΡΠ»ΠΎΠ²Π΅ ΡΠ΄Π°ΡΠ½ΠΎΠ³ΠΎ ΡΠ»ΠΎΠ³Π° ΠΏΡΡΠ΅ΠΌ ΠΈΠ·ΡΡΠ΅Π½ΠΈΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ ΡΠΎΡΠΌΠ°Π½ΡΠ½ΠΎΠΉ ΠΊΠ°ΡΡΠΈΠ½Ρ. ΠΠ° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠ°ΡΡΠΈΠ²Π° Π»ΠΎΠ³Π°ΡΠΎΠΌΠΎΠ² Π²ΡΡΠ²Π»ΡΡΡΡΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ ΡΠΎΡΠΌΠ°Π½ΡΠ½ΠΎΠΉ ΠΊΠ°ΡΡΠΈΠ½Ρ, ΠΏΡΠΈΡΠ΅ΠΌ ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡΡΡ ΡΠ½Π΅ΡΠ³Π΅ΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ Ρ
Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠΈ ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΡ
ΡΠΎΡΠΌΠ°Π½Ρ. ΠΠΏΠΈΡΠ°ΡΡΡ Π½Π° Π΄ΠΎΠΏΡΡΠ΅Π½ΠΈΠ΅ ΠΎΠ± ΠΎΠΏΡΠΈΠΌΠ°Π»ΡΠ½ΠΎΡΡΠΈ ΡΠΏΠΎΡΠΎΠ±Π° ΡΠΎΡΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π΄ΠΈΠΊΡΠΎΡΠΎΠΌ ΡΠ΅ΡΠ΅Π²ΠΎΠΉ ΠΏΠΎΡΡΠ»ΠΊΠΈ, ΡΠΏΠ΅ΠΊΡΡ Π³Π»Π°ΡΠ½ΡΡ
ΡΠ°Π·Π±ΠΈΠ²Π°Π΅ΡΡΡ ΠΏΠΎ ΠΏΡΠΈΡ
ΠΎΠ°ΠΊΡΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠΊΠ°Π»Π΅ ΡΡΠ±ΠΎΠ². ΠΠ»Ρ ΡΠ΄ΠΎΠ±ΡΡΠ²Π° ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π»Π° ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² ΡΠ°ΡΡΠΈΡΠ½ΡΡ
Π΄ΠΈΡΠΏΠ΅ΡΡΠΈΠΉ ΠΊΠΎΠ΄ΠΈΡΠΈΡΠΈΡΡΠ΅ΡΡΡ. ΠΠ»Ρ Π²ΡΡΠ²Π»Π΅Π½ΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ° ΡΠ΄Π°ΡΠ½ΠΎΡΡΠΈ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ ΠΌΠ°ΡΡΠΈΠ² ΠΊΠΎΠ΄ΠΎΠ² ΡΠ°Π·Π±ΠΈΠ²Π°Π΅ΡΡΡ ΠΏΠΎ ΠΏΡΠΈΠ·Π½Π°ΠΊΡ Π³Π»Π°ΡΠ½ΠΎΠΉ ΠΈ ΠΏΠΎ ΠΏΡΠΈΠ·Π½Π°ΠΊΡ ΡΠ΄Π°ΡΠ½ΠΎΡΡΠΈ. Π‘ΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ ΡΠ°ΡΡΠΈΡΠ½ΡΡ
ΠΌΠ°ΡΡΠΈΠ²ΠΎΠ² Π΄Π°Π΅Ρ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΠΏΠΎΠ΄ΡΠ²Π΅ΡΠ΄ΠΈΡΡ ΡΡΡΠ΅ΡΡΠ²ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΡΡΠ»Π΅Π΄ΡΠ΅ΠΌΠΎΠ³ΠΎ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ° ΡΠ΄Π°ΡΠ½ΠΎΡΡΠΈ ΠΈ Π²ΡΡΠ²ΠΈΡΡ ΡΠΎΠ½Π΅ΡΠΈΡΠ΅ΡΠΊΠΈΠ΅ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ ΡΡΠΎΠ³ΠΎ ΡΠ²Π»Π΅Π½ΠΈΡ, ΡΡΡΠ΅ΡΡΠ²ΡΡΡΠΈΠ΅ Π² ΡΠΎΡΠΌΠ°Π½ΡΠ½ΠΎΠΉ ΠΊΠ°ΡΡΠΈΠ½Π΅. Π‘Π΄Π΅Π»Π°Π½ Π²ΡΠ²ΠΎΠ΄ ΠΎ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ° ΡΠ΄Π°ΡΠ½ΠΎΡΡΠΈ ΠΏΠΎ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΡΠΌ ΡΠΎΡΠΌΠ°Π½ΡΠ½ΠΎΠΉ ΠΊΠ°ΡΡΠΈΠ½Ρ Π³Π»Π°ΡΠ½ΠΎΠΉ ΠΊΠ°ΠΊ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡΡΠ΅Π³ΠΎ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΡΠ΄Π°ΡΠ½ΠΎΡΡΠΈ ΡΠ»ΠΎΠ³Π° Π² ΡΠ»ΠΎΠ²Π΅ ΠΏΠΎ ΠΈΠ½ΡΠΌ ΠΎΠ±ΡΠ΅ΠΏΡΠΈΠ½ΡΡΡΠΌ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°ΠΌ
A Review: Voice Pathology Classification Using Machine Learning
Voice pathology detection requires the presence of a specialist doctor and time to treat each patient, but it is not always possible to have a doctor who can treat all patients at once and at one precise time. For residents of remote areas, it is all expensive equipment that must be provided. Or even for people who may not be aware of having any voice pathology. Our goal is to design a diagnostic aid system to detect whether the voice is pathological or healthy, so that the patient can be referred to a doctor or not without being moved from the start. Our system is based on the classification, by SVM "Support Vector Machine", using MFCCs "Mel Frequency Cepstral Coefficients" extracted from the patient's voice. The learning and testing of our system are done using the SVD database "Saarbruecken Voice Database
ΠΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΠΈ Π³ΠΎΠ»ΠΎΡΠΎΠ²ΠΎΠ³ΠΎ Π°ΠΏΠΏΠ°ΡΠ°ΡΠ° Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° ΡΠ΅ΡΠΈ Π² ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈΡ ΠΏΠΎΠ»ΠΎΡΠ°Ρ
ΠΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ ΠΌΠ΅ΡΠΎΠ΄ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π³ΠΎΠ»ΠΎΡΠ° Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° ΡΠ΅ΡΠ΅Π²ΠΎΠ³ΠΎ ΡΠΈΠ³Π½Π°Π»Π°. ΠΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΡΠΉ ΡΠΏΠ΅ΠΊΡΡ Π²ΡΡΠΈΡΠ»ΡΠ΅ΡΡΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π΄Π²ΡΡ
ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΡΡ
ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ
ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΠΉ: ΠΏΠ΅ΡΠ²ΠΎΠ΅ ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄ΠΈΡ ΡΠΈΠ³Π½Π°Π» Π² ΡΠ°ΡΡΠΎΡΠ½ΡΡ ΠΎΠ±Π»Π°ΡΡΡ, Π²ΡΠΎΡΠΎΠ΅ β Π² ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΡΡ. ΠΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΡΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΌΠ΅ΡΠΎΠ΄Π° ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΏΠ»Π°Π½Π° ΠΏΡΠΈ ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄Π΅ ΡΠΈΠ³Π½Π°Π»Π° Π² ΡΠ°ΡΡΠΎΡΠ½ΡΡ ΠΎΠ±Π»Π°ΡΡΡ. ΠΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ ΡΠΏΠΎΡΠΎΠ± ΠΎΡΠ΅Π½ΠΊΠΈ ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ°, ΠΎΡΠ½ΠΎΠ²Π°Π½Π½ΡΠΉ Π½Π° ΠΏΡΠΈΠ½ΡΠΈΠΏΠ°Ρ
Π°Π½ΡΡΠΎΠΏΠΎΠΌΠΎΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΡΠΈΠ³Π½Π°Π»ΠΎΠ², ΠΈΠΌΠΈΡΠΈΡΡΡΡΠΈΠΉ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠ΅ ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ΅ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ ΡΠ»ΡΡ
ΠΎΠ²ΠΎΠΉ ΡΠΈΡΡΠ΅ΠΌΡ ΡΠ΅Π»ΠΎΠ²Π΅ΠΊΠ°. ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ Π½Π΅ΡΠ°Π²Π½ΠΎΠΏΠΎΠ»ΠΎΡΠ½ΡΠΉ Π±Π°Π½ΠΊ ΡΠΈΠ»ΡΡΡΠΎΠ² ΠΌΠΎΠ΄ΡΠ»ΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΡΠΌ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΠΉ Π€ΡΡΡΠ΅,
Π°ΠΏΠΏΡΠΎΠΊΡΠΈΠΌΠΈΡΡΡΡΠΈΠΉ ΡΠΊΠ°Π»Ρ ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΡΠ°ΡΡΠΎΡ ΠΈ ΠΏΠΎΠ²ΡΡΠ°ΡΡΠΈΠΉ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ΅ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π² ΡΠΈΡΠΎΠΊΠΈΡ
ΠΏΠΎΠ»ΠΎΡΠ°Ρ
. ΠΠ°Π½ΠΊ ΡΠΈΠ»ΡΡΡΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ ΡΠ°Π·ΠΎΠ²ΡΠ΅ (Π²ΡΠ΅ΠΏΡΠΎΠΏΡΡΠΊΠ°ΡΡΠΈΠ΅) Π·Π²Π΅Π½ΡΡ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΠ»Π΅ΠΌΠ΅Π½ΡΠΎΠ² Π·Π°Π΄Π΅ΡΠΆΠΊΠΈ, ΡΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠ»Π°Π½. ΠΡΠΏΠΎΠ»Π½Π΅Π½ΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½Π½ΠΎΠ³ΠΎ ΡΠΏΠΎΡΠΎΠ±Π° Ρ Π±ΠΎΠ»Π΅Π΅ ΡΡΠ°Π΄ΠΈΡΠΈΠΎΠ½Π½ΡΠΌ ΡΠΏΠΎΡΠΎΠ±ΠΎΠΌ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° Π² ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΏΠΎΠ»ΠΎΡΠ°Ρ
Ρ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΌ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠΌ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ΠΌ. ΠΡΠΈΠ²Π΅Π΄Π΅Π½Ρ Π΄Π°Π½Π½ΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° Π΄Π»Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π³ΠΎΠ»ΠΎΡΠ°, ΠΎΠ±ΡΡΠ»ΠΎΠ²Π»Π΅Π½Π½ΡΡ
: 1) Π±ΠΎΠΊΠΎΠ²ΡΠΌ Π°ΠΌΠΈΠΎΡΡΠΎΡΠΈΡΠ΅ΡΠΊΠΈΠΌ ΡΠΊΠ»Π΅ΡΠΎΠ·ΠΎΠΌ (ΠΠΠ‘); 2) Π·Π°Π±ΠΎΠ»Π΅Π²Π°Π½ΠΈΡΠΌΠΈ Π³ΠΎΡΡΠ°Π½ΠΈ. ΠΡΠ±ΠΎΡ ΠΈ ΡΠ°Π½ΠΆΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ°, ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π½ΡΡ
Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΎΠ½Π½ΡΡ
ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ, Π²ΡΠΏΠΎΠ»Π½Π΅Π½ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΠΌΠ΅ΡΠΎΠ΄Π° LASSO. ΠΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ Π΄ΠΈΡΠΊΡΠΈΠΌΠΈΠ½Π°Π½ΡΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠΈΠ»Π° Π²ΡΡΠΎΠΊΡΡ ΡΠΎΡΠ½ΠΎΡΡΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΠΈ (Π±ΠΎΠ»Π΅Π΅ 97%). ΠΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΡΠ²ΠΈΠ΄Π΅ΡΠ΅Π»ΡΡΡΠ²ΡΡΡ ΠΎ ΡΠΎΠΌ, ΡΡΠΎ
ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ ΡΠ°ΡΡΠΎΡΠ½ΠΎΠ³ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΏΠ»Π°Π½Π° ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠΈΡΠ΅Π»ΡΠ½ΡΠΌ Π² ΡΠ»ΡΡΠ°Π΅, ΠΊΠΎΠ³Π΄Π° Π°Π½Π°Π»ΠΈΠ·ΠΈΡΡΠ΅ΠΌΡΠΉ ΡΠΈΠ³Π½Π°Π» ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΡΠΎΡΡΠΆΠ½ΡΠΌ Π³Π»Π°ΡΠ½ΡΠΌ Π·Π²ΡΠΊΠΎΠΌ, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠΈΠ²Π°Π΅Ρ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΡΡ ΡΠΎΡΠ½ΠΎΡΡΡ ΠΎΠ±Π½Π°ΡΡΠΆΠ΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΏΡΠΈ ΠΌΠ΅Π½ΡΡΠ΅ΠΌ ΡΠΈΡΠ»Π΅ ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΡΡ
ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²
ΠΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΠΈ Π³ΠΎΠ»ΠΎΡΠΎΠ²ΠΎΠ³ΠΎ Π°ΠΏΠΏΠ°ΡΠ°ΡΠ° Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° ΡΠ΅ΡΠΈ Π² ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈΡ ΠΏΠΎΠ»ΠΎΡΠ°Ρ
The paper presents an approach to the analysis of the modulation spectrum of a voice signal, in which the primary acoustic analysis is performed in bands of unequal width. Nonuniform analysis corresponds to the psychoacoustic laws of human perception of sound information. In the context of the analysis of the modulation spectrum, the considered approach can significantly reduce the resulting number of parameters, which greatly simplifies the task of detecting pathological changes in the voice signal based on the analysis of the parameters of the modulation spectrum. For frequency decomposition of a signal into bands of unequal width, two methods are considered: 1) DFT with channel combination and 2) the use of an nonuniform filter bank. The first method is characterized by a fixed time window for the analysis of all frequency components, while in the second method the time-frequency analysis plan is consistent with the critical frequency scale of the barks. For each method, a practical signal analysis circuit has been developed and described. The paper presents the experimental data on the application of the developed schemes for the analysis of the modulation spectrum to the problem of detecting pathology in a speech signal. The parameters of the modulation spectrum acted as information signs for a classifier built on the basis of linear discriminant analysis. Three different voice bases were used in the experiment (in two cases, the pathology was neurological ALS disease (amyotrophic lateral sclerosis), and in the third case, diseases of the larynx). The parameters of the modulation spectrum obtained in the DFT-based scheme with channel combining turned out to be more preferable for classification with a small number of features, however, greater accuracy (with an increase in the number of features) made it possible to obtain the parameters obtainedin the scheme based on an unequal filter bank. In all cases, the obtained classifiers were highly accurate (more than 97%). The obtained results show that the use of nonuniform time-frequency representation is preferable in the case when the analyzed signal is a sustained vowel phonation, since it provides higher accuracy of pathology detection using fewer modulation parametersΠΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ ΠΌΠ΅ΡΠΎΠ΄ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π³ΠΎΠ»ΠΎΡΠ° Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π°Π½Π°Π»ΠΈΠ·Π° ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° ΡΠ΅ΡΠ΅Π²ΠΎΠ³ΠΎ ΡΠΈΠ³Π½Π°Π»Π°. ΠΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΡΠΉ ΡΠΏΠ΅ΠΊΡΡ Π²ΡΡΠΈΡΠ»ΡΠ΅ΡΡΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π΄Π²ΡΡ
ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΡΡ
ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ
ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΠΉ: ΠΏΠ΅ΡΠ²ΠΎΠ΅ ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄ΠΈΡ ΡΠΈΠ³Π½Π°Π» Π² ΡΠ°ΡΡΠΎΡΠ½ΡΡ ΠΎΠ±Π»Π°ΡΡΡ, Π²ΡΠΎΡΠΎΠ΅ β Π² ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΡΡ. ΠΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΡΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΌΠ΅ΡΠΎΠ΄Π° ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΏΠ»Π°Π½Π° ΠΏΡΠΈ ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄Π΅ ΡΠΈΠ³Π½Π°Π»Π° Π² ΡΠ°ΡΡΠΎΡΠ½ΡΡ ΠΎΠ±Π»Π°ΡΡΡ. ΠΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ ΡΠΏΠΎΡΠΎΠ± ΠΎΡΠ΅Π½ΠΊΠΈ ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ°, ΠΎΡΠ½ΠΎΠ²Π°Π½Π½ΡΠΉ Π½Π° ΠΏΡΠΈΠ½ΡΠΈΠΏΠ°Ρ
Π°Π½ΡΡΠΎΠΏΠΎΠΌΠΎΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΡΠΈΠ³Π½Π°Π»ΠΎΠ², ΠΈΠΌΠΈΡΠΈΡΡΡΡΠΈΠΉ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠ΅ ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ΅ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ ΡΠ»ΡΡ
ΠΎΠ²ΠΎΠΉ ΡΠΈΡΡΠ΅ΠΌΡ ΡΠ΅Π»ΠΎΠ²Π΅ΠΊΠ°. ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ Π½Π΅ΡΠ°Π²Π½ΠΎΠΏΠΎΠ»ΠΎΡΠ½ΡΠΉ Π±Π°Π½ΠΊ ΡΠΈΠ»ΡΡΡΠΎΠ² ΠΌΠΎΠ΄ΡΠ»ΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΡΠΌ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΠΉ Π€ΡΡΡΠ΅,Π°ΠΏΠΏΡΠΎΠΊΡΠΈΠΌΠΈΡΡΡΡΠΈΠΉ ΡΠΊΠ°Π»Ρ ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΡΠ°ΡΡΠΎΡ ΠΈ ΠΏΠΎΠ²ΡΡΠ°ΡΡΠΈΠΉ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ΅ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π² ΡΠΈΡΠΎΠΊΠΈΡ
ΠΏΠΎΠ»ΠΎΡΠ°Ρ
. ΠΠ°Π½ΠΊ ΡΠΈΠ»ΡΡΡΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ ΡΠ°Π·ΠΎΠ²ΡΠ΅ (Π²ΡΠ΅ΠΏΡΠΎΠΏΡΡΠΊΠ°ΡΡΠΈΠ΅) Π·Π²Π΅Π½ΡΡ Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΠ»Π΅ΠΌΠ΅Π½ΡΠΎΠ² Π·Π°Π΄Π΅ΡΠΆΠΊΠΈ, ΡΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΡΠΉ ΡΠ°ΡΡΠΎΡΠ½ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠ»Π°Π½. ΠΡΠΏΠΎΠ»Π½Π΅Π½ΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½Π½ΠΎΠ³ΠΎ ΡΠΏΠΎΡΠΎΠ±Π° Ρ Π±ΠΎΠ»Π΅Π΅ ΡΡΠ°Π΄ΠΈΡΠΈΠΎΠ½Π½ΡΠΌ ΡΠΏΠΎΡΠΎΠ±ΠΎΠΌ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° Π² ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΏΠΎΠ»ΠΎΡΠ°Ρ
Ρ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΌ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠΌ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ΠΌ. ΠΡΠΈΠ²Π΅Π΄Π΅Π½Ρ Π΄Π°Π½Π½ΡΠ΅ ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² ΠΏΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ° Π΄Π»Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠΉ Π³ΠΎΠ»ΠΎΡΠ°, ΠΎΠ±ΡΡΠ»ΠΎΠ²Π»Π΅Π½Π½ΡΡ
: 1) Π±ΠΎΠΊΠΎΠ²ΡΠΌ Π°ΠΌΠΈΠΎΡΡΠΎΡΠΈΡΠ΅ΡΠΊΠΈΠΌ ΡΠΊΠ»Π΅ΡΠΎΠ·ΠΎΠΌ (ΠΠΠ‘); 2) Π·Π°Π±ΠΎΠ»Π΅Π²Π°Π½ΠΈΡΠΌΠΈ Π³ΠΎΡΡΠ°Π½ΠΈ. ΠΡΠ±ΠΎΡ ΠΈ ΡΠ°Π½ΠΆΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΠΏΠ΅ΠΊΡΡΠ°, ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π½ΡΡ
Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΎΠ½Π½ΡΡ
ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ, Π²ΡΠΏΠΎΠ»Π½Π΅Π½ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ ΠΌΠ΅ΡΠΎΠ΄Π° LASSO. ΠΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠ³ΠΎ Π΄ΠΈΡΠΊΡΠΈΠΌΠΈΠ½Π°Π½ΡΠ½ΠΎΠ³ΠΎ Π°Π½Π°Π»ΠΈΠ·Π° ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠΈΠ»Π° Π²ΡΡΠΎΠΊΡΡ ΡΠΎΡΠ½ΠΎΡΡΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΠΈ (Π±ΠΎΠ»Π΅Π΅ 97%). ΠΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ ΡΠ²ΠΈΠ΄Π΅ΡΠ΅Π»ΡΡΡΠ²ΡΡΡ ΠΎ ΡΠΎΠΌ, ΡΡΠΎΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Π½Π΅ΡΠ°Π²Π½ΠΎΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ ΡΠ°ΡΡΠΎΡΠ½ΠΎΠ³ΠΎ-Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΏΠ»Π°Π½Π° ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠΈΡΠ΅Π»ΡΠ½ΡΠΌ Π² ΡΠ»ΡΡΠ°Π΅, ΠΊΠΎΠ³Π΄Π° Π°Π½Π°Π»ΠΈΠ·ΠΈΡΡΠ΅ΠΌΡΠΉ ΡΠΈΠ³Π½Π°Π» ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΡΠΎΡΡΠΆΠ½ΡΠΌ Π³Π»Π°ΡΠ½ΡΠΌ Π·Π²ΡΠΊΠΎΠΌ, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠΈΠ²Π°Π΅Ρ Π±ΠΎΠ»Π΅Π΅ Π²ΡΡΠΎΠΊΡΡ ΡΠΎΡΠ½ΠΎΡΡΡ ΠΎΠ±Π½Π°ΡΡΠΆΠ΅Π½ΠΈΡ ΠΏΠ°ΡΠΎΠ»ΠΎΠ³ΠΈΠΈ ΠΏΡΠΈ ΠΌΠ΅Π½ΡΡΠ΅ΠΌ ΡΠΈΡΠ»Π΅ ΠΌΠΎΠ΄ΡΠ»ΡΡΠΈΠΎΠ½Π½ΡΡ
ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²
Roundoff errors analysis in fixed-point allpass chain implementation
ΠΠ΅ΠΎΠ±Ρ
ΠΎΠ΄ΠΈΠΌΠΎΡΡΡ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΡΠ΅ΠΏΠΎΡΠΊΠΈ (ΠΊΠ°ΡΠΊΠ°Π΄Π°) ΡΠ°Π·ΠΎΠ²ΡΡ
, Π²ΡΠ΅ΠΏΡΠΎΠΏΡΡΠΊΠ°ΡΡΠΈΡ
Π·Π²Π΅Π½ΡΠ΅Π² Π²ΠΎΠ·Π½ΠΈΠΊΠ°Π΅Ρ ΠΏΡΠΈ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠΈ ΡΠΈΡΡΠ΅ΠΌ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ Π·Π²ΡΠΊΠΎΠ²ΡΡ
ΡΠΈΠ³Π½Π°Π»ΠΎΠ² Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΡΠ°Π·ΠΎΠ²ΠΎΠ³ΠΎ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΡ. ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΠ°Π·ΠΎΠ²ΠΎΠ³ΠΎ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΏΠΎΠ»ΡΡΠ°ΡΡ Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΡΠ΅ ΡΠΈΡΡΠ΅ΠΌΡ, Π² ΠΊΠΎΡΠΎΡΡΡ
ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΡΠΏΠ΅ΠΊΡΡΠ°Π»ΡΠ½ΠΎΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΏΡΠΈΠ±Π»ΠΈΠΆΠ΅Π½ΠΎ ΠΊ ΡΠΎΠΌΡ, ΠΊΠΎΡΠΎΡΠΎΠ΅ ΡΠΎΡΠΌΠΈΡΡΠ΅ΡΡΡ Π² ΡΡ
Π΅ ΡΠ΅Π»ΠΎΠ²Π΅ΠΊΠ°. Π¦Π΅Π»ΡΡ Π΄Π°Π½Π½ΠΎΠΉ ΡΠ°Π±ΠΎΡΡ ΡΠ²Π»ΡΠ»ΠΎΡΡ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΡΠΌΠΎΠ² ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡΡΠΈΡ
ΠΏΡΠΈ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΡΠ΅ΠΏΠΎΡΠΊΠΈ ΡΠ°Π·ΠΎΠ²ΡΡ
Π·Π²Π΅Π½ΡΠ΅Π² Π² Π°ΡΠΈΡΠΌΠ΅ΡΠΈΠΊΠ΅ Ρ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠΉ Π·Π°ΠΏΡΡΠΎΠΉ. ΠΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π»ΠΈΡΡ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠ΅ ΡΡ
Π΅ΠΌΡ ΠΊΠ²Π°Π½ΡΠΎΠ²Π°Π½ΠΈΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² Π°ΡΠΈΡΠΌΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΡ
ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΉ: ΡΡΠ΅ΡΠ΅Π½ΠΈΠ΅, Π΄Π΅ΡΠ΅ΡΠΌΠΈΠ½ΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ΅ ΠΈ Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΠ½ΠΎΠ΅ ΠΎΠΊΡΡΠ³Π»Π΅Π½ΠΈΠ΅, Π° ΡΠ°ΠΊΠΆΠ΅ ΠΌΠ΅ΡΠΎΠ΄ ΡΠΎΡΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΡΠΏΠ΅ΠΊΡΡΠ° ΠΎΡΠΈΠ±ΠΊΠΈ. ΠΠ½Π°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π»ΡΡ ΡΡΠΎΠ²Π΅Π½Ρ ΠΎΡΠΈΠ±ΠΎΠΊ ΠΎΠΊΡΡΠ³Π»Π΅Π½ΠΈΡ, Π²ΠΎΠ·Π½ΠΈΠΊΠ°ΡΡΠΈΡ
ΠΏΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ Π΄Π°Π½Π½ΡΡ
ΡΠ°Π·Π»ΠΈΡΠ½ΠΎΠΉ ΡΠ°Π·ΡΡΠ΄Π½ΠΎΡΡΠΈ. ΠΠΎΠΊΠ°Π·Π°Π½ΠΎ, ΡΡΠΎ Π½Π°ΠΈΠ»ΡΡΡΠΈΡ
ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² ΡΠ΄Π°Π΅ΡΡΡ Π΄ΠΎΡΡΠΈΠ³Π½ΡΡΡ ΠΏΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ ΠΌΠ΅ΡΠΎΠ΄Π° ΡΠΎΡΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΡΠΏΠ΅ΠΊΡΡΠ° ΠΎΡΠΈΠ±ΠΊΠΈ, Π° Π½Π°ΠΈΡ
ΡΠ΄ΡΠΈΡ
ΠΏΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ ΡΡΠ΅ΡΠ΅Π½ΠΈΡ
Acoustic Detection, Source Separation, and Classification Algorithms for Unmanned Aerial Vehicles in Wildlife Monitoring and Poaching
This work focuses on the problem of acoustic detection, source separation, and classification under noisy conditions. The goal of this work is to develop a system that is able to detect poachers and animals in the wild by using microphones mounted on unmanned aerial vehicles (UAVs). The classes of signals used to detect wildlife and poachers include: mammals, birds, vehicles and firearms. The noise signals under consideration include: colored noises, UAV propeller and wind noises.
The system consists of three sub-systems: source separation (SS), signal detection, and signal classification. Non-negative Matrix Factorization (NMF) is used for source separation, and random forest classifiers are used for detection and classification. The source separation algorithm performance was evaluated using Signal to Distortion Ratio (SDR) for multiple signal classes and noises. The detection and classification algorithms where evaluated for accuracy of detection and classification for multiple signal classes and noises. The performance of the sub-systems and system as a whole are presented and discussed
A music cognition-guided framework for multi-pitch estimation.
As one of the most important subtasks of automatic music transcription (AMT), multi-pitch estimation (MPE) has been studied extensively for predicting the fundamental frequencies in the frames of audio recordings during the past decade. However, how to use music perception and cognition for MPE has not yet been thoroughly investigated. Motivated by this, this demonstrates how to effectively detect the fundamental frequency and the harmonic structure of polyphonic music using a cognitive framework. Inspired by cognitive neuroscience, an integration of the constant Q transform and a state-of-the-art matrix factorization method called shift-invariant probabilistic latent component analysis (SI-PLCA) are proposed to resolve the polyphonic short-time magnitude log-spectra for multiple pitch estimation and source-specific feature extraction. The cognitions of rhythm, harmonic periodicity and instrument timbre are used to guide the analysis of characterizing contiguous notes and the relationship between fundamental frequency and harmonic frequencies for detecting the pitches from the outcomes of SI-PLCA. In the experiment, we compare the performance of proposed MPE system to a number of existing state-of-the-art approaches (seven weak learning methods and four deep learning methods) on three widely used datasets (i.e. MAPS, BACH10 and TRIOS) in terms of F-measure (F1) values. The experimental results show that the proposed MPE method provides the best overall performance against other existing methods
ΠΠ ΠΠΠΠ’ΠΠ ΠΠΠΠΠΠ ΠΠΠ ΠΠΠΠ‘ΠΠ ΠΠ’ΠΠΠΠ ΠBΠΠΠΠΠΠ ΠΠΠ ΠΠΠΠΠΠΠΠΠ‘ΠΠΠΠ ΠΠΠ‘ΠΠΠ£Π‘ΠΠ-ΠΠΠΠ£ΠΠΠ ΠΠΠΠΠΠΠΠ ΠΠΠΠΠ Π€ΠΠΠ¬Π’Π ΠΠ
ΠΡΠ΅Π΄Π»Π°Π³Π°Π΅ΡΡΡ ΠΌΠ΅ΡΠΎΠ΄ ΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π½Π΅ΡΠ°Π²Π½ΠΎΠΏΠΎΠ»ΠΎΡΠ½ΠΎΠ³ΠΎ ΠΊΠΎΡΠΈΠ½ΡΡΠ½ΠΎ-ΠΌΠΎΠ΄ΡΠ»ΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ Π±Π°Π½ΠΊΠ°ΡΠΈΠ»ΡΡΡΠΎΠ² Ρ ΠΌΠ°Π»ΡΠΌ ΡΡΠΎΠ²Π½Π΅ΠΌ ΠΈΡΠΊΠ°ΠΆΠ΅Π½ΠΈΠΉ, Π²Π½ΠΎΡΠΈΠΌΡΡ
Π² ΡΠ΅ΠΊΠΎΠ½ΡΡΡΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ ΡΠΈΠ³Π½Π°Π». Π‘ΡΡΡ ΠΌΠ΅ΡΠΎΠ΄Π° Π·Π°ΠΊΠ»ΡΡΠ°Π΅ΡΡΡ Π² ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ Π΄Π»Ρ ΡΠ°ΡΡΠ΅ΡΠ° ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΠΎΠ² ΡΠΈΠ»ΡΡΡΠ°-ΠΏΡΠΎΡΠΎΡΠΈΠΏΠ° ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΎΠ½Π½ΠΎΠΉ ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡΠ΅ΠΉ ΡΠΌΠ΅Π½ΡΡΠΈΡΡ ΠΈΡΠΊΠ°ΠΆΠ΅Π½ΠΈΡ, Π²Π½ΠΎΡΠΈΠΌΡΠ΅ ΠΏΡΠΈ Π΄Π΅ΡΠΈΠΌΠ°ΡΠΈΠΈ/ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΡΡΠΈΠΈ ΡΠΈΠ³Π½Π°Π»ΠΎΠ² Π² ΠΊΠ°Π½Π°Π»Π°Ρ
Π±Π°Π½ΠΊΠ° ΡΠΈΠ»ΡΡΡΠΎΠ². Π Π°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°Π΅ΡΡΡ Π²ΠΎΠΏΡΠΎΡ Π²ΡΠ±ΠΎΡΠ° ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΠΎΠ² Π΄Π΅ΡΠΈΠΌΠ°ΡΠΈΠΈ/ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΡΡΠΈΠΈ,Β ΠΊΠΎΡΠΎΡΡΠ΅ ΡΠ°ΠΊΠΆΠ΅ ΡΡΠΈΡΡΠ²Π°ΡΡΡΡ ΠΏΡΠΈ ΡΠ°ΡΡΠ΅ΡΠ΅ ΡΠΈΠ»ΡΡΡΠ°-ΠΏΡΠΎΡΠΎΡΠΈΠΏΠ°. ΠΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ ΠΏΡΠ΅Π΄Π»Π°Π³Π°Π΅ΠΌΠΎΠ³ΠΎΒ ΠΌΠ΅ΡΠΎΠ΄Π° ΠΏΠΎΠ΄ΡΠ²Π΅ΡΠΆΠ΄Π°Π΅ΡΡΡ ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ ΠΏΡΠΈΠΌΠ΅ΡΠ°ΠΌΠΈ
- β¦