98 research outputs found

    A new Automatic Formant Tracking approach based on scalogram maxima detection using complex wavelets

    Get PDF
    International audienceIn this paper we present a new formant tracking algorithm where the formant frequencies estimation was based on local maxima detection of a time frequency representation. This representation can be shown by a scalogram issued from a complex wavelet transform. The formant frequency candidates are validated as local maxima of scalogram which correspond to wavelet ridges. Then in the proposed algorithm, we have introduced the computation of center of gravity as tracking constraint. We tested our new algorithm by applying it on synthesized and natural voiced speech signals. The formant trajectories obtained by our algorithm were compared to those of manually-edited ones of our Arabic database as reference; those given by Fourier transform method and the LPC analysis used in Praat. The comparison of the results showed globally the adequacy of the first three formant trajectories using complex Morlet wavelet refers to the manually-edited formant tracks

    An Evaluation of Formant Tracking methods on an Arabic Database

    Get PDF
    International audienceIn this paper we present a formant database of Arabic used to evaluate our new automatic formant tracking algorithm based on Fourier ridges detection. In this method we have introduced a continuity constraint based on the computation of centres of gravity for a set of formant candidates. This leads to connect a frame of speech to its neighbours and thus improves the robustness of tracking. The formant trajectories obtained by the algorithm proposed are compared to those of the hand edited formant database and those given by Praat with LPC data

    Evaluation d'une nouvelle méthode de suivi de formants sur un corpus Arabe

    Get PDF
    National audienceThis paper develops a formant tracking technique based on Fourier ridges detection. In this method we have introduced a constraint of tracking based on the computation of centre of gravity for a set of frequency formant candidates which leads to connect a frame of speech to its neighbours and thus to improve the robustness of tracking. The formant trajectories obtained by the algorithm proposed are compared to those of a hand edited formant Arabic database, created especially for this work, and those given by Praat with LPC data

    Метод построения формантных картин для исследования фонетических характеристик гласных

    Get PDF
    This article presents the results of applying method for obtaining formant components of vowel phonemes for the corpus of professional reading in Russian. In this paper, a review of existing areas of development of methods for obtaining formant characteristics of vowels for different languages was made. A review was also made of the extent to which formant picture patterns are used in speech technologies and natural language processing. On the corpus of professional reading CORPRES, data was obtained on formant components for 351929 realizations of vowel phonemes on the material of 8 speakers. The data obtained are grouped in accordance with the symbols in the real transcription, which was performed by phoneticians within the framework of segmenting the corpus. The formant planes represent the distribution of allophones of vowels for all speakers according to the two first formants. The variability of formant characteristics in the corpus for pre-tonic and post-tonic allophones are presented for one male speaker. The article also presents the results testifying the difference between the rounded unstressed /i/ and /a/, which are perceived by both naive speakers and expert phoneticians as /u/. As an experimental material, the recordings of reading by one male announcer of specially selected sentences, which took into account various linguistic factors, were used. Analysis of the data of the formant components of these vowels showed that the values of the first formant of these vowels are close to the values of the stressed vowel /u/ for this speaker. The closure of these vowels corresponds to the closure of /u/. The second formant values in the vowels [u], which were to be realized as [i] and [a] are different. They are more advanced in comparison with /u/.Представлены результаты применения метода получения формантных составляющих гласных фонем. Проведен обзор существующих направлений разработки методов получения формантных характеристик гласных для разных языков с момента возникновения метода и до недавнего времени. Также проведен обзор степени использования методов оценки формантных картин в речевых технологиях и при обработке естественного языка. На массиве корпуса профессионального чтения CORPRES были получены данные по формантным составляющим для 351929 реализаций гласных фонем на материале 8 дикторов. Полученные данные сгруппированы в соответствии с обозначениями в реальной транскрипции, которую проводили сегментаторы-фонетисты в рамках работы по разметке корпуса. На формантных плоскостях представлено распределение ударных аллофонов гласных для всех дикторов. На примере одного диктора-мужчины представлена вариативность формантных характеристик в корпусе для предударных и заударных аллофонов. Также представлены результаты, свидетельствующие о различиях огубленных безударных /i/ и /a/, которые воспринимаются как /u/ как наивными носителями языка, так и фонетистами-экспертами. В качестве экспериментального материала использовались записи чтения одним диктором мужского пола специально подобранных предложений, которые учитывали различные лингвистические факторы. Результаты анализа показали, что высока вероятность огубленности безударного неогубленного гласного, если в следующем слоге есть безударный огубленный гласный. Анализ данных формантных составляющих этих гласных показал, что значения первой форманты этих гласных близки к значениям у ударного гласного /u/ для этого диктора. Артикуляторно подъем этих гласных соответствует подъему /u/. Значения второй форманты у гласных [u], которые должны были реализовываться как [i] и [a], различаются. Они в большей степени продвинуты вперед по сравнению с ударным /u/

    Метод построения формантных картин для исследования фонетических характеристик гласных

    Get PDF
    Представлены результаты применения метода получения формантных составляющих гласных фонем. Проведен обзор существующих направлений разработки методов получения формантных характеристик гласных для разных языков с момента возникновения метода и до недавнего времени. Также проведен обзор степени использования методов оценки формантных картин в речевых технологиях и при обработке естественного языка. На массиве корпуса профессионального чтения CORPRES были получены данные по формантным составляющим для 351929 реализаций гласных фонем на материале 8 дикторов. Полученные данные сгруппированы в соответствии с обозначениями в реальной транскрипции, которую проводили сегментаторы-фонетисты в рамках работы по разметке корпуса. На формантных плоскостях представлено распределение ударных аллофонов гласных для всех дикторов. На примере одного диктора-мужчины представлена вариативность формантных характеристик в корпусе для предударных и заударных аллофонов. Также представлены результаты, свидетельствующие о различиях огубленных безударных /i/ и /a/, которые воспринимаются как /u/ как наивными носителями языка, так и фонетистами-экспертами. В качестве экспериментального материала использовались записи чтения одним диктором мужского пола специально подобранных предложений, которые учитывали различные лингвистические факторы. Результаты анализа показали, что высока вероятность огубленности безударного неогубленного гласного, если в следующем слоге есть безударный огубленный гласный. Анализ данных формантных составляющих этих гласных показал, что значения первой форманты этих гласных близки к значениям у ударного гласного /u/ для этого диктора. Артикуляторно подъем этих гласных соответствует подъему /u/. Значения второй форманты у гласных [u], которые должны были реализовываться как [i] и [a], различаются. Они в большей степени продвинуты вперед по сравнению с ударным /u/

    Wavelet methods in speech recognition

    Get PDF
    In this thesis, novel wavelet techniques are developed to improve parametrization of speech signals prior to classification. It is shown that non-linear operations carried out in the wavelet domain improve the performance of a speech classifier and consistently outperform classical Fourier methods. This is because of the localised nature of the wavelet, which captures correspondingly well-localised time-frequency features within the speech signal. Furthermore, by taking advantage of the approximation ability of wavelets, efficient representation of the non-stationarity inherent in speech can be achieved in a relatively small number of expansion coefficients. This is an attractive option when faced with the so-called 'Curse of Dimensionality' problem of multivariate classifiers such as Linear Discriminant Analysis (LDA) or Artificial Neural Networks (ANNs). Conventional time-frequency analysis methods such as the Discrete Fourier Transform either miss irregular signal structures and transients due to spectral smearing or require a large number of coefficients to represent such characteristics efficiently. Wavelet theory offers an alternative insight in the representation of these types of signals. As an extension to the standard wavelet transform, adaptive libraries of wavelet and cosine packets are introduced which increase the flexibility of the transform. This approach is observed to be yet more suitable for the highly variable nature of speech signals in that it results in a time-frequency sampled grid that is well adapted to irregularities and transients. They result in a corresponding reduction in the misclassification rate of the recognition system. However, this is necessarily at the expense of added computing time. Finally, a framework based on adaptive time-frequency libraries is developed which invokes the final classifier to choose the nature of the resolution for a given classification problem. The classifier then performs dimensionaIity reduction on the transformed signal by choosing the top few features based on their discriminant power. This approach is compared and contrasted to an existing discriminant wavelet feature extractor. The overall conclusions of the thesis are that wavelets and their relatives are capable of extracting useful features for speech classification problems. The use of adaptive wavelet transforms provides the flexibility within which powerful feature extractors can be designed for these types of application

    Temporal integration of loudness as a function of level

    Get PDF

    Analysis and resynthesis of polyphonic music

    Get PDF
    This thesis examines applications of Digital Signal Processing to the analysis, transformation, and resynthesis of musical audio. First I give an overview of the human perception of music. I then examine in detail the requirements for a system that can analyse, transcribe, process, and resynthesise monaural polyphonic music. I then describe and compare the possible hardware and software platforms. After this I describe a prototype hybrid system that attempts to carry out these tasks using a method based on additive synthesis. Next I present results from its application to a variety of musical examples, and critically assess its performance and limitations. I then address these issues in the design of a second system based on Gabor wavelets. I conclude by summarising the research and outlining suggestions for future developments
    corecore