77 research outputs found

    Новый подход к вычислению линейных спектральных частот речевых сигналов, основанный на свойстве межфреймовой упорядоченности

    Get PDF
    Рассмотрена актуальная задача поиска линейных спектральных частот (ЛСЧ), являющихся альтернативной формой представления полюсной модели голосового тракта. Проведено исследование взаимного расположения ЛСЧ на смежных квазистационарных временных интервалах (фреймах). На основании этого предложен новый подход к вычислению ЛСЧ, состоящий из двух этапов - локализации ЛСЧ и их точного вычисления. Показано, что этап локализации эффективно сводится к проверке свойства межфреймовой упорядоченности ЛСЧ. Продемонстрировано, как для ускорения стадии точного вычисления ЛСЧ могут быть использованы их значения, найденные на предыдущем фрейме. В результате тестирования различных речевых сигналах продемонстрировано сокращение количества операций до 2.5 раз по сравнению с версией метода, не использующей априорную информацию о взаимном расположении ЛСЧ на смежных фреймах, и до 3.4 раз по сравнению с широко используемым методом Кабала. Кроме того, показано, что максимальные (пиковые) вычислительные затраты предложенного метода меньше не только минимальных затрат метода Кабала, но и минимальных затрат ускоренной комбинации метода Кабала с методом Ньютона. Это свидетельствует о предпочтительности использования разработанного метода в системах реального времени.Розглянуто актуальну проблему пошуку лінійних спектральних частот (ЛСЧ), які є еквівалентною формою представлення полюсної моделі голосового тракту. Виконано дослідження взаємного розташування ЛСЧ на суміжних квазістаціонарних часових інтервалах (фреймах). На основі цього запропоновано новий підхід до обчислення ЛСЧ, який складається з двох етапів - локалізації ЛСЧ та їх точного обчислення. Показано, що етап локалізації ефективно зводиться до перевірки властивості міжфреймової упорядкованості ЛСЧ. Продемонстровано, як для прискорення стадії точного обчислення ЛСЧ можуть бути використані їхні значення, знайдені на попередньому фреймі. У результаті тестування на різноманітних мовних сигналах продемонстровано зменшення кількості операцій до 2.5 разів у порівнянні з версією методу, який не використовує апріорну інформацію про взаємне розташування ЛСЧ на суміжних фреймах, та до 3.4 разів у порівнянні з широко використовуваним методом Кабала. Окрім того, показано, що максимальні (пікові) обчислювальні витрати запропонованого методу менші не тільки за мінімальні витрати методу Кабала, але й за мінімальні витрати прискореної комбінації методу Кабала з методом Ньютона. Це свідчить про перевагу застосування розробленого методу в системах реального часу.The paper is dedicated to an important problem of calculation of line spectral frequencies (LSF), being the alternative form of representation of all-pole vocal tract model. Investigation of LSF relative position on the adjacent quasi-stationary time intervals (frames) is performed. On this basis a new two-stage approach to LSF calculation is proposed. This approach consists of two parts: LSF localization and their refinement. It was shown that the localization stage is effectively reduced to verification of interframe ordering property. It is also demonstrated how LSF values obtained in the previous frame can be used to accelerate the LSF refinement stage. As a result of testing on various speech signals, the 2.5 times reduction of the number of operations is shown in comparison with the similar algorithm without allowance for a priory information about relative LSF position on the adjacent frames. It was also shown that computational expenses are reduced 3.4 times in comparison with widely used Kabal's method. Moreover, it is demonstrated that the maximum (peak) computational expenses of the proposed method are lower than minimal ones both for Kabal's method and the accelerated combination of Kabal's method with Newton's method. These results show the advantage of applying the proposed method in real-time systems

    Linear predictive modelling of speech : constraints and line spectrum pair decomposition

    Get PDF
    In an exploration of the spectral modelling of speech, this thesis presents theory and applications of constrained linear predictive (LP) models. Spectral models are essential in many applications of speech technology, such as speech coding, synthesis and recognition. At present, the prevailing approach in speech spectral modelling is linear prediction. In speech coding, spectral models obtained by LP are typically quantised using a polynomial transform called the Line Spectrum Pair (LSP) decomposition. An inherent drawback of conventional LP is its inability to include speech specific a priori information in the modelling process. This thesis, in contrast, presents different constraints applied to LP models, which are then shown to have relevant properties with respect to root loci of the model in its all-pole form. Namely, we show that LSP polynomials correspond to time domain constraints that force the roots of the model to the unit circle. Furthermore, this result is used in the development of advanced spectral models of speech that are represented by stable all-pole filters. Moreover, the theoretical results also include a generic framework for constrained linear predictive models in matrix notation. For these models, we derive sufficient criteria for stability of their all-pole form. Such models can be used to include a priori information in the generation of any application specific, linear predictive model. As a side result, we present a matrix decomposition rule for Toeplitz and Hankel matrices.reviewe

    Comparison of CELP speech coder with a wavelet method

    Get PDF
    This thesis compares the speech quality of Code Excited Linear Predictor (CELP, Federal Standard 1016) speech coder with a new wavelet method to compress speech. The performances of both are compared by performing subjective listening tests. The test signals used are clean signals (i.e. with no background noise), speech signals with room noise and speech signals with artificial noise added. Results indicate that for clean signals and signals with predominantly voiced components the CELP standard performs better than the wavelet method but for signals with room noise the wavelet method performs much better than the CELP. For signals with artificial noise added, the results are mixed depending on the level of artificial noise added with CELP performing better for low level noise added signals and the wavelet method performing better for higher noise levels

    Новый метод вычисления линейных спектральных частот речевых сигналов, основанный на универсальном алгоритме решения трансцендентных уравнений

    Get PDF
    Предложен новый эффективный метод вычисления линейных спектральных частот (ЛСЧ) речевых сигналов, который основан на разработанном алгоритме полного численного решения трансцендентных уравнений, не имеющих кратных корней. Принципиально алгоритм состоит из двух частей - выделения отрезков, содержащих единственный корень, и последующего нахождения корней с помощью одной из стандартных итерационных процедур. Эффективность различных модификаций предложенного метода поиска ЛСЧ проверена на реальных речевых сигналах. Исследованы два подхода к нахождению ЛСЧ - прямое решение трансцендентных уравнений относительно тригонометрических функций и решение полиномиальных уравнений, полученных в результате разложения по чебышевским полиномам. Свойство упорядоченности ЛСЧ использовано для снижения вычислительных затрат. В отличие от большинства существующих методов определения ЛСЧ, предложенный метод обладает произвольно высокой точностью вычислений и гарантирует устойчивость соответствующего авторегрессионного фильтра. Показано, что данный метод может быть применен в системах реального времени.Запропоновано новий ефективний метод обчислення лінійних спектральних частот (ЛСЧ) мовних сигналів, який базується на розробленому алгоритмі повного чисельного розв'язку трансцендентних рівнянь, що не мають кратних коренів. Принципово алгоритм складається з двох частин - виділення відрізків, які містять єдиний корінь, та подальшого знаходження кореня за допомогою однієї зі стандартних ітераційних процедур. Ефективність різних модифікацій запропонованого методу пошуку ЛСЧ перевірено на реальних мовних сигналах. При цьому досліджені два підходи до знаходження ЛСЧ - пряме розв'язання трансцендентних рівнянь відносно тригонометричних функцій та розв'язання поліноміальных рівнянь, отриманих внаслідок розкладу за Чебишевськими поліномами. Властивість упорядкованості ЛСЧ використано для зниження обчислювальних витрат. На відміну від більшості існуючих методів обчислення ЛСЧ, запропонований метод забезпечує довільно високу точність обчислень та гарантує стійкість відповідного авторегресійного фільтра. Показано, що даний метод може бути застосований в системах реального часу.The new efficient method of calculation of the line spectral frequencies (LSF) is proposed. The method is based on a developed algorithm of full numerical solution of transcendental equation having no multiple roots. This algorithm is composed of two parts - location of intervals containing a single root and folowing refinement of root's value by one of standard rootfinding procedures. Efficiency of different modifications of the proposed LSF calculation method is verified on real speech signals. Two approaches to computation of LSF are considered - the direct solution of transcendental equations containing trigonometric functions and the solution of polynomial equations obtained by the series expansion in Chebyshev polynomials. The LSF's ordering property is used for decreasing the computational expenses. In opposite to majority of existing LSF computation algorithms, the proposed method provides arbitrary high accuracy and guarantees the stability of a corresponding autoregressive filter. It is shown that the developed method can be applied in real-time processing systems

    Discrete Wavelet Transforms

    Get PDF
    The discrete wavelet transform (DWT) algorithms have a firm position in processing of signals in several areas of research and industry. As DWT provides both octave-scale frequency and spatial timing of the analyzed signal, it is constantly used to solve and treat more and more advanced problems. The present book: Discrete Wavelet Transforms: Algorithms and Applications reviews the recent progress in discrete wavelet transform algorithms and applications. The book covers a wide range of methods (e.g. lifting, shift invariance, multi-scale analysis) for constructing DWTs. The book chapters are organized into four major parts. Part I describes the progress in hardware implementations of the DWT algorithms. Applications include multitone modulation for ADSL and equalization techniques, a scalable architecture for FPGA-implementation, lifting based algorithm for VLSI implementation, comparison between DWT and FFT based OFDM and modified SPIHT codec. Part II addresses image processing algorithms such as multiresolution approach for edge detection, low bit rate image compression, low complexity implementation of CQF wavelets and compression of multi-component images. Part III focuses watermaking DWT algorithms. Finally, Part IV describes shift invariant DWTs, DC lossless property, DWT based analysis and estimation of colored noise and an application of the wavelet Galerkin method. The chapters of the present book consist of both tutorial and highly advanced material. Therefore, the book is intended to be a reference text for graduate students and researchers to obtain state-of-the-art knowledge on specific applications

    Software and hardware implementation techniques for digital communications-related algorithms

    Get PDF
    There are essentially three areas addressed in the body of this thesis. (a) The first is a theoretical investigation into the design and development of a practically realizable implementation of a maximum-likelihood detection process to deal with digital data transmission over HF radio links. These links exhibit multipath properties with delay spreads that can easily extend over 12 to 15 milliseconds. The project was sponsored by the Ministry of Defence through the auspices of the Science and Engineering Research Council. The primary objective was to transmit voice band data at a minimum rate of 2.4 kb/s continuously for long periods of time during the day or night. Computer simulation models of HF propagation channels were created to simulate atmospheric and multipath effects of transmission from London to Washington DC, Ankara, and as far as Melbourne, Australia. Investigations into HF channel estimation are not the subject of this thesis. The detection process assumed accurate knowledge of the channel. [Continues.

    Graphical models beyond standard settings: lifted decimation, labeling, and counting

    Get PDF
    With increasing complexity and growing problem sizes in AI and Machine Learning, inference and learning are still major issues in Probabilistic Graphical Models (PGMs). On the other hand, many problems are specified in such a way that symmetries arise from the underlying model structure. Exploiting these symmetries during inference, which is referred to as "lifted inference", has lead to significant efficiency gains. This thesis provides several enhanced versions of known algorithms that show to be liftable too and thereby applies lifting in "non-standard" settings. By doing so, the understanding of the applicability of lifted inference and lifting in general is extended. Among various other experiments, it is shown how lifted inference in combination with an innovative Web-based data harvesting pipeline is used to label author-paper-pairs with geographic information in online bibliographies. This results is a large-scale transnational bibliography containing affiliation information over time for roughly one million authors. Analyzing this dataset reveals the importance of understanding count data. Although counting is done literally everywhere, mainstream PGMs have widely been neglecting count data. In the case where the ranges of the random variables are defined over the natural numbers, crude approximations to the true distribution are often made by discretization or a Gaussian assumption. To handle count data, Poisson Dependency Networks (PDNs) are introduced which presents a new class of non-standard PGMs naturally handling count data

    VLSI implementation of an efficient method for the computation of line spectral frequencies

    Get PDF
    In speech coding applications using linear predictive techniques, the computation of line spectral frequencies (LSFs) from the predictor coefficients is an extremely computationally intensive task. The unique properties of the symmetric and antisymmetric polynomial roots limit the region which must be searched, however it is still necessary to perform a root-finding algorithm on a high-order polynomial. Certain algorithms have been developed to reduce the complexity of the root finding exercise. One such algorithm, developed by Ramachandran and Kabal, takes advantage of certain properties of the symmetric and antisymmetric polynomials to map the upper portion of the unit circle onto the real interval [-1,1] by converting the polynomials into a Chebyshev polynomial series representation. Because Chebyshev polynomials may be evaluated efficiently using the Clenshaw recurrence formula, far fewer computations are necessary to search the linear region for zero crossings. This work investigates the implementation of the Ramachandran-Kabal algorithm in a VLSI design suitable for integration into larger speech processing systems. An implementation exclusively in VHDL is developed. Simulation of the VHDL design is performed and the post-synthesis results evaluated
    corecore