Search CORE

1 research outputs found

Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи

Author: Кагиров
Леонтьева
Леонтьева
Ронжин
Publication venue: СПб ФИЦ РАН
Publication date: 01/08/2007
Field of study

A new representation structure of large vocabulary for high inflective language is sketched. Reach morphology complicates text and speech parsing. To improve the performance a two level morpho-phonetic prefix graph is proposed for vocabulary representation. Sharing the identical beginning parts and endings of different words significantly reduces the search space for a large vocabulary. Stem based language model reduces the complexity of continuous speech decoding and solves data scarcity problem for the inflective languages. The proposed graph was compared with two baseline word lattice models that showed significant reduction of topology complexity of the graph.Описан новый способ компактного хранения словаря слов и их транскрипций в виде фонемного графа, учитывающего дифференциальные морфологические признаки слов. Сокращение словаря особенно актуально для флективных языков, где богатая морфология сильно затрудняет анализ текста и речи. Для повышения производительности декодера русской речи с большим словарем предлагается использовать двухуровневый морфофонемный префиксный граф. Выделение одинаковых основ и окончаний в различных словах существенно сокращает пространство поиска гипотез распознавания. Использованная статистическая модель языка учитывает встречаемость комбинаций основ, а не целых слов, что уменьшает сложность декодирования слитной речи и требует для обучения значительно меньшего объема текстовых ресурсов. По сравнению с базовыми моделями фонетического представления словаря сложность топологии предложенного графа оказалась в 17 раз меньше

Информатика и автоматизация