research

Концепция системы распознавания речи на основе чтения по губам

Abstract

В статье рассматривается проблема построения автоматической системы чтения с губ на основе интеллектуального анализа видеоизображений лица диктора. Разрабатываемая система предназначена для обучения пользователя навыкам правильной артикуляции для упрощения визуального восприятия украинской речи людьми с нарушениями слуха и заключается в контроле правильности произнесения обучаемым известных слов.У статті розглядається проблема побудови автоматичної системи читання з губ на основі інтелектуального аналізу відеозображення обличчя диктора. Розроблювана система призначена для навчання користувача навиками правильної артикуляції для спрощення візуального сприйняття української мови людьми з порушеннями слуху і полягає у контролі правильності вимови научуваних відомих слів.The article is devoted to the concept of development of speech recognition experimental technology on the basis of lip reading. The concept which has been developed is a result of overwhelming analysis of a modern view on the problem of automatic lip reading. In accordance with performed decomposition of the common task the following three principal stages of analysis of entry video data have been determined: search for the face on the image, detection of lips area, identification of lips configuration. The main complications of the system development and methods of their probable solution are given in the article. Having analyzed the sources the working alphabet of visual patterns of speech (visem) and main principles of creating the system of automatic lip reading have been developed. According to the worked out concept further directions of researches can be connected to solving of three selected stages of processing of input information. Their successful solving will allow creating experimental technology of automatic lip reading which will make it possible to improve productivity of speech recognition systems based on audio information channel in the conditions of noise or several speakers, and also to develop a learning application of correct articulation to make speech comprehension based on lip reading by deaf people or people with bad hearing easier

    Similar works