Інститут проблем штучного інтелекту МОН України та НАН України
Abstract
В статье рассматривается проблема построения автоматической системы чтения с губ на основе
интеллектуального анализа видеоизображений лица диктора. Разрабатываемая система предназначена для
обучения пользователя навыкам правильной артикуляции для упрощения визуального восприятия
украинской речи людьми с нарушениями слуха и заключается в контроле правильности произнесения
обучаемым известных слов.У статті розглядається проблема побудови автоматичної системи читання з губ на основі інтелектуального
аналізу відеозображення обличчя диктора. Розроблювана система призначена для навчання користувача
навиками правильної артикуляції для спрощення візуального сприйняття української мови людьми з
порушеннями слуху і полягає у контролі правильності вимови научуваних відомих слів.The article is devoted to the concept of development of speech recognition experimental technology on the
basis of lip reading. The concept which has been developed is a result of overwhelming analysis of a modern
view on the problem of automatic lip reading. In accordance with performed decomposition of the common
task the following three principal stages of analysis of entry video data have been determined: search for the
face on the image, detection of lips area, identification of lips configuration. The main complications of the
system development and methods of their probable solution are given in the article. Having analyzed the
sources the working alphabet of visual patterns of speech (visem) and main principles of creating the system
of automatic lip reading have been developed. According to the worked out concept further directions of
researches can be connected to solving of three selected stages of processing of input information. Their
successful solving will allow creating experimental technology of automatic lip reading which will make it
possible to improve productivity of speech recognition systems based on audio information channel in the
conditions of noise or several speakers, and also to develop a learning application of correct articulation to
make speech comprehension based on lip reading by deaf people or people with bad hearing easier