7 research outputs found

    Lips tracking identification of a correct pronunciation of Quranic alphabets for tajweed teaching and learning

    Get PDF
    Mastering the recitation of the Holy Quran is an obligation among Muslims. It is an important task to fulfill other Ibadat like prayer, pilgrimage, and zikr. However, the traditional way of teaching Quran recitation is a hard task due to the extensive training time and effort required from both teacher and learner. In fact, learning the correct pronunciation of the Quranic letters or alphabets is the first step in mastering Tajweed (Rules and Guidance) in Quranic recitation. The pronunciation of Arabic alphabets is based on its points of articulation and the characteristics of a particular alphabet. In this paper, we implement a lip identification technique from video signal acquired from experts to extract the movement data of the lips while pronouncing the correct Quranic alphabets. The extracted lip movement data from experts helps in categorizing the alphabets into 5 groups and in deciding the final shape of the lips. Later, the technique was tested among a public reciter and then compared for similarity verification between the novice and the professional reciter. The system is able to extract the lip movement of the random user and draw the displacement graph and compare with the pronunciation of the expert. The error will be shown if the user has mistakenly pronounced the alphabet and suggests ways for improvement. More subjects with different backgrounds will be tested in the very near future with feedback instructions. Machine learning techniques will be implemented at a later stage for the real time learning application. Menguasai bacaan Al-Quran adalah satu kewajipan di kalangan umat Islam. Ia adalah satu tugas yang penting untuk memenuhi Ibadat lain seperti solat, haji, dan zikir. Walau bagaimanapun, cara tradisional pengajaran bacaan Al-Quran adalah satu tugas yang sukar kerana memerlukan masa latihan dan usaha yang banyak daripada guru dan pelajar. Malah, mempelajari sebutan yang betul bagi huruf Al-Quran adalah langkah pertama dalam menguasai Tajweed (Peraturan dan Panduan) pada bacaan Al-Quran. Sebutan huruf Arab adalah berdasarkan cara penyebutan tiap-tiap huruf dan ciri-ciri huruf tertentu. Dalam kertas ini, kami membina teknik pengenalan bibir dari isyarat video yang diperoleh daripada bacaan Al Quran oleh pakar-pakar untuk mengekstrak data pergerakan bibir ketika menyebut huruf Al-Quran yang betul. Data pergerakan bibir yang diekstrak daripada pembacaan oleh pakar membantu dalam mengkategorikan huruf kepada 5 kumpulan dan dalam menentukan bentuk akhir bibir. Kemudian, teknik ini diuji dengan pembaca awam dan kemudian bacaan mereka dibandingkan untuk pengesahan persamaan bacaan antara pembaca awam dan pembaca Al-Quran profesional. Sistem ini berjaya mengambil pergerakan bibir pengguna rawak dan melukis graf perbezaan sebutan mereka apabila dibandingkan dengan sebutan pakar. Jika pengguna telah tersilap menyebut sesuatu huruf, kesilapan akan ditunjukkan dan cara untuk penambahbaikan dicadangkan. Lebih ramai pengguna yang mempunyai latar belakang yang berbeza akan diuji dalam masa terdekat dan arahan maklum balas akan diberi. Teknik pembelajaran mesin akan dilaksanakan di peringkat seterusnya bagi penggunaan pembelajaran masa nyata

    A Systematic Study and Empirical Analysis of Lip Reading Models using Traditional and Deep Learning Algorithms

    Get PDF
    Despite the fact that there are many applications for analyzing and recreating the audio through existinglip movement recognition, the researchers have shown the interest in developing the automatic lip-readingsystems to achieve the increased performance. Modelling of the framework has been playing a major role inadvance yield of sequential framework. In recent years there have been lot of interest in Deep Neural Networks(DNN) and break through results in various domains including Image Classification, Speech Recognition andNatural Language Processing. To represents complex functions DNNs are used and also they play a vital rolein Automatic Lip Reading (ALR) systems. This paper mainly focuses on the traditional pixel, shape and mixedfeature extractions and their improved technologies for lip reading recognitions. It highlights the mostimportant techniques and progression from end-to-end deep learning architectures that were evolved duringthe past decade. The investigation points out the voice-visual databases that are used for analyzing and trainthe system with the most common words and the count of speakers and the size, length of the language andtime duration. On the flip side, ALR systems developed were compared with their old-style systems. Thestatistical analysis is performed to recognize the characters or numerals and words or sentences in English andcompared their performances

    PERFORMANCE ANALYSIS OF AUDIO AND VIDEO SYNCHRONIZATION USING SPREADED CODE DELAY MEASUREMENT TECHNIQUE

    Get PDF
    The audio and video synchronization plays an important role in speech recognition and multimedia communication. The audio-video sync is a quite significant problem in live video conferencing. It is due to use of various hardware components which introduces variable delay and software environments. The synchronization loss between audio and video causes viewers not to enjoy the program and decreases the effectiveness of the programs. The objective of the synchronization is used to preserve the temporal alignment between the audio and video signals. This paper proposes the audio-video synchronization using spreading codes delay measurement technique. The performance of the proposed method made on home database and achieves 99% synchronization efficiency. The audio-visual signature technique provides a significant reduction in audio-video sync problems and the performance analysis of audio and video synchronization in an effective way. This paper also implements an audio- video synchronizer and analyses its performance in an efficient manner by synchronization efficiency, audio-video time drift and audio-video delay parameters. The simulation result is carried out using Matlab simulation tools and Simulink. It is automatically estimating and correcting the timing relationship between the audio and video signals and maintaining the Quality of Service

    Lectura de labios en imágenes de vídeo

    Full text link
    [ES] Durante una conversación nuestro cerebro se encarga de combinar la información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de interpretar el mensaje percibido. Además, diferentes estudios han demostrado la relación existente entre las expresiones faciales y su sonido correspondiente. Este efecto nos ha impulsado hacia la construcción de un sistema capaz de leer los labios considerando únicamente la información procedente del canal visual, es decir, capaz de mimetizar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Para ello, en primer lugar, se ha construido un dataset compuesto por planos frontales de cuatro presentadores de telediario, así como las transcripciones asociadas a cada uno de los discursos. Para cada uno de estos discursos, se localiza la región bucal gracias a bibliotecas enfocadas al machine learning, como es el caso de scikit-learn Tras la compilación de este conjunto de datos, se han procesado los distintos planos de modo que puedan ser interpretados por el sistema. Además, después de este procesado, se han aplicado técnicas de selección de características para prescindir de aquellos datos que no aporten información relevante de cara al reconocimiento del habla. Por otra parte, nuestro sistema se compone de distintos módulos, entre los que destacamos los Modelos Ocultos de Markov Continuos por su gran aporte al ámbito del reconocimiento de voz, o texto manuscrito, entre otros. Estos modelos son entrenados con un subconjunto del dataset construido, mientras que sus prestaciones serán comprobadas con los datos restantes. Sin embargo, los resultados obtenidos tras el protocolo experimental no han sido mínimamente aceptables. Esto demuestra la dificultad que presenta la interpretación del habla continua y, más aún, si tenemos en cuenta los desafíos que supone la carencia de un sentido tan crucial como es el oído. Por tanto, nuestro sistema se proyecta sobre trabajos futuros en los cuales volcar el resto de nuestros esfuerzos[EN] During a conversation our brain is responsible for combining information from multiple senses in order to improve our ability to interpret the perceived message. In addition, different studies have shown the relationship between facial expressions and their corresponding sound. This effect has driven us towards the construction of a system capable of reading the lips considering only the information coming from the visual channel, that is, capable of mimicking the human ability to interpret speech by reading the interlocutor's lips. For this, first, a dataset composed of frontal views of four television news anchors has been constructed, as well as the transcriptions associated to each one of the speeches. For each of these speeches, the mouth region is located thanks to libraries focused on machine learning, as it is the case of scikit-learn. After the compilation of this dataset, the different views have been processed so that they can be interpreted by the system. In addition, after this processing, feature selection techniques have been applied to disregard data that does not provide relevant information for speech recognition. On the other hand, our system is composed of different modules, among which we highlight the Continuous Hidden Markov Models for their great contribution to the field of voice recognition, or handwritten text, among others. These models are trained with a subset of the constructed dataset, while their accuracy will be checked with the remaining data. However, the results obtained after the experimental protocol have not been minimally acceptable. This demonstrates the difficulty presented by the interpretation of continuous speech and, even more so, if we consider the challenges posed by the lack of such a crucial sense as hearing. Therefore, our system is projected on future works in which to focus the rest of our efforts.[CA] Durant una conversació el nostre cervell s'encarrega de combinar la informació procedent de múltiples sentits amb l'objectiu de millorar la nostra capacitat a l'hora d'interpretar el missatge percebut. A més, diferents estudis han demostrat la relació existent entre les expressions facials i el seu so corresponent. Este efecte ens ha impulsat cap a la construcció d'un sistema capaç de llegir els llavis considerant únicament la informació procedent del canal visual, és a dir, capaç de mimetitzar l'habilitat humana d'interpretar la parla llegint els llavis de l'interlocutor. Per a això, en primer lloc, s'ha construït un dataset compost per plans frontals de quatre presentadors de telenotícies, així com les transcripcions associades a cada un dels discursos. Per a cada un d'estos discursos, es localitza la regió bucal gràcies a biblioteques enfocades al machine learning, com és el cas de scikit-learn Després de la compilació d'este conjunt de dades, s'han processat els distints plans de manera que puguen ser interpretats pel sistema. A més, després d'este processat, s'han aplicat tècniques de selecció de característiques per a prescindir d'aquelles dades que no aporten informació rellevant de cara al reconeixement de la parla. D'altra banda, el nostre sistema es compon de distints mòduls, entre els que destaquem els Models Ocults de Markov Continus per la seua gran aportació a l'àmbit del reconeixement de veu, o text manuscrit, entre altres. Estos models són entrenats amb un subconjunt del dataset construït, mentres que les seues prestacions seran comprovades amb les dades restants. No obstant això, els resultats obtinguts després del protocol experimental no han sigut mínimament acceptables. Açò demostra la dificultat que presenta la interpretació de la parla contínua i, més encara, si tenim en compte els desafiaments que suposa la carència d'un sentit tan crucial com és l'oïda. Per tant, el nostre sistema es projecta sobre treballs futurs en els quals bolcar la resta dels nostres esforçosGimeno Gómez, D. (2019). Lectura de labios en imágenes de vídeo. http://hdl.handle.net/10251/125008TFG

    Lectura de labios mediante técnicas de Machine Learning

    Full text link
    [ES] Durante una conversación nuestro cerebro se encarga de combinar información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de comprender el mensaje que estamos percibiendo. Diferentes estudios han demostrado la importancia que presenta la información visual en estas situaciones, así como su relación con los sonidos producidos. Como bien sabemos, la lectura de labios es una tarea compleja cuyo objetivo es interpretar el habla cuando el audio no se encuentra disponible. Al prescindir de un sentido tan crucial como es el oído, dado que esta señal presenta una mayor cantidad de información respecto al reconocimiento del habla, será necesario ser conscientes de los desafíos que presenta dicha carencia. El propósito de este proyecto consiste en construir las bases de un sistema capaz de imitar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Desde un punto de vista más amplio, nuestra tarea no se distingue sustancialmente de otras como pueden ser el reconocimiento automático del habla a partir del audio o el reconocimiento de texto manuscrito. En otras palabras, nos encontramos bajo el marco de las tecnologías del lenguaje. Por ello, nuestra experimentación se fundamenta en torno a los avances realizados en este ámbito, explorando, en nuestro caso, un sistema basado en Modelos Ocultos de Markov Continuos. No obstante, el núcleo central sobre el que se apoya nuestro proyecto es el estudio y análisis de las diferentes características visuales que pueden representar la naturaleza de los movimientos labiales, por lo que se ha requerido el empleo de técnicas relacionadas con la Visión por Computador. Además, para poder llevar a cabo el proyecto ha sido necesario estudiar la literatura al respecto, así como obtener un conjunto de datos propicio, los cuales pertenecen a un subconjunto del corpus RTVE empleado en las evaluaciones Albayzín de Tecnologías del Habla. Las aplicaciones de este tipo de sistemas abarcan desde la transcripción de películas mudas de la época (tanto enfocadas al entretenimiento como la documentación histórica), proporcionar apoyo al reconocimiento del habla acústica cuando la calidad del audio se encuentra deteriorada o corrupta, así como el empleo de contraseñas visuales silenciosas o incluso dar soporte a la síntesis de voz para personas con dificultades en el habla dependiendo de sus movimientos labiales.[EN] During a conversation, our brain is responsible for combining information obtained from multiple senses in order to improve our ability to understand the message we are perceiving. Different studies have shown the importance of presenting visual information in these situations, as well as its relationship with the sounds produced. As we know, lip reading is a complex task whose objective is to interpret speech when audio is not available. By dispensing with a sense as crucial as hearing, since this signal presents a greater amount of information regarding speech recognition, it will be necessary to be aware of the challenge that this lack presents. The purpose of this project is to build the foundations of a system capable of imitating the human ability to interpret speech by reading the lips of the interlocutor. From a broader point of view, our task is not substantially different from others, such as automatic speech recognition from audio or handwritten text recognition. In other words, we are under the framework of language technologies. Therefore, our experimentation is based on the advances made in this area, exploring, in our case, a system based on Continuous Hidden Markov Models. However, the central core on which our project is based is the study and analysis of the different visual characteristics that may represent the nature of lip movements. Consequently, the use of techniques related to Computer Vision has been required. In addition, in order to carry out the project, it has been necessary to study the literature on this topic, as well as to obtain a suitable data set, which belongs to a subset of the RTVE corpus, used in the Albayzín evaluations of Speech Technologies. The applications of this type of systems range from the transcription of ancient silent films (both focused on entertainment and historical documentation), to provide support for acoustic speech recognition when audio quality is impaired or corrupted, apart from the use of silent visual passwords or even support speech synthesis for people with speech difficulties depending on their lip movements.[CA] Durant una conversació el nostre cervell s’encarrega de combinar informació procedent de múltiples sentits amb l’objectiu de millorar la nostra capacitat a l’hora de comprendre el missatge que estem percebent. Diferents estudis han demostrat la importància que presenta la informació visual en aquestes situacions, així com la seua relació amb els sons produïts. Com bé sabem, la lectura de llavis és una tasca complexa on l’objectiu és interpretar la parla quan l’àudio no està disponible. Al prescindir d’un sentit tan crucial com és l’oïda, ja que aquest senyal presenta una major quantitat d’informació respecte al reconeixement de la parla, caldrà ser conscients dels reptes que presenta aquesta carència. El propòsit d’aquest projecte consisteix a construir les bases d’un sistema capaç d’imitar l’habilitat humana d’interpretar la parla llegint els llavis de l’interlocutor. Des d’un punt de vista més ampli, la nostra tasca no es distingeix substancialment d’altres com poden ser el reconeixement automàtic de la parla a partir de l’àudio o el reconeixement de text manuscrit. En altres paraules, ens trobem davall el marc de les tecnologies del llenguatge. Per això, la nostra experimentació es fonamenta al voltant dels avanços realitzats en aquest àmbit, explorant, en el nostre cas, un sistema basat en Models Ocults de Markov Continus. No obstant això, el nucli central sobre el qual es recolza el nostre projecte és l’estudi i anàlisi de les diferents característiques visuals que poden representar la naturalesa dels moviments labials, cosa per la qual s’ha requerit l’ús de tècniques relacionades amb la Visió per Computador. A més, per poder dur a terme el projecte ha sigut necessari estudiar la literatura al respecte, així com obtenir un conjunt de dades propici, els quals pertanyen a un subconjunt del corpus RTVE, emprat en les avaluacions Albayzín de Tecnologies de la Parla. Les aplicacions d’aquest tipus de sistemes abasten des de la transcripció de pel·lícules mudes de l’època (tant enfocades a l’entreteniment com la documentació històrica), donar suport al reconeixement de la parla acústica quan la qualitat de l’àudio es troba deteriorada o corrupta, a més de l’ús de contrasenyes visuals silencioses o fins i tot donar suport a la síntesi de veu per a persones amb dificultats en la parla depenent dels seus moviments labials.Gimeno Gómez, D. (2020). Lectura de labios mediante técnicas de Machine Learning. http://hdl.handle.net/10251/151888TFG

    A survey of automatic lip reading approaches

    No full text
    corecore