Search CORE

12 research outputs found

Correlación solo de fase limitada en banda y uso de coeficientes cepstrales inversos: aplicación en reconocimiento de voz y bioacústica

Author: Pedroza Ramírez Ángel David
Publication venue: 'Universidad Autonoma de Zacatecas - Francisco Garcia Salinas'
Publication date: 01/09/2019
Field of study

Digital signal processing is the application of mathematical operations to a piece of certain information. Because of its close relationship with other sciences, signal processing is the base of other science methodologies: automatic speech recognition and bioacoustics. Digital signal processing in this context is a solution tool. One of the most urgent problems is climate change. In this context, birds play a significant role where their identification and conservation are essential tasks. Even though automatic speech recognition provides specific solutions in bioacoustics, some of the traditional techniques fail in the capability of real field recognition. Since digital signal processing is a solution tool in a few contexts and bird species have acoustic patterns, it is possible to develop a new methodology in automatic speech recognition applied for recognition of species and individuals of birds (proposed efficiency over 70%). On the first phase of this research was to propose a new method for the speaker verification under limited data using the BLPOC function. After experiments, the BLPOC function confirmed to be an effective method. Taking these results into account, in the second phase a new technique for the individual identification of birds using the BLPOC function was proposed. The experiments confirmed that the BLPOC function is also an effective method for the individual identification of birds. Finally, in the same phase, another method for the automatic classification of species based on the IMFCC features was offered. Experiments conclude that the acoustic information of vocalizations in the high frequencies (captured by the IMFCC features) is as significant as the information in the low frequencies (captured by the traditional MFCC features).El procesamiento digital de señales consiste en la aplicación de distintas operaciones matemáticas a una cierta información bajo análisis. Debido a su estrecha relación con otras ciencias, el procesamiento de señales conforma la base de otras áreas de investigación como el reconocimiento automático de voz y la bioacústica. El procesamiento de señales en este contexto conforma una herramienta de solución para diversas problemáticas. Una de las que más relevancia tiene es el denominado: Cambio climático. En este contexto, las aves juegan un rol fundamental y por tanto la conservación e identificación de las especies de aves es de suma importancia. A pesar de que el reconocimiento de voz provee de soluciones para sistemas concretos en bioacústica, algunas de las técnicas utilizadas fallan en la capacidad de reconocimiento en ambientes naturales.Tomando en cuenta lo anterior, dado que el procesamiento de señales es una herramienta de solución en diversos contextos y tomando en cuenta que algunas especies de aves poseen patrones acústicos, entonces es posible el desarrollo de una nueva metodología en reconocimiento de voz que luego puede ser extrapolada como parte del diseño de un nuevo sistema de reconocimiento automático para la identificación de aves (para algunas especies específicas) e individuos, con una eficiencia de reconocimiento por encima del 70%. En la primera fase de investigación fue propuesto una adaptación de la función BLPOC (correlación solo de fase limitada en banda) para la verificación automática de hablantes con datos limitados. Luego de las pruebas, la función BLPOC mostró ser también un método efectivo para un sistema de verificación de hablantes bajo la condición de datos limitados. Tomando como base estos resultados, en la segunda fase se propuso una nueva técnica para la identificación individual de aves mediante la función BLPOC. De las pruebas de desempeño se puede concluir que este es un método eficiente para la identificación de individuos de especies. En esta segunda fase se propuso un método adicional de clasificación automática de especies de aves basado en la extracción de las características IMFCC (coeficientes cepstrales inversos en la frecuencia mel ) de las vocalizaciones. De los resultados obtenidos se concluye que la información acústica de las vocalizaciones de aves en las altas frecuencias (capturadas por los IMFCC’s) es tan significativa como la información acústica en las bajas frecuencias (capturadas por los MFCC´s) para la clasificación de aves a través de vocalizaciones

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas

El invisible y asombroso proceso de la comunicación oral: bases sobre reconocimiento de voz

Author: de la Rosa Vargas José Ismael
Pedroza Ramírez Ángel David
Publication venue: Tecnológico Nacional de México / Instituto Tecnológico de Celaya
Publication date: 09/04/2018
Field of study

La comunicación, cuyo fin primario es la transmisión de información, forma parte fundamental de las necesidades básicas del ser humano. El proceso de la generación del habla y más aún el de la comunicación, es mucho más complejo de lo que se podría llegar a creer dado el nivel de coordinación que se requiere para producir, transmitir y decodificar un mensaje. El reconocimiento de voz se basa en el estudio sobre el proceso del habla y la comunicación, y la forma en que este conocimiento puede ser aplicado.El presente documento resume y brinda una revisión sobre el estado del arte y las bases para entender el reconocimiento de voz desde el punto de vista fisiológico y como una rama de la ciencia ampliamente utilizada en la tecnología de uso cada vez más común hoy en día.Palabra(s) Clave(s): comunicación hombre-máquina, comunicación oral, habla, voz

Instituto Tecnológico de Celaya: E-Journals

ESCUCHANDO A LA NATURALEZA: DEL RECONOCIMIENTO DE VOZ A LA BIOACÚSTICA

Author: De la Rosa Vargas José Ismael
Pedroza Ramírez Ángel David
Rosas Valdez Rogelio
Publication venue: Tecnológico Nacional de México / Instituto Tecnológico de Celaya
Publication date: 09/04/2018
Field of study

La bioacústica es la rama de la ciencia que, mediante información acústica, se encarga del estudio de la forma de transmisión y recepción de información biológica con el fin de alcanzar desde la identificación de especies hasta la determinación de la salud de un ecosistema. Algunos desarrollos recientes se han enfocado en la adecuación y aplicación de técnicas de reconocimiento de voz tales como el uso de Modelos Ocultos de Markov, Redes Neuronales, entre otros; con el fin de lograr el reconocimiento automatizado de especies. En esta revisión se presentan algunos avances tecnológicos en el área así como una visión global sobre las herramientas matemáticas disponibles para, mediante ellas, lograr algunos de los objetivos que la bioacústica pretende alcanzar

Instituto Tecnológico de Celaya: E-Journals

Escuchando a la naturaleza: Del reconocimiento de voz a la bioacústica

Author: De la Rosa Vargas José Ismael
Pedroza Ramírez Ángel David
Rosas Valdez Rogelio
Publication venue: Instituto Tecnológico de Celaya
Publication date: 01/10/2016
Field of study

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas

Diseño de prototipo para mejorar la dicción mediante el uso de Modelos Ocultos de Markov

Author: Becerra Sánchez Aldonso
De la Rosa Vargas José Ismael
Gamboa Rosales Hamurabi
García Dominguez Ernesto
Pedroza Ramírez Ángel David
Publication venue: Instituto Tecnológico de Celaya
Publication date: 01/10/2016
Field of study

La comunicación oral en el ser humano es muy importante, sin embargo, la buena comunicación, independientemente del idioma, debe ser clara, objetiva y expresiva con el fin de que lo que se quiere expresar sea lo que el oyente entienda. El reconocimiento de voz, por otro lado, se basa en el estudio sobre el proceso del habla y la comunicación, y la forma en que este conocimiento puede ser aplicado como herramienta para diversas finalidades. El enfoque de esta investigación es el desarrollo de un prototipo didáctico para realizar pruebas de dicción en el idioma español. Para ello, se utilizaron 3 técnicas basadas en Modelos Ocultos de Markov (HMM) las cuales son Modelos Ocultos de Markov con DTW (MDTW), Modelos Ocultos de Markov con DTW aproximado por izquierda y derecha (MID) y Modelos Ocultos de Markov con relleno de palabras (MRP). Con esta estructura se logró distinguir entre calidades de dicción y con una eficiencia de reconocimiento por encima del 90 % para cualquiera de las técnicas utilizadas. Finalmente, con base en lo anterior, se programó una interfaz en Matlab la cual brinda resultados para la corrección de la dicción

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas

Medio ambiente, sociedad, ética, auditoría y educación. La Investigación Contable en UNIMINUTO Virtual y a Distancia: Contexto y Oportunidades.

Author: Aguirre Díaz Juan Ángel
Cabrera Jaramillo Ruby Stella
Carreño García Jeimy Johanna
Escobar Rodríguez John Hernando
Garzón Reyes Rosmery Sofía
Giraldo Valencia Jazmín
Guerrón Yela Mary Luz
Gómez Pedroza Fredy Julián
Herrera Quintero John Mario
Huaman Taype Irvin
Jaramillo Ramos Paula Milena
Lugo Arias Elkyn Rafael
López Porras Nelson Enrique
Martínez Martínez Giovanni Gamaliel
Martínez Pérez Juan David
Molina Mora Francisco Ricardo
Pino Montoya José Wilmar
Prada Segura Jasleidy Astrid
Quintero Rengifo Edward Ferney
Rodríguez Erazo Berli
Rodríguez Prieto Ángela María
Rodríguez Tovar Maira Alexandra
Roque Daniel Isaac
Rubiano Beltrán Francy Yamile
Salgar Ramírez Carlos Arturo
Santamaría Ayala Jefferson
Sarmiento Tocarruncho María Fernanda
Torres Cortés Marisol
Trujillo Prada Mariela Andrea
Valencia Giraldo Elizabeth
Vega Pulgarín Sullys Dayana
Velandia Daza Jimmy Leonardo
Velandia Del Rio Martha Isabel
Villegas Jaramillo Ceida Marcela
Publication venue: UNIMINUTO Rectoría Virtual y a Distancia
Publication date: 01/02/2022
Field of study

En los últimos años la educación a distancia ha mostrado ser capaz de reducir la brecha de inequidad social, de capacitar personas en lugares remotos, de brindar la posibilidad a la comunidad discapacitada y de permitirle a quienes no cuentan con suficientes recursos económicos acceder a la educación superior, la presente investigación da cuenta de los aspectos clave asociados a la decisión de matricularse en el programa de Contaduría Pública en la modalidad distancia tradicional. Se realizó un análisis de las narrativas basado en los resultados de un instrumento aplicado a 150 estudiantes. Para el análisis de datos se empleó la herramienta SenseMaker®. Los resultados evidencian aspectos personales, sociales y culturales que posicionan la oferta de educación en la modalidad a distancia como la institución que permite resignificar la vida de las persona

Colecciones Digitales Uniminuto

Medio ambiente, sociedad, ética, auditoría y educación. La Investigación Contable en UNIMINUTO Virtual y a Distancia: Contexto y Oportunidades.

Author: Aguirre Díaz Juan Ángel
Cabrera Jaramillo Ruby Stella
Carreño García Jeimy Johanna
Escobar Rodríguez John Hernando
Garzón Reyes Rosmery Sofía
Giraldo Valencia Jazmín
Guerrón Yela Mary Luz
Gómez Pedroza Fredy Julián
Herrera Quintero John Mario
Huaman Taype Irvin
Jaramillo Ramos Paula Milena
Lugo Arias Elkyn Rafael
López Porras Nelson Enrique
Martínez Martínez Giovanni Gamaliel
Martínez Pérez Juan David
Molina Mora Francisco Ricardo
Pino Montoya José Wilmar
Prada Segura Jasleidy Astrid
Quintero Rengifo Edward Ferney
Rodríguez Erazo Berli
Rodríguez Prieto Ángela María
Rodríguez Tovar Maira Alexandra
Roque Daniel Isaac
Rubiano Beltrán Francy Yamile
Salgar Ramírez Carlos Arturo
Santamaría Ayala Jefferson
Sarmiento Tocarruncho María Fernanda
Torres Cortés Marisol
Trujillo Prada Mariela Andrea
Valencia Giraldo Elizabeth
Vega Pulgarín Sullys Dayana
Velandia Daza Jimmy Leonardo
Velandia Del Rio Martha Isabel
Villegas Jaramillo Ceida Marcela
Publication venue: UNIMINUTO Rectoría Virtual y a Distancia
Publication date: 01/02/2022
Field of study

Colecciones Digitales Uniminuto

El invisible y asombroso proceso de la comunicación oral: Bases sobre Reconocimiento de Voz

Author: De la Rosa Vargas José de Jesús
Pedroza Ramírez Ángel David
Publication venue: Psitas Educativas-SENIE, Instituto Tecnológico de Celaya
Publication date: 01/11/2015
Field of study

El arículo aborda de manera sencilla el proceso de producción de voz y todas sus componentes, parra llegar a la presentación de las técnicas más clásicas para el análisis de dicho tipo de señal

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas

A comparative between Mel Frequency Cepstral Coefficients (MFCC) and Inverse Mel Frequency Cepstral Coefficients (IMFCC) features for an Automatic Bird Species Recognition System

Author: Becerra Aldonso
De la Rosa Vargas José Ismael
Pedroza Ramírez Ángel David
Rosas Valdez Rogelio
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/09/2018
Field of study

In this paper a comparative between Mel Frequency Cepstral Coefficients (MFCC) and Inverse Mel Frequency Cepstral Coefficients (IMFCC) features for an automatic bird species recognition system is proposed with the aim to validate IMFCC as a feature that can also be extracted for bird species recognition. In biodiversity monitoring task there are some traditional techniques and, bioacoustics studies biodiversity by a noninvasive way based on the relationship between animal species and its sounds. Bioacoustics methodology for avian conservation are based on automatic speech recognition techniques and one of the traditional extracted features in this area are MFCC. Nevertheless some new studies uses IMFCC as a complementary frequency information. From results, it is concluded that IMFCC features have better performance than traditional MFCC features but, performance still depends on the recognized bird sound

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas

Speech recognition using deep neural networks trained with non-uniform frame-level cost functions

Author: Becerra de la Rosa Aldonso
De la Rosa Vargas José Ismael
Escalante Nivia
González Ramírez Efrén
Martínez Juan Manuel
Pedroza Ramírez Ángel David
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/11/2017
Field of study

The aim of this paper is to present two new variations of the frame-level cost function for training a Deep neural network in order to achieve better word error rates in speech recognition. Minimization functions of a neural network are salient aspects to deal with when researchers are working on machine learning, and hence their improvement is a process of constant evolution. In the first proposed method, the conventional cross-entropy function can be mapped to a nonuniform loss function based on its corresponding extropy (a complementary dual function), enhancing the frames that have ambiguity in their belonging to specific senones (tied-triphone states in a hidden Markov model). The second proposition is a fusion of the proposed mapped cross-entropy and the boosted cross-entropy function, which emphasizes those frames with low target posterior probability. The developed approaches have been performed by using a personalized mid-vocabulary speaker-independent voice corpus. This dataset is employed for recognition of digit strings and personal name lists in Spanish from the northern central part of Mexico on a connected-words phone dialing task. A relative word error rate improvement of 12.3% and 10.7% is obtained with the two proposed approaches, respectively, regarding the conventional well-established crossentropy objective function

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas