12 research outputs found

    Correlaci贸n solo de fase limitada en banda y uso de coeficientes cepstrales inversos: aplicaci贸n en reconocimiento de voz y bioac煤stica

    Get PDF
    Digital signal processing is the application of mathematical operations to a piece of certain information. Because of its close relationship with other sciences, signal processing is the base of other science methodologies: automatic speech recognition and bioacoustics. Digital signal processing in this context is a solution tool. One of the most urgent problems is climate change. In this context, birds play a significant role where their identification and conservation are essential tasks. Even though automatic speech recognition provides specific solutions in bioacoustics, some of the traditional techniques fail in the capability of real field recognition. Since digital signal processing is a solution tool in a few contexts and bird species have acoustic patterns, it is possible to develop a new methodology in automatic speech recognition applied for recognition of species and individuals of birds (proposed efficiency over 70%). On the first phase of this research was to propose a new method for the speaker verification under limited data using the BLPOC function. After experiments, the BLPOC function confirmed to be an effective method. Taking these results into account, in the second phase a new technique for the individual identification of birds using the BLPOC function was proposed. The experiments confirmed that the BLPOC function is also an effective method for the individual identification of birds. Finally, in the same phase, another method for the automatic classification of species based on the IMFCC features was offered. Experiments conclude that the acoustic information of vocalizations in the high frequencies (captured by the IMFCC features) is as significant as the information in the low frequencies (captured by the traditional MFCC features).El procesamiento digital de se帽ales consiste en la aplicaci贸n de distintas operaciones matem谩ticas a una cierta informaci贸n bajo an谩lisis. Debido a su estrecha relaci贸n con otras ciencias, el procesamiento de se帽ales conforma la base de otras 谩reas de investigaci贸n como el reconocimiento autom谩tico de voz y la bioac煤stica. El procesamiento de se帽ales en este contexto conforma una herramienta de soluci贸n para diversas problem谩ticas. Una de las que m谩s relevancia tiene es el denominado: Cambio clim谩tico. En este contexto, las aves juegan un rol fundamental y por tanto la conservaci贸n e identificaci贸n de las especies de aves es de suma importancia. A pesar de que el reconocimiento de voz provee de soluciones para sistemas concretos en bioac煤stica, algunas de las t茅cnicas utilizadas fallan en la capacidad de reconocimiento en ambientes naturales.Tomando en cuenta lo anterior, dado que el procesamiento de se帽ales es una herramienta de soluci贸n en diversos contextos y tomando en cuenta que algunas especies de aves poseen patrones ac煤sticos, entonces es posible el desarrollo de una nueva metodolog铆a en reconocimiento de voz que luego puede ser extrapolada como parte del dise帽o de un nuevo sistema de reconocimiento autom谩tico para la identificaci贸n de aves (para algunas especies espec铆ficas) e individuos, con una eficiencia de reconocimiento por encima del 70%. En la primera fase de investigaci贸n fue propuesto una adaptaci贸n de la funci贸n BLPOC (correlaci贸n solo de fase limitada en banda) para la verificaci贸n autom谩tica de hablantes con datos limitados. Luego de las pruebas, la funci贸n BLPOC mostr贸 ser tambi茅n un m茅todo efectivo para un sistema de verificaci贸n de hablantes bajo la condici贸n de datos limitados. Tomando como base estos resultados, en la segunda fase se propuso una nueva t茅cnica para la identificaci贸n individual de aves mediante la funci贸n BLPOC. De las pruebas de desempe帽o se puede concluir que este es un m茅todo eficiente para la identificaci贸n de individuos de especies. En esta segunda fase se propuso un m茅todo adicional de clasificaci贸n autom谩tica de especies de aves basado en la extracci贸n de las caracter铆sticas IMFCC (coeficientes cepstrales inversos en la frecuencia mel ) de las vocalizaciones. De los resultados obtenidos se concluye que la informaci贸n ac煤stica de las vocalizaciones de aves en las altas frecuencias (capturadas por los IMFCC鈥檚) es tan significativa como la informaci贸n ac煤stica en las bajas frecuencias (capturadas por los MFCC麓s) para la clasificaci贸n de aves a trav茅s de vocalizaciones

    El invisible y asombroso proceso de la comunicaci贸n oral: bases sobre reconocimiento de voz

    Get PDF
    La comunicaci贸n, cuyo fin primario es la transmisi贸n de informaci贸n, forma parte fundamental de las necesidades b谩sicas del ser humano. El proceso de la generaci贸n del habla y m谩s a煤n el de la comunicaci贸n, es mucho m谩s complejo de lo que se podr铆a llegar a creer dado el nivel de coordinaci贸n que se requiere para producir, transmitir y decodificar un mensaje. El reconocimiento de voz se basa en el estudio sobre el proceso del habla y la comunicaci贸n, y la forma en que este conocimiento puede ser aplicado.El presente documento resume y brinda una revisi贸n sobre el estado del arte y las bases para entender el reconocimiento de voz desde el punto de vista fisiol贸gico y como una rama de la ciencia ampliamente utilizada en la tecnolog铆a de uso cada vez m谩s com煤n hoy en d铆a.Palabra(s) Clave(s): comunicaci贸n hombre-m谩quina, comunicaci贸n oral, habla, voz

    ESCUCHANDO A LA NATURALEZA: DEL RECONOCIMIENTO DE VOZ A LA BIOAC脷STICA

    Get PDF
    La bioac煤stica es la rama de la ciencia que, mediante informaci贸n ac煤stica, se encarga del estudio de la forma de transmisi贸n y recepci贸n de informaci贸n biol贸gica con el fin de alcanzar desde la identificaci贸n de especies hasta la determinaci贸n de la salud de un ecosistema. Algunos desarrollos recientes se han enfocado en la adecuaci贸n y aplicaci贸n de t茅cnicas de reconocimiento de voz tales como el uso de Modelos Ocultos de Markov, Redes Neuronales, entre otros; con el fin de lograr el reconocimiento automatizado de especies. En esta revisi贸n se presentan algunos avances tecnol贸gicos en el 谩rea as铆 como una visi贸n global sobre las herramientas matem谩ticas disponibles para, mediante ellas, lograr algunos de los objetivos que la bioac煤stica pretende alcanzar

    Escuchando a la naturaleza: Del reconocimiento de voz a la bioac煤stica

    Get PDF
    La bioac煤stica es la rama de la ciencia que, mediante informaci贸n ac煤stica, se encarga del estudio de la forma de transmisi贸n y recepci贸n de informaci贸n biol贸gica con el fin de alcanzar desde la identificaci贸n de especies hasta la determinaci贸n de la salud de un ecosistema. Algunos desarrollos recientes se han enfocado en la adecuaci贸n y aplicaci贸n de t茅cnicas de reconocimiento de voz tales como el uso de Modelos Ocultos de Markov, Redes Neuronales, entre otros; con el fin de lograr el reconocimiento automatizado de especies. En esta revisi贸n se presentan algunos avances tecnol贸gicos en el 谩rea as铆 como una visi贸n global sobre las herramientas matem谩ticas disponibles para, mediante ellas, lograr algunos de los objetivos que la bioac煤stica pretende alcanzar

    Dise帽o de prototipo para mejorar la dicci贸n mediante el uso de Modelos Ocultos de Markov

    Get PDF
    La comunicaci贸n oral en el ser humano es muy importante, sin embargo, la buena comunicaci贸n, independientemente del idioma, debe ser clara, objetiva y expresiva con el fin de que lo que se quiere expresar sea lo que el oyente entienda. El reconocimiento de voz, por otro lado, se basa en el estudio sobre el proceso del habla y la comunicaci贸n, y la forma en que este conocimiento puede ser aplicado como herramienta para diversas finalidades. El enfoque de esta investigaci贸n es el desarrollo de un prototipo did谩ctico para realizar pruebas de dicci贸n en el idioma espa帽ol. Para ello, se utilizaron 3 t茅cnicas basadas en Modelos Ocultos de Markov (HMM) las cuales son Modelos Ocultos de Markov con DTW (MDTW), Modelos Ocultos de Markov con DTW aproximado por izquierda y derecha (MID) y Modelos Ocultos de Markov con relleno de palabras (MRP). Con esta estructura se logr贸 distinguir entre calidades de dicci贸n y con una eficiencia de reconocimiento por encima del 90 % para cualquiera de las t茅cnicas utilizadas. Finalmente, con base en lo anterior, se program贸 una interfaz en Matlab la cual brinda resultados para la correcci贸n de la dicci贸n

    Medio ambiente, sociedad, 茅tica, auditor铆a y educaci贸n. La Investigaci贸n Contable en UNIMINUTO Virtual y a Distancia: Contexto y Oportunidades.

    Get PDF
    En los 煤ltimos a帽os la educaci贸n a distancia ha mostrado ser capaz de reducir la brecha de inequidad social, de capacitar personas en lugares remotos, de brindar la posibilidad a la comunidad discapacitada y de permitirle a quienes no cuentan con suficientes recursos econ贸micos acceder a la educaci贸n superior, la presente investigaci贸n da cuenta de los aspectos clave asociados a la decisi贸n de matricularse en el programa de Contadur铆a P煤blica en la modalidad distancia tradicional. Se realiz贸 un an谩lisis de las narrativas basado en los resultados de un instrumento aplicado a 150 estudiantes. Para el an谩lisis de datos se emple贸 la herramienta SenseMaker庐. Los resultados evidencian aspectos personales, sociales y culturales que posicionan la oferta de educaci贸n en la modalidad a distancia como la instituci贸n que permite resignificar la vida de las persona

    Medio ambiente, sociedad, 茅tica, auditor铆a y educaci贸n. La Investigaci贸n Contable en UNIMINUTO Virtual y a Distancia: Contexto y Oportunidades.

    Get PDF
    En los 煤ltimos a帽os la educaci贸n a distancia ha mostrado ser capaz de reducir la brecha de inequidad social, de capacitar personas en lugares remotos, de brindar la posibilidad a la comunidad discapacitada y de permitirle a quienes no cuentan con suficientes recursos econ贸micos acceder a la educaci贸n superior, la presente investigaci贸n da cuenta de los aspectos clave asociados a la decisi贸n de matricularse en el programa de Contadur铆a P煤blica en la modalidad distancia tradicional. Se realiz贸 un an谩lisis de las narrativas basado en los resultados de un instrumento aplicado a 150 estudiantes. Para el an谩lisis de datos se emple贸 la herramienta SenseMaker庐. Los resultados evidencian aspectos personales, sociales y culturales que posicionan la oferta de educaci贸n en la modalidad a distancia como la instituci贸n que permite resignificar la vida de las persona

    El invisible y asombroso proceso de la comunicaci贸n oral: Bases sobre Reconocimiento de Voz

    No full text
    El ar铆culo aborda de manera sencilla el proceso de producci贸n de voz y todas sus componentes, parra llegar a la presentaci贸n de las t茅cnicas m谩s cl谩sicas para el an谩lisis de dicho tipo de se帽al

    A comparative between Mel Frequency Cepstral Coefficients (MFCC) and Inverse Mel Frequency Cepstral Coefficients (IMFCC) features for an Automatic Bird Species Recognition System

    No full text
    In this paper a comparative between Mel Frequency Cepstral Coefficients (MFCC) and Inverse Mel Frequency Cepstral Coefficients (IMFCC) features for an automatic bird species recognition system is proposed with the aim to validate IMFCC as a feature that can also be extracted for bird species recognition. In biodiversity monitoring task there are some traditional techniques and, bioacoustics studies biodiversity by a noninvasive way based on the relationship between animal species and its sounds. Bioacoustics methodology for avian conservation are based on automatic speech recognition techniques and one of the traditional extracted features in this area are MFCC. Nevertheless some new studies uses IMFCC as a complementary frequency information. From results, it is concluded that IMFCC features have better performance than traditional MFCC features but, performance still depends on the recognized bird sound

    Speech recognition using deep neural networks trained with non-uniform frame-level cost functions

    No full text
    The aim of this paper is to present two new variations of the frame-level cost function for training a Deep neural network in order to achieve better word error rates in speech recognition. Minimization functions of a neural network are salient aspects to deal with when researchers are working on machine learning, and hence their improvement is a process of constant evolution. In the first proposed method, the conventional cross-entropy function can be mapped to a nonuniform loss function based on its corresponding extropy (a complementary dual function), enhancing the frames that have ambiguity in their belonging to specific senones (tied-triphone states in a hidden Markov model). The second proposition is a fusion of the proposed mapped cross-entropy and the boosted cross-entropy function, which emphasizes those frames with low target posterior probability. The developed approaches have been performed by using a personalized mid-vocabulary speaker-independent voice corpus. This dataset is employed for recognition of digit strings and personal name lists in Spanish from the northern central part of Mexico on a connected-words phone dialing task. A relative word error rate improvement of 12.3% and 10.7% is obtained with the two proposed approaches, respectively, regarding the conventional well-established crossentropy objective function
    corecore