11 research outputs found

    Reconocimiento de voz a través de técnicas híbridas utilizando modelos Markovianos y nuevos tipos de redes neuronales

    Get PDF
    The speech recognition module within a spoken dialogue system has become a key factor over time. The improvements that can be made with the new approaches and techniques have shown the evolutionary path that can be carried out in many processes of training and architecture definition in order to obtain superior recognition rates. In this sense, the present research has as objective to investigate new schemes to improve the word error rates (WER). The present work is based on the idea of using the deep neural networks and hidden Markov models (DNNHMM) architecture, which relies heavily on the behavior of the Gaussian mixture models and hidden Markov models (GMM-HMM) approach. First, experimental comparisons are made taking into consideration both approaches. The research process has been performed by using a corpus of personalized voices in Spanish from the northern central part of Mexico, based on a connected-words phone dialing task through the recognition of digit strings and personal name lists. The specified recognition task is defined as speaker-independent, text-dependent and mid-vocabulary. In the first experimental case study, a relative improvement of 30% was obtained using the acoustic model based on neural networks (WER of 1:49%), compared to the classic acoustic model based on Gaussian mixtures (2:12%). In the second case study, a relative improvement of 20:71% was achieved with the connectionist approach (neural networks, WER of 3:33%) with regard to the Gaussian mixture model (4:20%). The presented recognition task shows that the current approaches based on connectionist models, originated in artificial intelligence, surpass the traditional approaches of Gaussian mixtures in most of the speech recognition tasks. With the purpose of obtaining improvements in the recent speech recognition models, the second part of the thesis proposes new cost functions to train a neural network, calling these functions as non-uniform mapped criteria. These functions allow superior recognition rates in comparison with the conventional cross-entropy function within the training of a deep neural network, by using the back-propagation algorithm and an optimization with the gradient descent procedure. The obtained results (a relative improvement of 12:3% and 10:7% was achieved with the two proposed approaches, with respect to the conventional model of cross-entropy) have shown improvements in the word error rates, suggesting that the proposed cost functions have arguments to be considered as interesting alternatives in this type of tasks. Nevertheless, we must continue with the work of testing this and new cost function mechanisms with different voice corpus in several conditions with and without environmental noise, in addition to considering radical variations in the speakers’ speech sources.El módulo de reconocimiento de voz dentro de un sistema de dialogo hablado se ha convertido en un punto clave con el paso del tiempo. Las mejoras que se le pueden hacer con los nuevos enfoques y técnicas han mostrado el camino evolutivo que se puede dar en muchos procesos de entrenamiento y definición de arquitecturas con el fin de obtener mejores tasas de reconocimiento. En este sentido, el presente trabajo tiene como objetivo investigar esquemas que permitan mejorar las tasas de error por palabra (WER). El trabajo se fundamenta en la idea del uso de la arquitectura de red neuronal profunda y modelos ocultos de Markov (RNP-MOM), la cual se basa en gran medida en el comportamiento del enfoque de modelo de mezclas Gaussianas y modelos ocultos de Markov (MMG-MOM). En primera instancia se hacen comparaciones experimentales en el funcionamiento de ambos enfoques tomando como punto de partida un corpus de voces personalizado en Español de la parte norte central de México, basado en una tarea de marcado telefónico a través de reconocimiento de dígitos numéricos y nombres completos de personas, con independencia de locutor, con dependencia de texto, de tamaño mediano y con palabras conectadas. En el primer caso de estudio experimental se obtuvo una mejora relativa del 30% usando el modelo acústico de redes neuronales (WER de 1:49%), en comparación con el modelo clásico de mezclas Gaussianas (2:12%). En el segundo caso de estudio se consiguió una mejora relativa de 20:71% en la tasa de error por palabras del enfoque conexionista (redes neuronales, WER de 3:33%) con respecto al modelo de mezclas Gaussianas (4:20%). En las tareas de reconocimiento presentadas se muestra que los enfoques actuales cimentados en modelos conexionistas, con origen en la inteligencia artificial, superan en la mayoría de los procesos de reconocimiento a los enfoques tradicionales de mezclas Gaussianas. Con el fin de conseguir mejoras en los modelos recientes de reconocimiento de voz, en la segunda parte del trabajo se proponen nuevas funciones de costo para entrenar una red neuronal, denominando a estas funciones como mapeadas no uniformes. Estas funciones permiten obtener mejores tasas de reconocimiento en comparación con la función convencional de entropía cruzada dentro del entrenamiento de una red neuronal profunda, utilizando para ello el algoritmo de retro-propagación y una optimización con el gradiente descendente. Los resultados obtenidos (se consiguió una mejora relativa de 12:3% y 10:7% con los dos enfoques planteados, con respecto al modelo base de entropía cruzada) han mostrado mejoras en las tasas de error por palabra, sugiriendo que las funciones de costo propuestas tienen argumentos para ser consideradas como alternativas interesantes en este tipo de tareas. No obstante, se debe seguir en la labor de probar este y nuevos mecanismos de función de costo con diferentes corpus de voces y en diversos entornos con y sin ruido ambiental, además de considerar variaciones radicales en los origenes de voz de los locutores

    Limited-data automatic speaker verification algorithm using band-limited phase-only correlation function

    Get PDF
    In this paper, a new method to deal with automatic speaker verification based on band-limited phaseonly correlation (BLPOC) is proposed. The aim of this study is to validate the use of the BLPOC function as a new limited-data automatic speaker verification technique. Although some speaker verification techniques have high accuracy, efficiency usually depends on the extraction of complex theoretical information from speech signals and the amount of the data for training the algorithms. The BLPOC function is a high-accuracy biometric technique traditionally implemented in human identification by fingerprints (through image-matching)

    SISTEMA PARA LA ADMINISTRACIÓN Y EL CONTROL DE ACCESO EN ZONAS RESIDENCIALES (SYSTEM FOR THE ADMINISTRATION AND CONTROL OF ACCESS IN RESIDENTIAL AREAS)

    Get PDF
    Resumen En la actualidad la construcción de zonas residenciales con acceso restringido ha ido en aumento a causa de los altos niveles de inseguridad que se mantienen en el país, por lo anterior, las personas deciden habitar estos lugares provocando problemáticas con la administración y control de la seguridad durante su funcionamiento. El presente trabajo muestra el desarrollo de un sistema web para la administración y control de acceso en zonas residenciales, con el objetivo de obtener una solución tecnológica adecuada al entorno real, atendiendo sus necesidades en el manejo de procedimientos financieros y de accesos físico al lugar. Esta implementación es realizada utilizando la metodología tradicional en cascada para construir artefactos de software contemplando las etapas de planeación, diseño, construcción y puesta en marcha. Obteniendo un sistema completamente funcional, decrementando el tiempo de gestión de la información y aumentando la seguridad en el control de acceso a la zona. Palabras Clave: Control de acceso, desarrollo de software, gestión de información, zona residencial. Abstract Currently the construction of residential areas with restricted access has been increasing due to the high levels of insecurity that remain in the country, therefore the people decide to inhabit these places causing problems with the administration and control of security during its operation. This work shows the development of a web system for administration and access control in residential areas, with the aim of obtaining a technology solution appropriate to the real environment, attending to their needs in handling financial procedures and physical access to the place. This implementation is carried out using the traditional cascade methodology to build software artifacts contemplating the planning, design, construction and commissioning stages. Obtaining a fully functional system, decreasing the information management time and increasing security in access control to the area. Keywords: Access control, information management, residential area, software development

    LEARNING CONTENT MANAGEMENT SOFTWARE PERSONALIZED FOR A UNIVERSITY ENVIRONMENT (SOFTWARE DE ADMINISTRACIÓN DE CONTENIDOS DE APRENDIZAJE PERSONALIZADO PARA UN AMBIENTE UNIVERSITARIO)

    Get PDF
    AbstracThe use of content management systems (better known as e-learning platforms) among universities is a key element in today’s educational approaches. Nevertheless, common content managers found in the web aren’t always the best option, given that they do not offer a personalized integration to satisfy the necessities of individual institutions, or they simply lack in fundamental areas, which leaves the necessities of both professors and students unsatisfied. Our proposal focuses on the design and implementation of a content management system integrated into the higher education environment, which takes into account the use of an academic model being utilized within our academic institution (Universidad Autónoma de Zacatecas), making emphasis in the interaction of both the students and professors with the system. This brings forward uniformity throughout the institution. It is projected that the system will enable students a better academic control, displaying performance statistics throughout the academic year, making time management easier for each of their activities. ResumenEl uso de software gestor de contenidos en las universidades es un elemento necesario en la educación actual. Sin embargo, los gestores de contenidos disponibles en la red no siempre son la opción más idónea, dado que no ofrecen una integración personalizada a las necesidades de cada institución, o resultan ser obsoletos en áreas trascendentales, dejando de satisfacer los requerimientos prácticos de los estudiantes/profesores. La presente propuesta está enfocada en el diseño y desarrollo de un software gestor de contenidos integrado al entorno universitario, que tome en cuenta el uso del modelo académico empleado dentro de la institución correspondiente, haciendo hincapié en la interacción del alumno/profesor con el sistema. Este hecho brinda uniformidad a través de la institución. También se tiene contemplado que el software permita al estudiante un mejor control académico, mostrándole su desempeño conforme se avanza, facilitándole la administración del tiempo que da a cada actividad programada

    SISTEMA DE RECONOCIMIENTO DE DÍGITOS MANUSCRITOS UTILIZANDO REDES NEURONALES

    Get PDF
    El reconocimiento de dígitos manuscritos es un entorno en creciente uso y por consiguiente requiere ir abordando alternativas para su implementación, el  uso de redes neuronales ha venido retomando el auge dentro del área de reconocimiento de patrones. Este documento muestra el uso de redes neuronales, a través de un software personalizado, como el motor detrás un sistema de reconocimiento de caracteres ópticos. En este sistema los dígitos numéricos son simplificados a través de filtros de imagen y luego presentados como entrada a la red neuronal para entrenarla (usando el algoritmo de retro-propagación) y ser capaz de clasificar otras muestras en la etapa de pruebas. Los resultados muestran tasas de reconocimiento cercanas al 85%, que se pueden considerar como aceptables para topologías de una sola capa, dejando pendiente para futuros experimentos el trabajo con redes multicapa pre-entrenadas, ya que suelen incrementar fuertemente su eficiencia

    SISTEMA PARA EL DIAGNÓSTICO DE HERIDAS SUPERFICIALES EN LA PIEL MEDIANTE PROCESAMIENTO DE IMÁGENES UTILIZANDO IA (SYSTEM FOR THE DIAGNOSING OF SUPERFICIAL SKIN WOUNDS THROUGH IMAGE PROCESSING BY USING AI)

    Get PDF
    Resumen Frecuentemente resulta difícil para un médico poder dar un diagnóstico certero y en poco tiempo sobre heridas superficiales en la piel, así como su evolución y mejoría, además esto puede ser subjetivo. Existen factores que pueden complicar esta valoración médica: experiencia, estudios y circunstancias de la herida. El objetivo de este trabajo es desarrollar un sistema que dé soporte al personal médico en el proceso de diagnóstico de heridas superficiales en la piel. Para cumplir el cometido, se propuso implementar diversos algoritmos para extracción/representación de características, como SIFT, SURF, BoW; así como varios modelos de clasificación: KNN, SVM y CNN. Los resultados experimentales aún no son tan satisfactorios, al momento alcanzaron exactitudes del 31.25%. Se requiere modelar y realizar pruebas adicionales para obtener precisiones superiores. Sin embargo, los datos obtenidos alientan a probar variantes de los modelos y la conjunción de bancos de datos más robustos que generen mejores resultados. Palabras Clave: Clasificación de heridas, heridas en la piel, inteligencia artificial, redes neuronales convolucionales, visión computacional. Abstract Sometimes it can be difficult for a physician, in a limited amount of time, to make an accurate diagnosis regarding superficial skin wounds, which comprises their evolution and improvement. There are factors that can complicate the medical evaluation, such as a physician´s experience, previous studies, and the circumstances under which the wound occurred. The purpose of this work is to develop a system that supports physicians in the process of diagnosing superficial skin wounds. To achieve this goal, algorithms such as SIFT, SURF and BoW were implemented, as well as classification models such as KNN, SVM and CNN. Experimental results have yet to be satisfactory, so far they have only reached an accuracy level of 31.25%. Additional effort is required to obtain higher accuracy levels. However, the data obtained so far encourages testing variants of the models and the combination of more robust datasets that can eventually yield better results. Keywords: Artificial intelligence, computer vision, convolutional neural networks, skin wounds, wound classification

    DISEÑO DE UN SISTEMA BIOMÉTRICO PARA CONTROL DE ASISTENCIAS EN AMBIENTES UNIVERSITARIOS (DESIGN OF A BIOMETRIC SYSTEM FOR ATTENDANCE CONTROL IN UNIVERSITY ENVIRONMENT)

    Get PDF
    ResumenActualmente las tareas de un profesor universitario requieren una relación entre la sesión de clase presencial y el registro de asistencia del estudiante, por lo que un mecanismo convencional para registrar dicha actividad de asistencia es capitalizado en una hoja de papel. Esta actividad deja de lado al alumno, además del tiempo que se consume. Este trabajo tiene como objetivo el diseño de un sistema asequible basado en biometría dactilar para el registro de asistencia del estudiante por cada curso al que asiste. La infraestructura desarrollada para este tipo de sistema requiere portabilidad y usabilidad para el usuario. El producto del control será obtenido por medio de un reporte de asistencias de huella digitalizada dactilar con mecanismo fiable de seguridad. Se dispone adicionalmente de una aplicación de escritorio desarrollada en Python que brinda funciones de gestión de usuarios.   Palabras Claves: huella dactilar digital, lector de huella digital, Raspberry PI, registro de asistencia biométrico. AbstractNowadays the tasks of a university professor require a relationship between the face-to-face class session and the student's attendance record, so that a conventional mechanism to record such attendance activity is capitalized on a sheet of paper. This activity leaves aside the student, in addition to the time consumed. The aim of this work is to design an affordable system based on fingerprint biometrics for the registration of student attendance for each course attended. The infrastructure developed for this type of system requires portability and usability for the user. The product of the control will be obtained by means of a digital fingerprint assistance report with a reliable security mechanism. It also has a desktop application developed in Python that provides user management functions.Keywords: digital fingerprint, fingerprint reader, Raspberry PI, biometric attendance record.

    Diseño de prototipo para mejorar la dicción mediante el uso de Modelos Ocultos de Markov

    Get PDF
    La comunicación oral en el ser humano es muy importante, sin embargo, la buena comunicación, independientemente del idioma, debe ser clara, objetiva y expresiva con el fin de que lo que se quiere expresar sea lo que el oyente entienda. El reconocimiento de voz, por otro lado, se basa en el estudio sobre el proceso del habla y la comunicación, y la forma en que este conocimiento puede ser aplicado como herramienta para diversas finalidades. El enfoque de esta investigación es el desarrollo de un prototipo didáctico para realizar pruebas de dicción en el idioma español. Para ello, se utilizaron 3 técnicas basadas en Modelos Ocultos de Markov (HMM) las cuales son Modelos Ocultos de Markov con DTW (MDTW), Modelos Ocultos de Markov con DTW aproximado por izquierda y derecha (MID) y Modelos Ocultos de Markov con relleno de palabras (MRP). Con esta estructura se logró distinguir entre calidades de dicción y con una eficiencia de reconocimiento por encima del 90 % para cualquiera de las técnicas utilizadas. Finalmente, con base en lo anterior, se programó una interfaz en Matlab la cual brinda resultados para la corrección de la dicción

    Acoustic individual identification in birds based on the band-limited phase-only correlation function

    Get PDF
    A new technique based on the Band-Limited Phase-Only Correlation (BLPOC) function to deal with acoustic individual identification is proposed in this paper. This is a biometric technique suitable for limited data individual bird identification. The main advantage of this new technique, in contrast to traditional algorithms where the use of large-scale datasets is assumed, is its ability to identify individuals by the use of only two samples from the bird species. The proposed technique has two variants (depending on the method used to analyze and extract the bird vocalization from records): automatic individual verification algorithm and semi-automatic individual verification algorithm. The evaluation of the automatic algorithm shows an average precision that is over 80% for the identification comparatives. It is shown that the efficiencies of the algorithms depend on the complexity of the vocalizations

    SISTEMA DE CERRADURAS COMANDADAS POR APLICACIÓN MÓVIL CON SERVIDOR CENTRALIZADO (LOCK SYSTEM COMMANDED BY MOBILE APPLICATION WITH CENTRALIZED SERVER)

    Get PDF
    Resumen El acceso a espacios físicos se da tradicionalmente por inserción de llave física, lo que en ciertos casos puede ser tardado o tener inconvenientes, y aún más cuando se espera un acceso rápido. Asimismo, en los métodos convencionales no se pueden difundir los accesos a diversos usuarios de manera instantánea, remota y sin costo. Este trabajo plantea el desarrollo de una aplicación móvil Android, integrada a un sistema domótico, para que sirva de apoyo a diversas personas como un método rápido y seguro de apertura y cierre de puertas de acceso a espacios físicos. El proyecto se realizó por medio del uso de la metodología Prototyping, la cual guía en la generación del sistema domótico que emplea una Raspberry PI como base. El prototipo además implementa un acceso remoto a cámaras IP mediante la aplicación móvil. Las pruebas exhaustivas realizadas mostraron resultados prometedores en resistencia, eficacia y funcionalidad. Palabras Clave: Aplicación móvil Android, cerraduras electrónicas, Mosquitto broker, Raspberry Pi, sistema domótico. Abstract Access to physical spaces is traditionally given by inserting a physical key, which in certain cases can be time consuming or have problems, and even more so when fast access is expected. Likewise, conventional methods cannot grant access to different users instantly, remotely and without cost. This work proposes the development of an Android mobile application, integrated into a home automation system, to serve as support for different people as a fast and safe method of opening and closing access doors to physical spaces. The project was carried out through the use of the Prototyping methodology, which guides the generation of the home automation system that uses a Raspberry PI as a base. The prototype also implements remote access to IP cameras through the mobile application. Extensive tests carried out showed promising results in strength, efficacy and functionality. Keywords: Android mobile app, electronic locks, home automation system, Mosquitto broker, Raspberry Pi
    corecore