142 research outputs found

    Evaluación de características musicales para detección de tipos de audio

    Full text link
    El objetivo de este proyecto es el de desarrollar un sistema capaz de identificar y segmentar audio radiofónico en distintas clases acústicas utilizando características musicales. Se ha realizado un estudio sobre el estado del arte en el campo de la segmentación de audio, analizando los algoritmos y técnicas más utilizadas así como las bases de datos con más influencia de la literatura. El algoritmo desarrollado hace uso de modelos estadísticos basados en mezcla de gaussianas (GMM-UBM) a partir de características basadas en la entropía cromática espectral, extraída del audio de la base de datos proporcionada por la evaluación ALBAYZIN 2010 de segmentación de audio. El sistema implementado se divide en siete sub-tareas, identificando en cada una de ellas un tipo de audio distinto. Entre estas sub-tareas se pueden encontrar sistemas como un discriminador de voz/música o un detector de actividad de voz, entre otros. Los resultados obtenidos se han comparado y fusionado con el sistema presentado por el grupo de investigación ATVS en la evaluación de segmentación de audio ALBAYZIN de 2010. Aun teniendo rendimientos inferiores, gracias a la fusión se llega a mejorar el rendimiento global de ambos sistemas. Durante la ejecución de este proyecto fin de carrera se han realizado otras contribuciones en el campo de la Recuperación de Información Musical (MIR), desarrollando dos sistemas en las tareas de similitud de audio musical e identificación de versiones musicales. El sistema de identificación de versiones musicales ha servido de base para la generación del material utilizado en las prácticas de la asignatura Tecnologías de Audio, de 4º curso del Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación de la Universidad Autónoma de Madrid.The target of this project is to develop a system capable of identifying and segmenting audio radio at different acoustic classes using musical features. There has been performed a study in the state of the art in the field of audio segmentation, analysing the algorithms and techniques most used as well as the databases most influential in the literature. The developed algorithm uses statistical models based on Gaussian Mixtures Models (GMM-UBM) using features based on spectral chromatic entropy, extracted from the audio database provided by the ALBAYZIN 2010 evaluation in audio segmentation. The implemented system is divided into seven sub-tasks, identifying a different type of audio per task. Among these sub-tasks we can found a discriminator system between voice and music or a voice activity detector. The results have been compared and merged with the system presented by the research group ATVS in evaluation of audio segmentation ALBAYZIN 2010. Even with lower yields, thanks to the merger, we can improve the overall performance of both systems. During the execution of this final project there has been made other contributions in the field of Music Information Retrieval (MIR), developing two systems in audio music similarity and audio cover song identification. The audio cover song identification system has been the basis for the generation of the material used in the practices of Tecnologías de Audio course, 4th year of the Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación of the Universidad Autónoma de Madrid

    Fusión sensorial para la detección y seguimiento de peatones

    Get PDF
    Todas las personas hoy en día, buscan la máxima seguridad en todos los ámbitos y aspectos de la vida. Constantemente lo buscamos en casa, en el trabajo, en un viaje, etc… para todo buscamos seguridad. Múltiples son los datos que vemos cada día en las noticias de situaciones en las que se ha ignorado el hecho de estar o no lo suficientemente seguros en cada momento. Siempre se ven robos, accidentes, muertes infortunas, etc… que no son para nada agradables y aun mucho menos si se sufren con un familiar, con alguien conocido, o incluso sólo con llegar a presenciarlo. Este motivo es el que nos mueve a llevar a buscar un sistema en un coche, que nos ayude a obtener dicha seguridad a la hora, en concreto, de la conducción. Muchos son los despistes que se pueden producir en trayectos cortos, conocidos, o cuando estamos cansados. Y es prácticamente imposible, por no decir imposible, que se eliminen con un sistema que evite todo tipo de situaciones peligrosas. El propósito de este proyecto está en intentar ayudar a mejorar dicha seguridad. Muchos son los accidentes producidos por atropellos a lo largo de los años en distracciones, despistes o faltas incluso de atención, y muchas han sido las mejoras que se han hecho, se hacen, y se harán para evitarlos como ABS (Antibloqueo de frenos), BAS (Asistencia en frenada de emergencia), TCS (Control de tracción), ESP (Control de estabilidad), ACC (Control de crucero adaptativo), LDWS (Sistema de detección de carril), etc… y muchos más tanto activos como pasivos que podríamos nombrar. El propósito de este proyecto va a ser, ya que no se pueden eliminar por completo todos los accidentes ni los heridos, ni fallecidos; intentar ayudar aún más a evitar estos fatídicos acontecimientos y seguir contribuyendo a la tendencia descendente de estos acontecimientos.Ingeniería Técnica en Electrónic

    Hybrid call sentiment analysis systems

    Get PDF
    Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2020/2021.A lo largo de los últimos años ha existido un incremento considerable en comunicaciones y operaciones llevadas a cabo en la red. Las Redes Sociales (RRSS) y el comercio electrónico han visto crecer su influencia en nuestro entorno de manera exponencial, generándose una ingente cantidad de datos sobre las preferencias de cada usuario. Los vídeos, audios, imágenes y textos que compartimos pueden ser analizados con detalle para extraer información sobre nuestros gustos. Esos sentimientos tienen un gran potencial dentro del comercio, debido al feedback que es transmitido por las opiniones de los usuarios en múltiples plataformas, que son procesadas por tecnologías basadas en análisis de la información: Machine Learning y Deep Learning, cuyo origen es la Inteligencia Artificial. Aplicando estas técnicas al marketing y al comercio online se puede obtener una gran cantidad de valor, algo que conocen bien la mayoría de empresas en la actualidad, que hacen uso de las RRSS y de estudios de mercado con Big Data para ofrecer una experiencia más cercana y personalizada para sus clientes. También existen otras aplicaciones que ofrecen infinidad de posibilidades en campos como la medicina, psicología o sociología. Dos campos, que en cierto modo comparten objetivo aunque sus análisis se centran en medios diferentes, son el Reconocimiento de Emociones en Audio y el Procesamiento de Lenguaje Natural (PLN). Estas tecnologías tienen como objetivo analizar y estimar el connotación subjetiva que alguien plasma en audio y texto con la mayor precisión posible. Dividiendo este proyecto en dichas partes, se han diseñado una serie de experimentos con el fin de estudiar y analizar los sentimientos en audio y el texto extraído gracias a una herramienta de transcripción. Junto a estas aplicaciones, otra herramienta estudiada y desarrollada es la de Speaker Diarization o separación de interlocutores. Este es el proceso que particiona un audio de entrada en segmentos homogéneos, según la actividad de los hablantes. La conjunción de los sistemas desarrollados nos llevaría a un análisis completo de un audio original, ofreciéndonos más detalles sobre el sentimiento y las emociones reflejadas en el mismo.Over the last few years, there has been a considerable increase in communications and operations carried out through the Internet. Social media and electronic marketing increased their influence in our society exponentially, creating a huge amount of data about our preferences. Videos, audios, images and texts we share online can be analized to extract that kind of information. That sentiment analysis have great potential in the marketing world due to the feedback sent by users in multiple platforms, which is processed by technologies based on data analysis like Machine Learning and Deep Learning. We can use these techniques in online marketing to obtain great valued information, something that companies already know and apply on social media and market studies with the purpose of giving a close experience to the user. There are also some other applications that could offer lots of possibilities in areas like medicine, psychology and sociology. Speech Emotion Recognition and Natural Language Processing are two of these technique families that look for sentiment and emotion on data, but they work on different media. These technologies’ goal is to estimate the subjective connotation inside a speech or a document. Dividing this project into to separated parts, we have designed a set of experiments to study and analize sentiment on audio and the text that is possible to extract from it with a transcription tool. Along with this systems, other tool that has been studied and developed is Speaker Diarization. Speaker Diarization is the process of partitioning an input audio stream into homogeneous segments according to the speaker identity. The conjunction of all the systems developed would make a complete analysis of the original audio, offering more details about the emotions expressed that a single appreciation could ignore.Depto. de Sistemas Informáticos y ComputaciónFac. de InformáticaTRUEunpu

    Sistema de clasificación y exposición de características faciales SICECAF

    Get PDF
    En la actualidad las tecnologías relacionadas con el reconocimiento automático del habla se han desarrollado de manera exponencial. Gracias a la investigación en este campo se ha mejorado la interacción persona-máquina, obteniendo nuevos tipos de aplicaciones relacionadas con la comunicación. Aunque las capacidades de los reconocedores del habla han aumentado en los últimos años siguen teniendo carencias importantes. Entre las más habituales destacan el ruido en el canal de transmisión y las ambigüedades del lenguaje, lo que provoca una falta de acierto considerable. Para solucionar estos problemas se necesita aumentar las prestaciones de los sistemas anteriormente descritos, tanto las capacidades de los dispositivos de sonido, como los algoritmos de reconocimiento, teniendo en cuenta las señales visuales presentes en el habla. En esta memoria se expone un sistema de reconocimiento facial que aumente las prestaciones de los reconocedores actuales. Se crea un sistema que combina diferentes métodos de visualización y discriminación de zonas faciales.Ingeniería Técnica en Informática de Gestió

    Técnicas de análisis, caracterización y detección de señales de voz en entornos acústicos adversos

    Get PDF
    Este trabajo de Tesis ha abordado el objetivo de dar robustez y mejorar la Detección de Actividad de Voz en entornos acústicos adversos con el fin de favorecer el comportamiento de muchas aplicaciones vocales, por ejemplo aplicaciones de telefonía basadas en reconocimiento automático de voz, aplicaciones en sistemas de transcripción automática, aplicaciones en sistemas multicanal, etc. En especial, aunque se han tenido en cuenta todos los tipos de ruido, se muestra especial interés en el estudio de las voces de fondo, principal fuente de error de la mayoría de los Detectores de Actividad en la actualidad. Las tareas llevadas a cabo poseen como punto de partida un Detector de Actividad basado en Modelos Ocultos de Markov, cuyo vector de características contiene dos componentes: la energía normalizada y la variación de la energía. Las aportaciones fundamentales de esta Tesis son las siguientes: 1) ampliación del vector de características de partida dotándole así de información espectral, 2) ajuste de los Modelos Ocultos de Markov al entorno y estudio de diferentes topologías y, finalmente, 3) estudio e inclusión de nuevas características, distintas de las del punto 1, para filtrar los pulsos de pronunciaciones que proceden de las voces de fondo. Los resultados de detección, teniendo en cuenta los tres puntos anteriores, muestran con creces los avances realizados y son significativamente mejores que los resultados obtenidos, bajo las mismas condiciones, con otros detectores de actividad de referencia. This work has been focused on improving the robustness at Voice Activity Detection in adverse acoustic environments in order to enhance the behavior of many vocal applications, for example telephony applications based on automatic speech recognition, automatic transcription applications, multichannel systems applications, and so on. In particular, though all types of noise have taken into account, this research has special interest in the study of pronunciations coming from far-field speakers, the main error source of most activity detectors today. The tasks carried out have, as starting point, a Hidden Markov Models Voice Activity Detector which a feature vector containing two components: normalized energy and delta energy. The key points of this Thesis are the following: 1) feature vector extension providing spectral information, 2) Hidden Markov Models adjustment to environment and study of different Hidden Markov Model topologies and, finally, 3) study and inclusion of new features, different from point 1, to reject the pronunciations coming from far-field speakers. Detection results, taking into account the above three points, show the advantages of using this method and are significantly better than the results obtained under the same conditions by other well-known voice activity detectors

    Herramientas para la indexación de vídeo: extracción de imágenes relevantes y análisis de imágenes de agencia

    Get PDF
    English: Firstly, in this report we will introduce a relevant frame extractor system from a video sequence. This allows us to characterize with a small number of images the content of a media sequence. Thus, the task of automatic audiovisual content indexing and retrieval becomes easier. The choice of frames that best represent the sequence occurs from three criteria: the presence of faces, the presence of text and image sharpness. Furthermore, as the main tool, it is developed a scene change detector based on the publication of Swain&Ballard Color Indexing [1]. Secondly we present a news agencies covers recognition system, which often contain information about the content of the video that follows. By extracting the text, we will also make easier the task of content indexing and retrieval from databases.Castellano: En esta memoria se presenta, en primer lugar, un sistema de extracción de frames relevantes en secuencias de vídeo. Esto permite caracterizar con un número reducido de imágenes el contenido de una secuencia procedente de medios audiovisuales. De esta forma, se facilita la indexación automática o semiautomática y la posterior recuperación de contenido audiovisual. La elección de los frames que mejor representan la secuencia se realiza a partir de tres criterios: presencia de caras, presencia de texto y nitidez de la imagen. Además, como herramienta principal, se desarrolla un detector de cambios de escena basado en la publicación de Swain & Ballard Color Indexing [1]. En segundo lugar se presenta un sistema de reconocimiento de carátulas de agencias de noticias, las cuales suelen contener información sobre el contenido del video que les sigue. Mediante la extracción del texto podremos facilitar también las tareas de indexación y recuperación de contenidos en bases de datos.Català: En aquesta memòria es presenta, en primer lloc, un sistema d'extracció de frames rellevants en seqüències de vídeo. Això ens permet caracteritzar amb un número reduït d'imatges el contingut d'una seqüència típica procedent de mitjans audiovisuals. D?aquesta manera es facilita la indexació automàtica o semiautomàtica i la posterior recuperació de contingut audiovisual. L'elecció dels frames que millor representen la seqüència es realitza a partir de tres criteris: presencia de cares, presencia de text i nitidesa de la imatge. A més, com a eina principal, es desenvolupa un detector de canvis d'escena basat en la publicació de Swain & Ballard Color Indexing [1]. En segon lloc, es presenta un sistema de reconeixement de caretes d'agència de notícies, les quals solen aportar informació del contingut del vídeo que precedeixen. Mitjançant l'extracció del text podrem facilitar també les tasques d'indexació i recuperació de continguts en bases de dades

    Reconocimiento de objetos utilizando Open CV y Python en una Raspberry Pi 2 en una tlapalería

    Get PDF
    El problema planteado consistió en reconocer objetos usando una computadora Raspberry Pi 2 y la Librería OpenCV, por lo que, una vez que se llevó a cabo la metodología se obtuvieron resultados que muestran la posibilidad de reconocer objetos de una tlapalería, por lo tanto, se concluye que el problema podría quedar resuelto si se implementa la propuesta de solución. Mientras que, el objetivo que se planteó de reconocer objetos a partir de imágenes digitales se logró usando la librería OpenCV y dos programas desarrollados en Python que fueron: El que genera los descriptores de las imágenes y el otro que busca el objetos en el banco de imágenes. Por lo que, el objetivo queda cumplido. Por otro lado, la hipótesis que dice: “Si se implementa un sistema de reconocimiento de objetos en las tlapalerías será posible reconocer objetos a partir de una fotografía así como su existencia y características del objeto buscado”, y que de acuerdo a los resultados la hipótesis ha resultado verdadera al lograrse el reconocimiento de objetos. Las características de los objetos del banco de imágenes fueron almacenadas en los descriptores de los mismos. Es importante mencionar que, en la metodología se usó un conjunto de 20 imágenes que se tuvieron que estandarizar en tamaño de pixeles y se cambiaron a escala de grises. Con lo anterior fue posible el reconocimiento del 75% de objetos, con un 80% de grado de similitud. Sin embargo, falló en algunos objetos, y fue necesario un procesamiento de cambio de tamaño y una nueva segmentación. Con lo anterior fue posible el reconocimiento de los 20 objetos. Se requirió obtener la imagen a partir de una fotografía del objeto, luego se procesó para su segmentación y luego pasar a la escala de grises y finalmente el proceso de reconocimiento de imágenes. Todo lo anterior, se requiere de al menos 4 minutos para obtener la imagen y la búsqueda del objeto tardó segundos, pero cambia al aumentar el banco de imágenes. Este tipo de sistema una vez implementado en alguna tlapalería sustituiría la búsqueda de objetos en la base de datos, obteniendo una búsqueda de objetos más detallada y a la vez brindando a los clientes una mayor atención personal

    Termografía y herramientas computacionales como técnica híbrida no destructiva para la visualización de infraestructura y fugas en redes de agua

    Full text link
    The main objective of this thesis is to study the feasibility of implementing hybrid techniques based on isolated infrared thermography and Machine Learning techniques in the maintenance of water distribution networks. Specifically, it seeks to study how such tools, based on nondestructive testing (NDT), are suitable for visualization of infrastructure elements and detection of leaks. Water supply for humans becomes complex as time passes, the population increases and as a result of the demand variation. The supply networks are modified to provide the increasing demand, while the updating of the information related to the system is sometimes not recorded simultaneously. Typically, irrespective of the kind of maintenance that is carried out in the distribution network, the pipes become old, and the systems deteriorate and stop working optimally. There are other reasons for a malfunction of the network including poor operation, deterioration or leakage, the latter being a complex problem that entails many drawbacks. Non-visible leaks can mean water loss, as long as they are not repaired, and also indirect damage, depending on the age of leaks or how large they are. Thermography can function as a means of artificial vision, which can lead to early correction of leaks. It has as an advantage that, as it is a technique for non-destructive evaluation, it does not interfere with the medium. It is intended that, by analyzing the infrared images provided by the thermographic camera, it is possible to isolate areas that are suspected of containing a leak. The imaging has a very positive characteristic because it does not have a restrictive use by hour of the day or condition of temperature. Moreover, Machine Learning methods can help classify/obtain information through huge amounts of data. Such techniques can be incorporated into current SCADA systems and, through realtime data, provide information on possible leakage points. Valuable information can be extracted, after processing, from the large amount of data that is received.La presente Tesis tiene como principal objetivo estudiar la viabilidad de implementación híbrida de técnicas basadas en la termografía infrarroja aislada y técnicas de Machine Learning en el mantenimiento de redes de distribución de agua. Concretamente, se busca estudiar cómo tales herramientas, a base de ensayos no destructivos (END), son adecuadas para la visualización de elementos de la infraestructura y para la detección de fugas. El abastecimiento de agua para el ser humano se torna complejo a medida que pasa el tiempo, la población aumenta, y como consecuencia de la evolución de la demanda. Las redes de abastecimiento se ven modificadas para poder suministrar un servicio en aumento, mientras que la actualización de la información referente al sistema, en ocasiones, no se registra a la par. Como es natural, a pesar del mantenimiento que se lleve a cabo en la red de distribución, las tuberías envejecen, y los sistemas se deterioran y dejan de funcionar de manera óptima. Existen otros motivos para un mal funcionamiento de la red incluyendo mala operación, deterioros o fugas, siendo estas últimas un problema complejo que acarrea muchos inconvenientes. Las fugas no visibles pueden significar pérdidas de agua, mientras no sean reparadas, y daños indirectos, según sea el tiempo que lleve la fuga o la magnitud que posea. La termografía puede funcionar como un medio de visión artificial, que puede conducir a la visualización de la infraestructura, ayudando, en particular a la corrección temprana de fugas. Cuenta como ventaja que, al tratarse de una técnica de evaluación no destructiva, no interfiere con el medio. Se pretende que, analizando las imágenes de infrarrojos provistas por la cámara termográfica, sea posible aislar áreas que sean sospechosas de contener fugas. La toma de imágenes tiene una característica muy positiva pues no posee una restrictiva de uso por hora del día o condición de temperatura. Por otra parte, los métodos de Machine Learning pueden ayudar a clasificar/obtener información a partir de grandes cantidades de datos. Tales técnicas pueden ser incorporadas en los sistemas SCADA actuales y, mediante datos en tiempo real, proporcionar información sobre posibles puntos de fuga. De la gran cantidad de datos que se reciben, tras un procesamiento adecuado, se puede extraer información altamente valiosa.La present Tesi té com a principal objectiu estudiar la viabilitat d'implementació de tècniques hibrides basades en la termografia infraroja aïllada i tècniques de Machine Learning, en el manteniment de xarxes de distribució d'aigua. Concretament, es busca estudiar com tals eines a força d'assajos no destructius (AND) són adequades per a la visualització d'infraestructura y la detecció de fuites. El proveïment d'aigua per a l'ésser humà es torna complex a mesura que passa el temps, la població augmenta i com a conseqüència de la demanda. Les xarxes d'abastament es veuen modificades per suplir el servei augmentant, i l'actualització de la informació referent al projecte de vegades no es registra a l'una. Com és natural tot i el manteniment que es dugui a terme a la xarxa de distribució, les canonades envelleixen, els sistemes es deterioren i deixen de funcionar de manera òptima. Hi ha altres motius per un mal funcionament de la xarxa incloent mala operació, edat, deterioraments o fuites, sent aquestes últimes un problema complex que implica molts inconvenients. Les fuites no visibles poden significar pèrdues d'aigua, mentre no siguin reparades, i danys indirectes, segons sigui el temps que porti la fugida o la magnitud que tingui. La termografia pot funcionar com un mitjà de visió artificial, que pot conduir a una correcció primerenca de fuites. Compte com avantatge que, en tractar-se d'una tècnica per a l'avaluació no destructiva, no interfereix amb el medi. Es pretén que, analitzant les imatges d'infrarojos proveïdes per la càmera, sigui possible aïllar àrees que siguin sospitoses de contenir una fuita. La presa d'imatges té una característica molt positiva ja que no posseeix una restrictiva d'ús per hora del dia o condició de temperatura. D'altra banda, els mètodes de Machine Learning poden ajudar a classificar / obtenir informació per mitjà de dades vasts i vàlids. Tals tècniques poden ser incorporades en els sistemes SCADA actuals i, mitjançant dades en temps real, proporcionar informació sobre possibles punts de fuga. De la gran quantitat de dades que es reben, després processar-los, es pot extreure informació altament valuosa.Carreño Alvarado, EP. (2017). Termografía y herramientas computacionales como técnica híbrida no destructiva para la visualización de infraestructura y fugas en redes de agua [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/86176TESI

    Algoritmos de Enjambre para la Optimización de HMM en la Detección de Soplos Cardíacos en Señales Fonocardiográficas Usando Representaciones Derivadas del Análisis de Vibraciones

    Get PDF
    Este trabajo presenta una metodología para desarrollar un sistema automático de apoyo en la clasificación de señales fonocardiográficos (PCG). En primer lugar, las señales PCG fueron pre-procesadas. Luego descompuestas por medio de la técnica descomposición modo empírico (EMD) con algunas de sus variantes y el análisis de vibración por descomposición de Hilbert (HVD) de forma independiente, donde se comparó el costó computacional y el error en la reconstrucción de la señal original generando constructos a partir de las IMFs. A continuación, se extrajeron las características con los momentos estadísticos de los datos generados por la transformada de Hilbert-Huang (HHT), además de los coeficientes cepstrales en las frecuencias de Mel (MFCC) y cuatro de sus variantes. Por último, un subconjunto de características fue seleccionado usando conjuntos de aproximación difusos (FRS), análisis de componentes principales (PCA) y selección secuencial flotante hacia adelante (SFFS) de manera simultánea para ser utilizadas como entradas del modelo oculto de Markov (HMM) ergódico ajustado con optimización por enjambre de partículas (PSO), con el fin de proporcionar un mecanismo objetivo y preciso para mejorar la fiabilidad en la detección de soplos en el corazón, obteniendo resultados en la clasificación de alrededor del 96% con valores de sensibilidad superiores a 0.8 y de especificidad mayores a 0.9, utilizando validación cruzada (70/30 con 30 fold)This study presents a methodology for developing an automated support system in the classification of phonographic signals (PCG). First, the PCG signals were preprocessed. You then decomposed by the decomposition technique empirically (EMD) with some of its variants and vibration analysis by decomposition of Hilbert (HVD) independently, where the computational cost and the error was compared in the reconstruction of the original signal generating constructs from IMFs. Then the characteristics of the statistical moments data generated by the Hilbert-Huang Transform (HHT), plus cepstral coeffcients at frequencies of Mel (MFCC) and four of its variants were extracted. Finally, a subset of features was selected using sets of fuzzy approximation (FRS), principal component analysis (PCA) and floating sequential forward selection (SFFS) simultaneously to be used as inputs to the hidden Markov model (HMM) ergodic adjusted particle swarm optimization (PSO), in order to provide an objective and accurate to improve reliability in detecting heart murmurs mechanism, obtaining results in the classification of about 96% with sensitivity values higher 0.8 and higher specificity to 0.9, using cross-validation (70/30 split with 30 fold)Magister en Automatización y Contro
    corecore