14 research outputs found
Segmentador de audio basado en técnicas de Machine Learning
El análisis de la señal de audio es un campo complejo donde las técnicas de Machine Learning
(Aprendizaje Automático) han demostrado su eficacia, ya que, mediante estos modelos aplicados sobre
diferentes características de la señal se puede reconocer diferentes tipos de patrones que nos permiten
segmentar la señal de audio según la tarea de interés. Este Trabajo de Fin de Grado tiene como objetivo
explorar las diferentes técnicas de Machine Learning y Deep Learning empleadas en diferentes fases
de segmentado del audio.
En primer lugar, se ha realizado un sistema de Detección de Actividad de Voz (Voice Activity Detection,
VAD), donde interesa detectar si un segmento del audio contiene voz o no. Para ello, por una parte,
se ha realizado una aproximación basada en una red neuronal feed forrward (Deep Neural Network,
DNN), otra basada en una red neuronal recurrente (Recurrent Neural Network, RNN), concretamente
una Long Short-Term Memory (LSTM) y por último una red neuronal convolucional (Convolutional
Neural Network, CNN). Se ha usado como características acústicas los MFCC (Mel-frequency Cepstral
Coefficients) para los dos primeros casos y Melgramas para la CNN. Por otro lado, se ha empleado el
método Random Forest para la misma tarea, usando esta vez la energía por trama como característica
de entrada.
En segundo lugar, se ha abordado la tarea de Clasificación de Género (Hombre/Mujer) por trama
de audio. Para ello se ha usado un modelo de mezclas gaussiano (Gaussian Mixture Model, GMM).
Como característica de audio para entrenar el modelo se ha empleado la frecuencia fundamental de la
señal.
Como última fase de segmentado se ha probado con un diarizador de locutor (speaker diarization),
el cual consiste en un modelo de clustering entrenado i-vectors.
Todos los sistemas se han implementado mediante Python. En el caso de las redes neuronales se
ha usado la librería Keras, la cual funciona sobre TensorFlow. Para los algoritmos de Machine Learning
se ha empleado la librería Sci-kit learn. Para la visualización de los datos mediante gráficas se ha
hecho uso de Matlab.
Los datos tanto de entrenamiento como de validación y test empleados en el sistema VAD forman
parte de la base de datos OpenSAT (Open Speech Analytic Technologies) desarrollada por el Instituto
Nacional de Estándares y Tecnología (National Institute of Standards and Technologies, NIST).
Concretamente se ha empleado el conjunto de audios de conversaciones telefónicas de IARPA Babel
(Intelligence Advanced Research Projects Activity). Para el clasificador de género se ha empleado la
base de datos SRE10 (Speaker Recognition Evaluation 2010), concedida por el NIST también.
Las métricas empleadas para comparar el rendimiento y resultados entre los diferentes sistemas
son el accuracy y la detección de la función de coste (Detection Cost Function, DCF).
Para la tarea VAD se ha obtenido una leve mejora respecto los demás sistemas en el caso de las
LSTM como cabía esperar por ser más adecuada para modelar señales temporales. Para el clasificador
de género, se obtienen buenos resultados gracias a la distribución de los datos de la frecuencia
fundamental y el uso de dos GMM para modelar estas distribucione
Latin American perspectives to internationalize undergraduate information technology education
The computing education community expects modern curricular guidelines for information technology (IT) undergraduate degree programs by 2017. The authors of this work focus on eliciting and analyzing Latin American academic and industry perspectives on IT undergraduate education. The objective is to ensure that the IT curricular framework in the IT2017 report articulates the relationship between academic preparation and the work environment of IT graduates in light of current technological and educational trends in Latin America and elsewhere. Activities focus on soliciting and analyzing survey data collected from institutions and consortia in IT education and IT professional and educational societies in Latin America; these activities also include garnering the expertise of the authors. Findings show that IT degree programs are making progress in bridging the academic-industry gap, but more work remains
Descripción general de sistemas de potencia eólicos
This paper presents a general overview of the main characteristics of the wind power systems, also considerations about the simulation models and the most used Maximum Power Point Tracker (MPPT) techniques are made. Some simulation results are shown and cEste documento presenta una visión general de las principales características de los sistemas de energía eólica, también se hacen consideraciones sobre los modelos de simulación y las técnicas más utilizadas de seguimiento del punto de máxima potencia (M
Overall Description of Wind Power
This paper presents a general overview of the main characteristics of the wind power systems, also considerations about the simulation models and
the most used Maximum Power Point Tracker (MPPT) techniques are made. Some simulation results are shown and conclusions about the work are given.
PACS 88.50.-k; 88.50.-G; 88.50.X
Análise electromiográfica da actividade muscular do tronco durante o lançamento de balas paraolímpicas
The stability of the pelvis and trunk, given by the activity of the muscles in the region, represents an important factor for the correct execution of the sports technique and the prevention of injuries in Paralympic throwers. The objective of this study was to analyze, through surface electromyography, the muscular activity of the rectus abdominis, external oblique of the abdomen and erector spinae, longuissimus and iliocostal bellies, during the shot put from a chair, in 4 Paralympic athletes (2 with lower limb injury and 2 with spinal cord injury). Electromyography showed variations in activation patterns, execution time and amplitude of the signal, according to the disability condition and the degree of trunk involvement. This allowed to have a more realistic panorama of the muscular actions during the sport gesture and the detection of improvement options for the athletes. La estabilidad de la pelvis y el tronco, dada por la actividad de los músculos de la región, representa un factor importante para la correcta ejecución de la técnica deportiva y la prevención de lesiones en lanzadores paralímpicos. El objetivo de este estudio fue analizar a través de electromiografía de superficie, la actividad muscular del recto abdominal, oblicuo externo del abdomen y erector de la columna, vientres longuísimo e iliocostal, durante el lanzamiento de bala desde silla, en 4 atletas paralímpicos (2 con lesión en miembros inferiores y 2 con lesión medular). La electromiografía evidenció variaciones en los patrones de activación, el tiempo de ejecución y la amplitud de la señal, acorde a la condición de discapacidad y el grado de afectación del tronco. Esto permitió tener un panorama más real de las acciones musculares durante el gesto deportivo y la detección de opciones de mejora para los deportistas.A estabilidade da pélvis e do tronco, dada pela actividade dos músculos da região, representa um factor importante para a correcta execução da técnica desportiva e a prevenção de lesões nos lançadores paraolímpicos. O objectivo deste estudo foi analisar, através da electromiografia de superfície, a actividade muscular do recto abdominal, oblíquo externo do abdómen e erector da coluna vertebral, barriga muito comprida e iliocostal, durante o tiroteio em 4 atletas paraolímpicos (2 com lesão nos membros inferiores e 2 com lesão na medula espinal). A electromiografia mostrou variações nos padrões de activação, tempo de execução e amplitude do sinal, de acordo com a condição de incapacidade e o grau de envolvimento do tronco. Isto permitiu-nos ter uma imagem mais real das acções musculares durante o gesto desportivo e a detecção de opções de melhoria para os atletas
The multi-domain international search on speech 2020 ALBAYZIN evaluation: Overview, systems, results, discussion and post-evaluation analyses
The large amount of information stored in audio and video repositories makes search on speech (SoS) a challenging area that is continuously receiving much interest. Within SoS, spoken term detection (STD) aims to retrieve speech data given a text-based representation of a search query (which can include one or more words). On the other hand, query-by-example spoken term detection (QbE STD) aims to retrieve speech data given an acoustic representation of a search query. This is the first paper that presents an internationally open multi-domain evaluation for SoS in Spanish that includes both STD and QbE STD tasks. The evaluation was carefully designed so that several post-evaluation analyses of the main results could be carried out. The evaluation tasks aim to retrieve the speech files that contain the queries, providing their start and end times and a score that reflects how likely the detection within the given time intervals and speech file is. Three different speech databases in Spanish that comprise different domains were employed in the evaluation: the MAVIR database, which comprises a set of talks from workshops; the RTVE database, which includes broadcast news programs; and the SPARL20 database, which contains Spanish parliament sessions. We present the evaluation itself, the three databases, the evaluation metric, the systems submitted to the evaluation, the evaluation results and some detailed post-evaluation analyses based on specific query properties (in-vocabulary/out-of-vocabulary queries, single-word/multi-word queries and native/foreign queries). The most novel features of the submitted systems are a data augmentation technique for the STD task and an end-to-end system for the QbE STD task. The obtained results suggest that there is clearly room for improvement in the SoS task and that performance is highly sensitive to changes in the data domainThis research was funded by the Ministry of Science, Innovation and Universities of Spain,
grant number RTI2018-095324-B-I00, and project DSForSec (grant number RTI2018-098091-B-I00). The APC was funded by the project DSForSec (grant number RTI2018-098091-B-I00) from the Ministry of Science, Innovation and Universities of Spai
Modelado exploratorio del rendimiento y la confiabilidad de software sobre middleware orientado a mensajes
Performance is an important quality attribute in a software system. Software Performance Engineering comprises analysis, design, construction, measurement and validation concerning performance requirements during software development processes. Performance in software systems using message-based communication depends mostly on the Message-Oriented Middleware (MOM). Software architects need to consider MOM’s organization, configuration and usage details to get meaningful predictions about the behavior of a software system that uses such platform. When including MOM in software architecture, it is required to foresee the impact of messaging and its underlying infrastructure. Software architects may omit the MOM influence, which could lead to wrong predictions. In this article, we explore MOM’s influence through the Palladio Component Model – PCM, a component-based modeling and simulation approach. An application previously modeled with PCM was adapted to include message-oriented communication. Simulations over the model, systematic measurements, and load testing on the adapted application were performed, in order to determine how the changes in the model influenced the prediction of the application’s behavior on performance and reliability. A bottleneck that impacts performance and reliability of the original system was identified. Introducing MOM improved the system’s reliability but harmed its performance. Component-based performance simulation revealed significant differences with measurements obtained during the load testing experiments.El rendimiento es un importante atributo de calidad de un sistema de software. La Ingeniería de rendimiento del software comprende las actividades de análisis, diseño, construcción, medición y validación, que atienden los requerimientos de rendimiento a lo largo del proceso de desarrollo de software. En los sistemas de software que utilizan comunicación basada en mensajes, el rendimiento depende en gran medida del middleware orientado a mensajes (Message-Oriented Middleware – MOM). Los arquitectos de software necesitan considerar su organización, configuración y uso para predecir el comportamiento de un sistema que use tal plataforma. La inclusión de un MOM en una arquitectura de software requiere conocer el impacto de la mensajería y de la infraestructura utilizada. Omitir la influencia del MOM llevaría a la generación de predicciones erróneas. En este artículo se explora tal influencia, mediante el modelado y la simulación basados en componentes, utilizando el enfoque Palladio Component Model – PCM. En particular, una aplicación modelada en PCM fue adaptada para incluir comunicación basada en mensajes. Las simulaciones sobre el modelo, mediciones sistemáticas y pruebas de carga sobre la aplicación permitieron determinar cómo cambios introducidos en el modelo influyen en las predicciones del comportamiento de la aplicación en cuanto a rendimiento y confiabilidad. Fue posible identificar un cuello de botella que impacta negativamente el rendimiento y la confiabilidad del sistema original. La introducción de MOM mejoró la confiabilidad del sistema, a expensas del rendimiento. La simulación del rendimiento basado en componentes reveló diferencias significativas respecto de los experimentos basados en pruebas de carga y mediciones
Análisis acústico sobre señales de auscultación digital para la detección de soplos cardíacos
Se presenta la metodología basada en el análisis acústico de señales fonocardiográficas (FCG) par a detectar soplos cardíacos. En primer lugar se desarrolla un sistema de filtración basado en la transformada wavelet para reducir las perturbaciones que usualmente se presentan en la etapa de adquisición, ajustando la calidad del sonido de acuerdo a los requerimientos clínicos y validados por especialistas en semiología. Se propone un algoritmo de segmentación basado en la energía promedio normalizada de Shannon y la transformada wavelet. Sobre los segmentos se extraen características derivadas del análisis acústico y espectral. La efectividad de las características son evaluadas mediante un modelo en cascada de clasificador es del tipo máquina de sopor te vectorial para separar 3 clases: normal, soplo y otros. La base de registros FCG utilizada pertenece a la Universidad Nacional de Colombia ; de esta base de datos etiquetada se usar on 111 registros distribuidos así: 37 registros con etiqueta normal, 24 registros con etiqueta de soplo y 50 con etiqueta de otras anormalidades. Se obtienen resultados de precisión de clasificación par a los casos en que se caracterizan las señales filtradas y cuando se toman las señales originales sin filtrar , encontrando que el proceso de filtración incrementa considerablemente el acierto de clasificación hasta un 96
Propuesta de gestión tecnológica, financiera de mercadeo y organización en economía solidaria. Caso: finca el Eden de la universidad de Nariño en el corregimiento el Remolino del municipio de Taminango
Dentro de la política y norma que rige a la Universidad de Nariño, está la participación activa de la universidad y la región, desde este punto de vista la investigación está basada en el generar una propuesta técnica, financiera, de mercadeo y organización en economía solidaria dentro del espacio de la finca El Edén como prototipo para llevar a cabo cambio en los agricultores frente a mejoramiento continuo de sus cultivos y otras especies, en la zona del corregimiento el remolino del municipio de Taminango.
Proyecto que está orientado a dar apoyo al gremio de campesinos que durante décadas han sentido el abandono, la violencia y la inclemencia climática entre otras situaciones, se toma como ejercicio la finca el Edén que está localizada a diez minutos antes de ingresar al casco urbano de El Remolino por la vía Panamericana pasto El Bordo
La investigación es el resultado de identificar de manera directa con los diferentes actores tanto de entidades privadas como gubernamentales y ONGs, Gobernación de Nariño, fundación social, gremio cacaotero, fundación mundo de sueños, expertos de la UDENAR, comunidad involucrada y actores varios que por seguridad personal solicitaron no ser tocados sus nombres ni procedencia, encuentros que arrojaron información primaria para construir un diagnostico situacional objetivo basado en: necesidades de riego, explotación de terrenos con planificación y programación de cultivos, vías de acceso, productos posibles de cosecha y productividad, zonas afectadas, cantidades de parcelas y área por familia, comercio y su movimiento, líneas productivas, medios de transporte, seguridad e inseguridad en la zona
De aquí se desprende, la identificación de productos a fortalecer y nuevos que permitan con base en técnicas y costos reales y mercadeo programado desde las granjas se dé el valor agregado para los productos agroindustriales , mas nada de ello se logra sin la consolidación de una nueva cultura de conformación de organizaciones de economía solidaria sea cooperativas, fundaciones o asociaciones campesinas que generen desde su base o sea las familias, es cada una de estas propuestas que el proyecto deja a consideración en primera instancia de la comunidad en mención y en segunda aspecto a las organizaciones que han intervenido en esta región y por ultimo tener el consenso y consentimiento de la universidad de Nariño para gestar este reto de crecimiento y responsabilidad social que tenemos como ciudadanos y como gremio