thesis text master thesis
Metodología de interpretabilidad y explicabilidad para una arquitectura de transcripción automática de música mediante técnicas intrínsecas y Post-Hoc
Abstract
: figuras, tablasLa música ha sido un medio destacado para la comunicación y la expresión, desempeñando funciones fundamentales en contextos sociales, culturales, comunicativos e incluso psicológicos [2, 3, 4, 5]. A lo largo de la historia, la humanidad ha desarrollado diversas maneras de representar formas de comunicación e información, dando origen a sistemas pictóricos y simbólicos que evolucionaron en alfabetos para lenguas, notaciones para matemáticas y ciencias, y codificaciones específicas para diversas tareas. En el caso de la música, este proceso condujo a la evolución desde sistemas informales de representación hasta un estándar reconocido, conocido como partitura [6], aunque con variaciones significativas según el contexto cultural [7]. Una partitura es el medio escrito mediante el cual un compositor o director plasma una obra musical para su interpretación por un instrumentista (músico). Sin embargo, en muchos casos, sólo se tiene acceso al audio de la obra interpretada, lo que genera la necesidad del proceso de transcripción musical. Este proceso consiste en convertir una obra sonora en notación escrita, un estándar formal de representación musical. La transcripción es una tarea compleja que requiere un alto nivel de especialización, ya que implica deducir con precisión las notas musicales (frecuencia) y su duración (tiempo), así como representar su organización espacio-temporal de manera adecuada. El desafío es aún mayor cuando el audio incluye interpretaciones de varios instrumentos simultáneamente, pues es necesario identificar, separar y organizar las distintas fuentes sonoras de forma coherente, respetando las particularidades de la escritura musical para cada instrumento1- INTRODUCCIÓN 11 1-1- DEFINICIÓN DEL PROBLEMA -- 11 1-2-JUSTIFICACIÓN -- 14 1-3- OBJETIVOS -- 17 1-3-1- Objetivo general -- 17 1-3-2- Objetivos específicos -- 17 2- ESTADO DEL ARTE -- 19 2-1- ESTADO DEL ARTE I.Y.E -- 19 2-1-1- INTERPRETABILIDAD -- 22 2-1-2- EXPLICABILIDAD -- 26 2.2. ESTADO DEL ARTE EN AMT -- 29 3- MARCO TEÓRICO 35 3-1- INTERPRETABILIDAD Y EXPLICABILIDAD -- 35 3-1-1- Interpretabilidad -- 37 3-1-2- Explicabilidad -- 40 3-1-3- Shapley Additive Explanations -- 43 3-2- TRANSCRIPCIÓN AUTOMÁTICA DE MÚSICA-- 46 3-2-1- Representaciones -- 48 7 3-2-2- La Partitura -- 56 3-2-3- Procesamiento de señal -- 58 3-2-4- Múltiples fuentes y su transcripción -- 60 3-2-5 Métricas de desempeño -- 62 3-3- Proceso humano Transcripción de Música -- 65 3-3-1- Identificación de instrumentos -- 66 3-3-2- Identificación de tonalidad: armadura y escalas-- 68 3-3-3- Identificación y diferenciación entre Melodía o Armonía -- 70 3-3-4- Identificación de tiempo y ritmo -- 71 3-4- ARQUITECTURA TRANSFORMADOR -- 75 3-4-1- Mecanismo de Atención: Self-attention and Multi-head attention 77 3-4-2- Funcionamiento del Sistema Encoder-Decoder -- 77 3-4-3- Mapas de Atención -- 79 3-5- FUNCIONES DE PÉRDIDA -- 80 3-5-1- Diferencias entre funciones de costo tradicionales y explicables -- 81 3-5-2- Relación entre la función de costo y la representación latente del modelo -- 81 3-6. EVALUACIÓN DE TRANSCRIPCIÓN EN NLP -- 82 3-6-1- Word Error Rate -- 83 3-6-2- Ejemplo de cálculo del WER -- 84 8 4- METODOLOGÍA 85 4-1- ACTIVIDADES OBJETIVO I -- 85 4-1-1- hFT-Transformer -- 85 4-1-2- Base de datos MAESTRO -- 88 4-1-3- Ground truth -- 91 4-1-4- Métricas utilizadas en el proceso -- 95 4-2. ACTIVIDADES OBJETIVO II -- 98 4-3- Función de costo explicable -- 99 4-3-1. Onset y Offset -- 101 4-3-2- MPE: Multiple Pitch Estimation -- 104 4-3-3- Velocity (volumen) -- 106 4-3-4- Función de costo resultante -- 107 4-4- Mapas de Atención por medio de Rollout Attention y Heatmaps -- 108 4-4-1- Cálculo de Rollout Attention -- 108 4-4-2- Visualización con Heatmaps -- 109 4-5- SHAP y el uso de Modelos Proxy -- 110 4-5-1- Proceso de Construcción del Modelo Proxy -- 110 4-6- ACTIVIDADES OBJETIVO III -- 112 4-6-1- Comparación usando técnicas de procesamiento de lenguaje natural -- 113 4-6-2- Cuantificación del error global en transcripción --116 4-6-3- Métrica de explicabilidad propuesta para estimación del error en transcripción -- 120 9 5- EXPERIMENTOS Y RESULTADOS 125 5-1- Experimiento I -- 125 5-2- Experimiento II --128 5-3- Experimento III -- 133 5-4- Experimeinto IV -- 146 5-5- Experimeinto V -- 150 5-6- Experimento VI -- 152 5-6-1- French Suite No.5 in G major, BWV 816 -- 153 5-6-2- Pour le piano -- 155 5-6-3- Sonata in F major, K.525 -- 158 5-6-4- Au bord d’une source -- 160 5-7- Comparativa métricas de AMT -- 163 6- CONCLUSIONES Y RECOMENDACIONES -- 165 6-1- CONCLUSIONES -- 165 6-2- RECOMENDACIONES -- 169 BIBLIOGRAFÍA -- 171MaestríaMagíster en Ingeniería Eléctric- Trabajo de grado - Maestría
- info:eu-repo/semantics/acceptedVersion
- http://purl.org/coar/version/c_ab4af688f83e57aa
- http://purl.org/coar/resource_type/c_bdcc
- Text
- info:eu-repo/semantics/masterThesis
- 530 - Física::537 - Electricidad y electrónica
- Música
- Lectura musical
- Aprendizaje abierto
- 2. Ingeniería y Tecnología::2B. Ingenierías Eléctrica, Electrónica e Informática
- Transcripción automática de música
- interpretabilidad
- Aprendizaje profundo
- Redes neuronales
- ODS 7: Energía asequible y no contaminante. Garantizar el acceso a una energía asequible, fiable, sostenible y moderna para todos