Le reti neurali sono ormai utilizzate in qualsiasi ambito e in differenti modi, con l’obiettivo di semplificare compiti di classificazione e di completare steps che possano facilitare i professionisti di vari settori. Quello che però molto spesso non va incontro all’utente è la mancata spiegazione della classificazione, dovuta in primis alla non linearità dei modelli adottati. Per questo motivo la maggior parte delle reti neurali viene trattata come “black box”. Se nel passato l’obiettivo era più mirato ad ottenere prestazioni elevate basandosi sulle metriche restituite dai vari classificatori, oggi si cerca di andare oltre e costruire sistemi quanto più user-friendly possibile, quindi interpretabili. Relativamente alla spiegazione, quando ci troviamo di fronte a compiti di classificazione di immagini, spesso illustriamo il nostro ragionamento sezionando l’immagine e sottolineando gli aspetti prototipici di una classe o dell’altra. Le prove raccolte per ciascuna di queste ci aiutano a prendere la nostra decisione finale. In questo lavoro, viene studiata un’architettura di deep learning – ProtoPNet – che ragiona in modo simile: la rete seziona l’immagine trovando le parti prototipiche e combina le prove dei prototipi per effettuare la classificazione finale. Il modello ragiona quindi in modo qualitativa- mente simile al modo in cui gli esperti spiegano come risolvere compiti di classificazione del suono. Il lavoro di tesi è però incentrato sulla “Sound-Recognition”, ovvero la capacità delle reti di simulare il procedimento umano di elaborazione dei dati partendo da una registrazione di suoni e trasformandoli in informazioni utili. L’obiettivo è quello di adattare l’architettura ProtoPNet al caso di segnali audio. In questo caso, gli audio vengono trasformati in spettrogrammi con il fine di ricercare prototipi “sonori” all’interno dell’audio, i quali caratterizzano le classi. La classificazione sarà quindi incentrata sì sui risultati delle solite metriche utilizzate, ma soprattutto sull’interpretabilità dei risultati. Abbiamo dimostrato l’efficacia del metodo sviluppato su datasets differenti in lunghezza e complessità del segnale