202 research outputs found
Iterative Bounding Box Annotation for Object Detection
Manual annotation of bounding boxes for object detection in digital images is
tedious, and time and resource consuming. In this paper, we propose a
semi-automatic method for efficient bounding box annotation. The method trains
the object detector iteratively on small batches of labeled images and learns
to propose bounding boxes for the next batch, after which the human annotator
only needs to correct possible errors. We propose an experimental setup for
simulating the human actions and use it for comparing different iteration
strategies, such as the order in which the data is presented to the annotator.
We experiment on our method with three datasets and show that it can reduce the
human annotation effort significantly, saving up to 75% of total manual
annotation work.Comment: Accepted at ICPR 202
Convolutional Recurrent Neural Networks for Polyphonic Sound Event Detection
Sound events often occur in unstructured environments where they exhibit wide
variations in their frequency content and temporal structure. Convolutional
neural networks (CNN) are able to extract higher level features that are
invariant to local spectral and temporal variations. Recurrent neural networks
(RNNs) are powerful in learning the longer term temporal context in the audio
signals. CNNs and RNNs as classifiers have recently shown improved performances
over established methods in various sound recognition tasks. We combine these
two approaches in a Convolutional Recurrent Neural Network (CRNN) and apply it
on a polyphonic sound event detection task. We compare the performance of the
proposed CRNN method with CNN, RNN, and other established methods, and observe
a considerable improvement for four different datasets consisting of everyday
sound events.Comment: Accepted for IEEE Transactions on Audio, Speech and Language
Processing, Special Issue on Sound Scene and Event Analysi
Signaalinkäsittelyn perusteet
Käsillä oleva moniste on tarkoitettu opetusmateriaaliksi Tampereen teknillisen yliopiston signaalinkäsittelyn laitoksen kurssille "SGN-11000 Signaalinkäsittelyn perusteet". Materiaali on kehittynyt nykyiseen muotoonsa luennoidessani aiheesta Jyväskylän yliopistossa lukuvuonna 1995–1996, Tampereen yliopistossa lukuvuonna 1999–2000 sekä Tampereen teknillisessä yliopistossa lukuvuosina 1999–2013. Tähän painokseen on yhdistetty materiaalia aiemmista monisteista "SGN-1201 Signaalinkäsittelyn menetelmät" (2005) ja "SGN- 1251 Signaalinkäsittelyn sovellukset" (2013).Luentomonisteen runko koostuu signaalinkäsittelyn teorian keskeisistä aiheista, kuten diskreetit signaalit, niiden ominaisuudet ja generointi Matlabilla, lineaariset järjestelmät, diskreetti Fourier-muunnos, FFT, z-muunnos, suodinsuunnittelu sekä näytteenottotaajuuden muuntelu. Tämän lisäksi kurssilla on tapana käsitellä myös tavallisimpia signaalinkäsittelyn sovelluksia, kuten puheenkäsittely, kuvankäsittely ja -koodaus, digitaalinen video (MPEG-standardit), lääketieteellinen signaalinkäsittely, ja hahmontunnistus. Vierailevat luennoitsijat laitokselta ja teollisuudesta hoitavat mahdollisuuksien mukaan osan sovellutusten esittelystä.Kurssin tavoitteena on selvittää lineaaristen järjestelmien ja digitaalisen signaalinkäsittelyn peruskäsitteet sekä luoda kuva sovelluskohteista. Kurssin käytyään opiskelijan tulisi ymmärtää millaista signaalinkäsittelyn parissa työskentely on ja minkä tyyppisiin ongelmiin sitä voidaan soveltaa
- …