10 research outputs found

    Memory-Efficient Global Refinement of Decision-Tree Ensembles and its Application to Face Alignment

    Full text link
    Ren et al. recently introduced a method for aggregating multiple decision trees into a strong predictor by interpreting a path taken by a sample down each tree as a binary vector and performing linear regression on top of these vectors stacked together. They provided experimental evidence that the method offers advantages over the usual approaches for combining decision trees (random forests and boosting). The method truly shines when the regression target is a large vector with correlated dimensions, such as a 2D face shape represented with the positions of several facial landmarks. However, we argue that their basic method is not applicable in many practical scenarios due to large memory requirements. This paper shows how this issue can be solved through the use of quantization and architectural changes of the predictor that maps decision tree-derived encodings to the desired output.Comment: BMVC Newcastle 201

    Raspoznavanje uzoraka zasnovano na usporedbama piksela posloženima u stabla odlučivanja

    No full text
    This thesis investigates computer-vision algorithms that are based on pixel-intensity comparisons organized in decision trees. The motivation for this topic were previously published papers that report competitive results at a very high processing speed. High processing speed is particularly relevant for methods running on small devices with limited resources, such as mobile phones and embedded hardware. The thesis starts by providing a discussion of the origins of the method. Next, a computational framework for reconstructing a small image patch from pixel-intensity comparisons is presented and experimentally verified. The result indicates that pixel-intensity comparisons are capable of encoding the appearance of the patch to a sufficient degree. This serves as the justification for pursuing further research in this area. The following chapters of the thesis introduce novel approaches for solving problems of broad practical interest: face detection, eye-pupil localization and face alignment. All methods are thoroughly experimentally tested on several publicly available datasets and compared to the state-of-the-art approaches. The results show that the proposed methods achieve sufficient accuracy for a wide range of applications. Furthermore, their very high processing speed makes them especially suitable for real-time applications running on small devices with limited processing power and low battery life. This indicates their superiority over state-of-the-art approaches based on convolutional neural networks for such applications. In the end, the thesis gives a summary of the most relevant conclusions derived from previous chapters.Disertacija je organizirana u pet poglavlja. Prvo poglavlje daje kratak uvod u područje računalnog vida te navodi osnovne razloge za istraživanje u područu. Također, u poglavlju se navode i najvažniji doprinosi ostvareni u ovoj disertaciji. Drugo poglavlje postavlja teorijske osnove za istraživane metode. Ovdje se također nalazi pregled osnovne literature te opis eksperimenata koji će poslužiti kao uvod u ostatak disertacije. Treće poglavlje opisuje novu metodu za detekciju ljudskih lica u digitalnim slikama. Četvrto poglavlje opisuje dvije nove metode. Prva metoda služi za detekciju pozicije zjenice u slici ljudskog oka. Druga metoda omogućuje brzo i precizno određivanje oblika ljudskog lica. Posljednje, peto, poglavlje ukratko sažima glavne rezultate opisane u ovoj disertaciji. Više je detalja izloženo u nastavku. Prvo poglavlje – Uvod Ljudi doživljavaju svijet oko njih kroz biološke senzore koji su spojeni s ljudskim živčanim sustavom. Oči omogućuju dar vida i možemo reči da je to najvažnije i najsloženije osjetilo. Zbog korisnosti osjetila vida u rješavanju mnogih problema u prirodi, čovjek teži prenijeti te sposobnosti u strojeve. Tako je nastalo područje "računalni vid", koje je tema i ove disertacije. Od svih metoda koje se proučavaju u računalnom vidu od posebnog su interesa one koje se bave automatskom analizom ljudskih lica. Te metode uključuju detekciju lica u slikama, praćenje značajki lica, analizu emocija, klasifikaciju spola, procjenu starosti itd. Takve metode, ako rade točno, mogu doprinijeti mnogim područjima i komercijalnim aplikacijama. Neke od njih jesu: ∙ primjena u računalnim igrama, umjetnosti i zabavi; ∙ marketing i prodaja; ∙ istraživanje tržišta; ∙ sigurnosni sustavi u vozilima i strojevima; ∙ zdravstvo i pomoć nemoćnima; vi ∙ robotika. Sve su ove primjene od velike važosti i interesa. Glavni je cilj ove doktorske disertacije istražiti mogućnost upotrebe jednostavnih binarnih testova temeljenih na usporedbama intenziteta piksela za rješavanje važnih problema u području računalnog vida. Usporedbe intenziteta piksela najjednostavniji su mogući testovi koji se mogu primijeniti na digitalnu sliku. Osnovna je ideja uzorkovati sliku na dvije različite pozicije, Ix1;y1 i Ix2;y2 , te odrediti je li intenzitet Ix1;y1 veći ili ne od intenziteta Ix2;y2 . Ovo je vrlo malo informacije (1 bit) i jasno je da nam jedan takav test ne može reči mnogo o slici. Ipak, mnogo takvih testova mogu kodirati bitnu informaciju. Osnovna motivacija za ovu temu mnogi su objavljeni radovi drugih autora. Ti su radovi pokazali da organizacijom usporedbi intenziteta piksela u stabla odlučivanja imaju potencijal za izvrsne rezultate u usporedbi s metodama druge vrste (npr. neuronskim mrežama) ako na raspolaganju imamo male računalne resurse. Skromna upotreba računalnih resursa bitna je za programe koji su pokretani na ugrađenim i malim uređajima, poput onih dostupnih u mobilnim telefonima. Glavni doprinosi ove disertacije mogu se sažeti na sljedeći način: ∙ metoda za detekciju objekata koja zamjenjuje Haarove značajke u Viola-Jonesovu pristupu s usporedbama intenziteta piksela posloženima u stabla odlučivanja; ∙ metoda za preciznu lokalizaciju zjenice oka u digitalnim slikama; ∙ metoda za određivanje oblika ljudskog lica. Detalji su opisani u idućim poglavljima. Drugo poglavlje – Teorijske osnove Gotovo svi problemi računalnog vida mogu se opisati kao klasifikacija ili regresija: za digitalnu sliku I, koja je predstavljena kao dvodimenzionalno polje brojeva (tzv. pikseli), zadatak je odrediti njezinu labelu. U slučaju klasifikacije, labela je diskretna, a u slučaju regresije, labela je neprekinuta. Za danu sliku ljudskog lica, tipičan je klasifikacijski zadatak odrediti spol osobe na slici. Tipičan je problem regresije odrediti starost te osobe. Temeljni alat koji se koristi u ovoj disertaciji stabla su odlučivanja s usporedbama intenziteta piksela (Ix1;y1 < Ix2;y2?) u unutarnjim čvorovima. U ovom su obliku po prvi put predstavljena krajem devedesetih (Amit i Geman, 1997.) za upotrebu u sustavu raspoznavanja rukom pisanih znakova. Također, kasnije su uspješno upotrijebljena u mnogim istraživačkim i praktičnim primjenama. U ovom se poglavlju daje detaljan opis učenja i upotrebe stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Također, opisuje se i algoritam rekonstrukcije slike iz niza usporedbi intenziteta piksela. Eksperimentalno se potvrđuje njegova djelotvornost kroz rekonstrukciju jednostavnih i dobro prepoznatljivih logotipova. Ta eksperimentalna analiza služi kao motivacija za ostatak disertacije u kojem su predstavljene nove metode zasnovane na stablima odlučivanja s usporedbama vii intenziteta piksela u unutarnjim čvorovima. Treće poglavlje – Detekcija objekata zasnovana na usporedbama intenziteta piksela U ovom se poglavlju istražuje detekcija objekata u digitalnim slikama. Detekcija objekata može se definirati kao računalni (algoritamski) proces kojim se određuju lokacije i veličine objekata u slici koji pripadaju (unaprijed) određenom razredu. Neki su zanimljivi razredi ljudska lica, automobili, pješaci itd. Budući da je ovaj problem računalnog vida od širokog interesa, postoji očita motivacija za istraživanje u ovom području. Poglavlje uvodi novu metodu pod nazivom PICO. Ta je metoda modifikacija poznatog pristupa koji su opisali Viola i Jones krajem devedesetih. Osnovna je ideja metode podijeliti sliku u skup preklapajućih regija i upotrijebiti na svakoj regiji kaskadu klasifikatora čija je zadaća otkriti radi li se o objektu koji pripada zadanom razredu. Kaskada klasifikatora potrebna je za brzo odbacivanje regija koji ne pripadaju traženom razredu (tzv. pozadina): dovoljno je da jedan član kaskade odbaci regiju. Regija treba proći sve članove kaskade da bude proglašena objektom iz traženog razreda. Na taj se način značajno smanjuje računalna složenost pretrage slike. U PICO-metodi svaki se član kaskade sastoji od stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Ovo je osnovna razlika s obzirom na Viola-Jonesov pristup koji koristi Haarove značajke. Prednost metode PICO jest njezina velika brzina izvođenja. Eksperimentalna analiza prikazana je kroz problem detekcije ljudskih lica. Za učenje stabala upotrijebljena je javno dostupna baza AFLW koja sadrži 20 000 slika lica. Dobivena kaskada prvo je uspoređena s Viola-Jonesovom kaskadom iz paketa OpenCV. Rezultati pokazuju da PICO postiže do šest puta veću brzinu izvođenja, što čini metodu iznimno pogodnom za upotrebu na mobilnim uređajima. Također, ostvaruje i bolju preciznost detekcije na javno dostupnim bazama GENKI-SZSL i CALTECH-FACES (3500 i 10 000 slika lica koje se nisu nalazile u skupu za učenje). Usporedba s najboljim brzim metodama iz literature na FDDB bazi (5000 slika lica i jasno definirani protokol usporedbe) pokazuje da PICO-metoda ima određene prednosti. Iako neki pristupi postižu bolju preciznost, PICO-metoda je značajno brža. Odabir metode za određenu primjenu ovisi o karakteristikama te primjene. Na mobilnim i ostalim malim uređajima, PICO-metoda odličan je izbor budući da tamo može zamnijeniti široko korišteni Viola-Jonesov pristup. Na kraju je poglavlja dana kratka diskusija o učenju PICO metode za pronalaženje ostalih razreda slika. viii Četvrto poglavlje – Brza i točna lokalizacija ključnih točaka Ovo poglavlje opisuje dva nova algoritma za lokalizaciju ključnih točaka na objektu iz unaprijed određenog razreda. Prva je metoda korisna kada trebamo pronaći pojedinačnu ključnu točku. Druga se metoda može upotrijebiti kada postoji potreba lokalizacije više međusobno koreliranih točaka (drugim riječima, među kojima postoji neka strukturna veza). Oba su algoritma eksperimentalno testirana kroz upotrebu u pronalaženju točaka na ljudskom licu: lokalizacija zjenice oka i određivanje oblika lica. Lokalizacija zjenice u danoj slici lica od posebne je važnosti za biometrijske sustave, animaciju virtualnih likova i sustave interakcije stroja i čovjeka. Stoga će prva metoda predložena u ovom poglavlju biti eksperimentalno prikazana kroz ovaj problem. Osnovna je ideja koristiti stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima za procjenu pozicije zjenice. Ovo je standardni problem regresije. U ovom se poglavlju eksperimentalno pokazuje da taj jednostavni pristup ne daje dobre rezultate (ostvarena preciznost nije dovoljno visoka). Stoga, predlaže se metoda koja proces procjene koordinate zjenice razlaže na rješavanje niza manjih problema (iterativno, jedan za drugim). Prva skupina stabala primijenjena na sliku oka daje grubu procjenu pozicije zjenice. Iduća grupa stabala uzorkuje testove oko trnutaćno najbolje procjene i pokušava je popraviti. Process se ponavlja nekoliko puta. Eksperimentalno se pokazuje (kvalitativno i kvantitativno) da ovakav pristup značajno unapređuje procjenu. Predložena se metoda uspoređuje s dva druga popularna pristupa za lokalizaciju zjenice oka. Rezultati pokazuju da je metoda znaćajno brža i preciznija od tih pristupa. To je ćini izvrsnim kandidatom za komercijalne sustave koji se ne oslanjaju na skupe uređaje i kamere. Kroz diskusiju je pokazano da predložena metoda nije najbolje moguće rješenje za lokalizaciju više koreliranih točaka. Razlog tomu je što lokalizacija svake pojedine točke može biti bitno unaprijeđena korištenjem informacije o poziciji ostalih točaka. Tipičan su primjer točke na ljudskom licu (kutovi očiju, vrh nosa, pozicije obrva itd.). Druga metoda predložena u ovom poglavlju služi za lokalizaciju više koreliranih točaka. Njezine mogućnosti testirane su kroz problem određivanja ljudskog lica iz digitalne slike, što je drugi naziv za lokalizaciju više točaka na ljudskom licu. Taj se problem pokazao posebno zahtjevnim u stvarnim uvjetima (loše osvjetljenje, zakrivanje/rotacija glave itd.). Predložena metoda modifikacija je pristupa objavljenog na CVPR-u 2014. godine (Ren et al.). Ideja tog pristupa je formirati veliki vektor znaˇcajki F kodiranjem putova koje ulazna slika ima duž stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima te nakon toga linearno transformirati taj vektor u oblik lica (u praksi se taj pristup također ponavlja nekoliko puta, iterativno). Zamijećeno je da takav pristup ima značajne probleme s memorijskim zahtjevima. Stoga, u ovoj je disertaciji predložena zamjena sloja linearne regresije neuronskim mrežama posebne arhitekture. Ključno je da se oblik lica iz vektora F odvije u nekoliko koraka. Prvi korak "komprimira" vektor F u niskodimenzionalnu reprezentaciju koja se u ostalim koracima ix transformira u oblik lica. Ako je niskodimenzionalna reprezentacija dovoljno kompaktna (dimenzionalnost je dovoljno mala), postiže se značajna ušteda memorije. U ovoj se disertaciji predlažu dvije razlčcite arhitekture s ovim svojstvom. Prvu je arhitekturu moguće naučiti egzaktno algoritmom najmanjih kvadrata s matricama reduciranog ranga. Drugu arhitekturu moguće je učiti običnim gradijentnim spustom (gradijent se izračunava algoritmom unazadne propagacije). Predložena metoda uspoređena je na 300W bazi (≈ 3000 slika s označenim točkama) s dvadesetak ostalih popularnih pristupa za određivanje oblika lica. Ostvareni su rezultati odlični s obzirom na memorijske zahtjeve i brzinu izvođenja. Što se tiče preciznosti, predložena metoda i ovdje dobiva izvrsne rezultate, ali postoje pristupi koji su nešto precizniji. Ti su pristupi temeljeni na konvolucijskim neuronskim mrežama i to ih čini vrlo sporim na modernim uređajima (za izvođenje u stvarnom vremenu potrebne su grafičke kartice). Svojstva predložene metode ćine je izvrsnim kandidatom za lokalizaciju točaka ljudskog lica na mobilnim i ugrađenim uređajima, pogotovo kada se uzme u obzir i razina preciznosti koju dostiže. Peto poglavlje – Zaključci Posljednje poglavlje ukratko sažima glavne rezultate i doprinose ostvarene tijekom izrade ove disertacije. Ključna je poruka da su predložene metode izrazito korisne ako tip primjene dozvoljava (ili čak nalaže) žrtvovanje (malo) preciznosti kako bi se dobilo mnogo na brzini izvođenja

    Raspoznavanje uzoraka zasnovano na usporedbama piksela posloženima u stabla odlučivanja

    No full text
    This thesis investigates computer-vision algorithms that are based on pixel-intensity comparisons organized in decision trees. The motivation for this topic were previously published papers that report competitive results at a very high processing speed. High processing speed is particularly relevant for methods running on small devices with limited resources, such as mobile phones and embedded hardware. The thesis starts by providing a discussion of the origins of the method. Next, a computational framework for reconstructing a small image patch from pixel-intensity comparisons is presented and experimentally verified. The result indicates that pixel-intensity comparisons are capable of encoding the appearance of the patch to a sufficient degree. This serves as the justification for pursuing further research in this area. The following chapters of the thesis introduce novel approaches for solving problems of broad practical interest: face detection, eye-pupil localization and face alignment. All methods are thoroughly experimentally tested on several publicly available datasets and compared to the state-of-the-art approaches. The results show that the proposed methods achieve sufficient accuracy for a wide range of applications. Furthermore, their very high processing speed makes them especially suitable for real-time applications running on small devices with limited processing power and low battery life. This indicates their superiority over state-of-the-art approaches based on convolutional neural networks for such applications. In the end, the thesis gives a summary of the most relevant conclusions derived from previous chapters.Disertacija je organizirana u pet poglavlja. Prvo poglavlje daje kratak uvod u područje računalnog vida te navodi osnovne razloge za istraživanje u područu. Također, u poglavlju se navode i najvažniji doprinosi ostvareni u ovoj disertaciji. Drugo poglavlje postavlja teorijske osnove za istraživane metode. Ovdje se također nalazi pregled osnovne literature te opis eksperimenata koji će poslužiti kao uvod u ostatak disertacije. Treće poglavlje opisuje novu metodu za detekciju ljudskih lica u digitalnim slikama. Četvrto poglavlje opisuje dvije nove metode. Prva metoda služi za detekciju pozicije zjenice u slici ljudskog oka. Druga metoda omogućuje brzo i precizno određivanje oblika ljudskog lica. Posljednje, peto, poglavlje ukratko sažima glavne rezultate opisane u ovoj disertaciji. Više je detalja izloženo u nastavku. Prvo poglavlje – Uvod Ljudi doživljavaju svijet oko njih kroz biološke senzore koji su spojeni s ljudskim živčanim sustavom. Oči omogućuju dar vida i možemo reči da je to najvažnije i najsloženije osjetilo. Zbog korisnosti osjetila vida u rješavanju mnogih problema u prirodi, čovjek teži prenijeti te sposobnosti u strojeve. Tako je nastalo područje "računalni vid", koje je tema i ove disertacije. Od svih metoda koje se proučavaju u računalnom vidu od posebnog su interesa one koje se bave automatskom analizom ljudskih lica. Te metode uključuju detekciju lica u slikama, praćenje značajki lica, analizu emocija, klasifikaciju spola, procjenu starosti itd. Takve metode, ako rade točno, mogu doprinijeti mnogim područjima i komercijalnim aplikacijama. Neke od njih jesu: ∙ primjena u računalnim igrama, umjetnosti i zabavi; ∙ marketing i prodaja; ∙ istraživanje tržišta; ∙ sigurnosni sustavi u vozilima i strojevima; ∙ zdravstvo i pomoć nemoćnima; vi ∙ robotika. Sve su ove primjene od velike važosti i interesa. Glavni je cilj ove doktorske disertacije istražiti mogućnost upotrebe jednostavnih binarnih testova temeljenih na usporedbama intenziteta piksela za rješavanje važnih problema u području računalnog vida. Usporedbe intenziteta piksela najjednostavniji su mogući testovi koji se mogu primijeniti na digitalnu sliku. Osnovna je ideja uzorkovati sliku na dvije različite pozicije, Ix1;y1 i Ix2;y2 , te odrediti je li intenzitet Ix1;y1 veći ili ne od intenziteta Ix2;y2 . Ovo je vrlo malo informacije (1 bit) i jasno je da nam jedan takav test ne može reči mnogo o slici. Ipak, mnogo takvih testova mogu kodirati bitnu informaciju. Osnovna motivacija za ovu temu mnogi su objavljeni radovi drugih autora. Ti su radovi pokazali da organizacijom usporedbi intenziteta piksela u stabla odlučivanja imaju potencijal za izvrsne rezultate u usporedbi s metodama druge vrste (npr. neuronskim mrežama) ako na raspolaganju imamo male računalne resurse. Skromna upotreba računalnih resursa bitna je za programe koji su pokretani na ugrađenim i malim uređajima, poput onih dostupnih u mobilnim telefonima. Glavni doprinosi ove disertacije mogu se sažeti na sljedeći način: ∙ metoda za detekciju objekata koja zamjenjuje Haarove značajke u Viola-Jonesovu pristupu s usporedbama intenziteta piksela posloženima u stabla odlučivanja; ∙ metoda za preciznu lokalizaciju zjenice oka u digitalnim slikama; ∙ metoda za određivanje oblika ljudskog lica. Detalji su opisani u idućim poglavljima. Drugo poglavlje – Teorijske osnove Gotovo svi problemi računalnog vida mogu se opisati kao klasifikacija ili regresija: za digitalnu sliku I, koja je predstavljena kao dvodimenzionalno polje brojeva (tzv. pikseli), zadatak je odrediti njezinu labelu. U slučaju klasifikacije, labela je diskretna, a u slučaju regresije, labela je neprekinuta. Za danu sliku ljudskog lica, tipičan je klasifikacijski zadatak odrediti spol osobe na slici. Tipičan je problem regresije odrediti starost te osobe. Temeljni alat koji se koristi u ovoj disertaciji stabla su odlučivanja s usporedbama intenziteta piksela (Ix1;y1 < Ix2;y2?) u unutarnjim čvorovima. U ovom su obliku po prvi put predstavljena krajem devedesetih (Amit i Geman, 1997.) za upotrebu u sustavu raspoznavanja rukom pisanih znakova. Također, kasnije su uspješno upotrijebljena u mnogim istraživačkim i praktičnim primjenama. U ovom se poglavlju daje detaljan opis učenja i upotrebe stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Također, opisuje se i algoritam rekonstrukcije slike iz niza usporedbi intenziteta piksela. Eksperimentalno se potvrđuje njegova djelotvornost kroz rekonstrukciju jednostavnih i dobro prepoznatljivih logotipova. Ta eksperimentalna analiza služi kao motivacija za ostatak disertacije u kojem su predstavljene nove metode zasnovane na stablima odlučivanja s usporedbama vii intenziteta piksela u unutarnjim čvorovima. Treće poglavlje – Detekcija objekata zasnovana na usporedbama intenziteta piksela U ovom se poglavlju istražuje detekcija objekata u digitalnim slikama. Detekcija objekata može se definirati kao računalni (algoritamski) proces kojim se određuju lokacije i veličine objekata u slici koji pripadaju (unaprijed) određenom razredu. Neki su zanimljivi razredi ljudska lica, automobili, pješaci itd. Budući da je ovaj problem računalnog vida od širokog interesa, postoji očita motivacija za istraživanje u ovom području. Poglavlje uvodi novu metodu pod nazivom PICO. Ta je metoda modifikacija poznatog pristupa koji su opisali Viola i Jones krajem devedesetih. Osnovna je ideja metode podijeliti sliku u skup preklapajućih regija i upotrijebiti na svakoj regiji kaskadu klasifikatora čija je zadaća otkriti radi li se o objektu koji pripada zadanom razredu. Kaskada klasifikatora potrebna je za brzo odbacivanje regija koji ne pripadaju traženom razredu (tzv. pozadina): dovoljno je da jedan član kaskade odbaci regiju. Regija treba proći sve članove kaskade da bude proglašena objektom iz traženog razreda. Na taj se način značajno smanjuje računalna složenost pretrage slike. U PICO-metodi svaki se član kaskade sastoji od stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Ovo je osnovna razlika s obzirom na Viola-Jonesov pristup koji koristi Haarove značajke. Prednost metode PICO jest njezina velika brzina izvođenja. Eksperimentalna analiza prikazana je kroz problem detekcije ljudskih lica. Za učenje stabala upotrijebljena je javno dostupna baza AFLW koja sadrži 20 000 slika lica. Dobivena kaskada prvo je uspoređena s Viola-Jonesovom kaskadom iz paketa OpenCV. Rezultati pokazuju da PICO postiže do šest puta veću brzinu izvođenja, što čini metodu iznimno pogodnom za upotrebu na mobilnim uređajima. Također, ostvaruje i bolju preciznost detekcije na javno dostupnim bazama GENKI-SZSL i CALTECH-FACES (3500 i 10 000 slika lica koje se nisu nalazile u skupu za učenje). Usporedba s najboljim brzim metodama iz literature na FDDB bazi (5000 slika lica i jasno definirani protokol usporedbe) pokazuje da PICO-metoda ima određene prednosti. Iako neki pristupi postižu bolju preciznost, PICO-metoda je značajno brža. Odabir metode za određenu primjenu ovisi o karakteristikama te primjene. Na mobilnim i ostalim malim uređajima, PICO-metoda odličan je izbor budući da tamo može zamnijeniti široko korišteni Viola-Jonesov pristup. Na kraju je poglavlja dana kratka diskusija o učenju PICO metode za pronalaženje ostalih razreda slika. viii Četvrto poglavlje – Brza i točna lokalizacija ključnih točaka Ovo poglavlje opisuje dva nova algoritma za lokalizaciju ključnih točaka na objektu iz unaprijed određenog razreda. Prva je metoda korisna kada trebamo pronaći pojedinačnu ključnu točku. Druga se metoda može upotrijebiti kada postoji potreba lokalizacije više međusobno koreliranih točaka (drugim riječima, među kojima postoji neka strukturna veza). Oba su algoritma eksperimentalno testirana kroz upotrebu u pronalaženju točaka na ljudskom licu: lokalizacija zjenice oka i određivanje oblika lica. Lokalizacija zjenice u danoj slici lica od posebne je važnosti za biometrijske sustave, animaciju virtualnih likova i sustave interakcije stroja i čovjeka. Stoga će prva metoda predložena u ovom poglavlju biti eksperimentalno prikazana kroz ovaj problem. Osnovna je ideja koristiti stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima za procjenu pozicije zjenice. Ovo je standardni problem regresije. U ovom se poglavlju eksperimentalno pokazuje da taj jednostavni pristup ne daje dobre rezultate (ostvarena preciznost nije dovoljno visoka). Stoga, predlaže se metoda koja proces procjene koordinate zjenice razlaže na rješavanje niza manjih problema (iterativno, jedan za drugim). Prva skupina stabala primijenjena na sliku oka daje grubu procjenu pozicije zjenice. Iduća grupa stabala uzorkuje testove oko trnutaćno najbolje procjene i pokušava je popraviti. Process se ponavlja nekoliko puta. Eksperimentalno se pokazuje (kvalitativno i kvantitativno) da ovakav pristup značajno unapređuje procjenu. Predložena se metoda uspoređuje s dva druga popularna pristupa za lokalizaciju zjenice oka. Rezultati pokazuju da je metoda znaćajno brža i preciznija od tih pristupa. To je ćini izvrsnim kandidatom za komercijalne sustave koji se ne oslanjaju na skupe uređaje i kamere. Kroz diskusiju je pokazano da predložena metoda nije najbolje moguće rješenje za lokalizaciju više koreliranih točaka. Razlog tomu je što lokalizacija svake pojedine točke može biti bitno unaprijeđena korištenjem informacije o poziciji ostalih točaka. Tipičan su primjer točke na ljudskom licu (kutovi očiju, vrh nosa, pozicije obrva itd.). Druga metoda predložena u ovom poglavlju služi za lokalizaciju više koreliranih točaka. Njezine mogućnosti testirane su kroz problem određivanja ljudskog lica iz digitalne slike, što je drugi naziv za lokalizaciju više točaka na ljudskom licu. Taj se problem pokazao posebno zahtjevnim u stvarnim uvjetima (loše osvjetljenje, zakrivanje/rotacija glave itd.). Predložena metoda modifikacija je pristupa objavljenog na CVPR-u 2014. godine (Ren et al.). Ideja tog pristupa je formirati veliki vektor znaˇcajki F kodiranjem putova koje ulazna slika ima duž stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima te nakon toga linearno transformirati taj vektor u oblik lica (u praksi se taj pristup također ponavlja nekoliko puta, iterativno). Zamijećeno je da takav pristup ima značajne probleme s memorijskim zahtjevima. Stoga, u ovoj je disertaciji predložena zamjena sloja linearne regresije neuronskim mrežama posebne arhitekture. Ključno je da se oblik lica iz vektora F odvije u nekoliko koraka. Prvi korak "komprimira" vektor F u niskodimenzionalnu reprezentaciju koja se u ostalim koracima ix transformira u oblik lica. Ako je niskodimenzionalna reprezentacija dovoljno kompaktna (dimenzionalnost je dovoljno mala), postiže se značajna ušteda memorije. U ovoj se disertaciji predlažu dvije razlčcite arhitekture s ovim svojstvom. Prvu je arhitekturu moguće naučiti egzaktno algoritmom najmanjih kvadrata s matricama reduciranog ranga. Drugu arhitekturu moguće je učiti običnim gradijentnim spustom (gradijent se izračunava algoritmom unazadne propagacije). Predložena metoda uspoređena je na 300W bazi (≈ 3000 slika s označenim točkama) s dvadesetak ostalih popularnih pristupa za određivanje oblika lica. Ostvareni su rezultati odlični s obzirom na memorijske zahtjeve i brzinu izvođenja. Što se tiče preciznosti, predložena metoda i ovdje dobiva izvrsne rezultate, ali postoje pristupi koji su nešto precizniji. Ti su pristupi temeljeni na konvolucijskim neuronskim mrežama i to ih čini vrlo sporim na modernim uređajima (za izvođenje u stvarnom vremenu potrebne su grafičke kartice). Svojstva predložene metode ćine je izvrsnim kandidatom za lokalizaciju točaka ljudskog lica na mobilnim i ugrađenim uređajima, pogotovo kada se uzme u obzir i razina preciznosti koju dostiže. Peto poglavlje – Zaključci Posljednje poglavlje ukratko sažima glavne rezultate i doprinose ostvarene tijekom izrade ove disertacije. Ključna je poruka da su predložene metode izrazito korisne ako tip primjene dozvoljava (ili čak nalaže) žrtvovanje (malo) preciznosti kako bi se dobilo mnogo na brzini izvođenja

    Raspoznavanje uzoraka zasnovano na usporedbama piksela posloženima u stabla odlučivanja

    No full text
    This thesis investigates computer-vision algorithms that are based on pixel-intensity comparisons organized in decision trees. The motivation for this topic were previously published papers that report competitive results at a very high processing speed. High processing speed is particularly relevant for methods running on small devices with limited resources, such as mobile phones and embedded hardware. The thesis starts by providing a discussion of the origins of the method. Next, a computational framework for reconstructing a small image patch from pixel-intensity comparisons is presented and experimentally verified. The result indicates that pixel-intensity comparisons are capable of encoding the appearance of the patch to a sufficient degree. This serves as the justification for pursuing further research in this area. The following chapters of the thesis introduce novel approaches for solving problems of broad practical interest: face detection, eye-pupil localization and face alignment. All methods are thoroughly experimentally tested on several publicly available datasets and compared to the state-of-the-art approaches. The results show that the proposed methods achieve sufficient accuracy for a wide range of applications. Furthermore, their very high processing speed makes them especially suitable for real-time applications running on small devices with limited processing power and low battery life. This indicates their superiority over state-of-the-art approaches based on convolutional neural networks for such applications. In the end, the thesis gives a summary of the most relevant conclusions derived from previous chapters.Disertacija je organizirana u pet poglavlja. Prvo poglavlje daje kratak uvod u područje računalnog vida te navodi osnovne razloge za istraživanje u područu. Također, u poglavlju se navode i najvažniji doprinosi ostvareni u ovoj disertaciji. Drugo poglavlje postavlja teorijske osnove za istraživane metode. Ovdje se također nalazi pregled osnovne literature te opis eksperimenata koji će poslužiti kao uvod u ostatak disertacije. Treće poglavlje opisuje novu metodu za detekciju ljudskih lica u digitalnim slikama. Četvrto poglavlje opisuje dvije nove metode. Prva metoda služi za detekciju pozicije zjenice u slici ljudskog oka. Druga metoda omogućuje brzo i precizno određivanje oblika ljudskog lica. Posljednje, peto, poglavlje ukratko sažima glavne rezultate opisane u ovoj disertaciji. Više je detalja izloženo u nastavku. Prvo poglavlje – Uvod Ljudi doživljavaju svijet oko njih kroz biološke senzore koji su spojeni s ljudskim živčanim sustavom. Oči omogućuju dar vida i možemo reči da je to najvažnije i najsloženije osjetilo. Zbog korisnosti osjetila vida u rješavanju mnogih problema u prirodi, čovjek teži prenijeti te sposobnosti u strojeve. Tako je nastalo područje "računalni vid", koje je tema i ove disertacije. Od svih metoda koje se proučavaju u računalnom vidu od posebnog su interesa one koje se bave automatskom analizom ljudskih lica. Te metode uključuju detekciju lica u slikama, praćenje značajki lica, analizu emocija, klasifikaciju spola, procjenu starosti itd. Takve metode, ako rade točno, mogu doprinijeti mnogim područjima i komercijalnim aplikacijama. Neke od njih jesu: ∙ primjena u računalnim igrama, umjetnosti i zabavi; ∙ marketing i prodaja; ∙ istraživanje tržišta; ∙ sigurnosni sustavi u vozilima i strojevima; ∙ zdravstvo i pomoć nemoćnima; vi ∙ robotika. Sve su ove primjene od velike važosti i interesa. Glavni je cilj ove doktorske disertacije istražiti mogućnost upotrebe jednostavnih binarnih testova temeljenih na usporedbama intenziteta piksela za rješavanje važnih problema u području računalnog vida. Usporedbe intenziteta piksela najjednostavniji su mogući testovi koji se mogu primijeniti na digitalnu sliku. Osnovna je ideja uzorkovati sliku na dvije različite pozicije, Ix1;y1 i Ix2;y2 , te odrediti je li intenzitet Ix1;y1 veći ili ne od intenziteta Ix2;y2 . Ovo je vrlo malo informacije (1 bit) i jasno je da nam jedan takav test ne može reči mnogo o slici. Ipak, mnogo takvih testova mogu kodirati bitnu informaciju. Osnovna motivacija za ovu temu mnogi su objavljeni radovi drugih autora. Ti su radovi pokazali da organizacijom usporedbi intenziteta piksela u stabla odlučivanja imaju potencijal za izvrsne rezultate u usporedbi s metodama druge vrste (npr. neuronskim mrežama) ako na raspolaganju imamo male računalne resurse. Skromna upotreba računalnih resursa bitna je za programe koji su pokretani na ugrađenim i malim uređajima, poput onih dostupnih u mobilnim telefonima. Glavni doprinosi ove disertacije mogu se sažeti na sljedeći način: ∙ metoda za detekciju objekata koja zamjenjuje Haarove značajke u Viola-Jonesovu pristupu s usporedbama intenziteta piksela posloženima u stabla odlučivanja; ∙ metoda za preciznu lokalizaciju zjenice oka u digitalnim slikama; ∙ metoda za određivanje oblika ljudskog lica. Detalji su opisani u idućim poglavljima. Drugo poglavlje – Teorijske osnove Gotovo svi problemi računalnog vida mogu se opisati kao klasifikacija ili regresija: za digitalnu sliku I, koja je predstavljena kao dvodimenzionalno polje brojeva (tzv. pikseli), zadatak je odrediti njezinu labelu. U slučaju klasifikacije, labela je diskretna, a u slučaju regresije, labela je neprekinuta. Za danu sliku ljudskog lica, tipičan je klasifikacijski zadatak odrediti spol osobe na slici. Tipičan je problem regresije odrediti starost te osobe. Temeljni alat koji se koristi u ovoj disertaciji stabla su odlučivanja s usporedbama intenziteta piksela (Ix1;y1 < Ix2;y2?) u unutarnjim čvorovima. U ovom su obliku po prvi put predstavljena krajem devedesetih (Amit i Geman, 1997.) za upotrebu u sustavu raspoznavanja rukom pisanih znakova. Također, kasnije su uspješno upotrijebljena u mnogim istraživačkim i praktičnim primjenama. U ovom se poglavlju daje detaljan opis učenja i upotrebe stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Također, opisuje se i algoritam rekonstrukcije slike iz niza usporedbi intenziteta piksela. Eksperimentalno se potvrđuje njegova djelotvornost kroz rekonstrukciju jednostavnih i dobro prepoznatljivih logotipova. Ta eksperimentalna analiza služi kao motivacija za ostatak disertacije u kojem su predstavljene nove metode zasnovane na stablima odlučivanja s usporedbama vii intenziteta piksela u unutarnjim čvorovima. Treće poglavlje – Detekcija objekata zasnovana na usporedbama intenziteta piksela U ovom se poglavlju istražuje detekcija objekata u digitalnim slikama. Detekcija objekata može se definirati kao računalni (algoritamski) proces kojim se određuju lokacije i veličine objekata u slici koji pripadaju (unaprijed) određenom razredu. Neki su zanimljivi razredi ljudska lica, automobili, pješaci itd. Budući da je ovaj problem računalnog vida od širokog interesa, postoji očita motivacija za istraživanje u ovom području. Poglavlje uvodi novu metodu pod nazivom PICO. Ta je metoda modifikacija poznatog pristupa koji su opisali Viola i Jones krajem devedesetih. Osnovna je ideja metode podijeliti sliku u skup preklapajućih regija i upotrijebiti na svakoj regiji kaskadu klasifikatora čija je zadaća otkriti radi li se o objektu koji pripada zadanom razredu. Kaskada klasifikatora potrebna je za brzo odbacivanje regija koji ne pripadaju traženom razredu (tzv. pozadina): dovoljno je da jedan član kaskade odbaci regiju. Regija treba proći sve članove kaskade da bude proglašena objektom iz traženog razreda. Na taj se način značajno smanjuje računalna složenost pretrage slike. U PICO-metodi svaki se član kaskade sastoji od stabala odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima. Ovo je osnovna razlika s obzirom na Viola-Jonesov pristup koji koristi Haarove značajke. Prednost metode PICO jest njezina velika brzina izvođenja. Eksperimentalna analiza prikazana je kroz problem detekcije ljudskih lica. Za učenje stabala upotrijebljena je javno dostupna baza AFLW koja sadrži 20 000 slika lica. Dobivena kaskada prvo je uspoređena s Viola-Jonesovom kaskadom iz paketa OpenCV. Rezultati pokazuju da PICO postiže do šest puta veću brzinu izvođenja, što čini metodu iznimno pogodnom za upotrebu na mobilnim uređajima. Također, ostvaruje i bolju preciznost detekcije na javno dostupnim bazama GENKI-SZSL i CALTECH-FACES (3500 i 10 000 slika lica koje se nisu nalazile u skupu za učenje). Usporedba s najboljim brzim metodama iz literature na FDDB bazi (5000 slika lica i jasno definirani protokol usporedbe) pokazuje da PICO-metoda ima određene prednosti. Iako neki pristupi postižu bolju preciznost, PICO-metoda je značajno brža. Odabir metode za određenu primjenu ovisi o karakteristikama te primjene. Na mobilnim i ostalim malim uređajima, PICO-metoda odličan je izbor budući da tamo može zamnijeniti široko korišteni Viola-Jonesov pristup. Na kraju je poglavlja dana kratka diskusija o učenju PICO metode za pronalaženje ostalih razreda slika. viii Četvrto poglavlje – Brza i točna lokalizacija ključnih točaka Ovo poglavlje opisuje dva nova algoritma za lokalizaciju ključnih točaka na objektu iz unaprijed određenog razreda. Prva je metoda korisna kada trebamo pronaći pojedinačnu ključnu točku. Druga se metoda može upotrijebiti kada postoji potreba lokalizacije više međusobno koreliranih točaka (drugim riječima, među kojima postoji neka strukturna veza). Oba su algoritma eksperimentalno testirana kroz upotrebu u pronalaženju točaka na ljudskom licu: lokalizacija zjenice oka i određivanje oblika lica. Lokalizacija zjenice u danoj slici lica od posebne je važnosti za biometrijske sustave, animaciju virtualnih likova i sustave interakcije stroja i čovjeka. Stoga će prva metoda predložena u ovom poglavlju biti eksperimentalno prikazana kroz ovaj problem. Osnovna je ideja koristiti stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima za procjenu pozicije zjenice. Ovo je standardni problem regresije. U ovom se poglavlju eksperimentalno pokazuje da taj jednostavni pristup ne daje dobre rezultate (ostvarena preciznost nije dovoljno visoka). Stoga, predlaže se metoda koja proces procjene koordinate zjenice razlaže na rješavanje niza manjih problema (iterativno, jedan za drugim). Prva skupina stabala primijenjena na sliku oka daje grubu procjenu pozicije zjenice. Iduća grupa stabala uzorkuje testove oko trnutaćno najbolje procjene i pokušava je popraviti. Process se ponavlja nekoliko puta. Eksperimentalno se pokazuje (kvalitativno i kvantitativno) da ovakav pristup značajno unapređuje procjenu. Predložena se metoda uspoređuje s dva druga popularna pristupa za lokalizaciju zjenice oka. Rezultati pokazuju da je metoda znaćajno brža i preciznija od tih pristupa. To je ćini izvrsnim kandidatom za komercijalne sustave koji se ne oslanjaju na skupe uređaje i kamere. Kroz diskusiju je pokazano da predložena metoda nije najbolje moguće rješenje za lokalizaciju više koreliranih točaka. Razlog tomu je što lokalizacija svake pojedine točke može biti bitno unaprijeđena korištenjem informacije o poziciji ostalih točaka. Tipičan su primjer točke na ljudskom licu (kutovi očiju, vrh nosa, pozicije obrva itd.). Druga metoda predložena u ovom poglavlju služi za lokalizaciju više koreliranih točaka. Njezine mogućnosti testirane su kroz problem određivanja ljudskog lica iz digitalne slike, što je drugi naziv za lokalizaciju više točaka na ljudskom licu. Taj se problem pokazao posebno zahtjevnim u stvarnim uvjetima (loše osvjetljenje, zakrivanje/rotacija glave itd.). Predložena metoda modifikacija je pristupa objavljenog na CVPR-u 2014. godine (Ren et al.). Ideja tog pristupa je formirati veliki vektor znaˇcajki F kodiranjem putova koje ulazna slika ima duž stabla odlučivanja s usporedbama intenziteta piksela u unutarnjim čvorovima te nakon toga linearno transformirati taj vektor u oblik lica (u praksi se taj pristup također ponavlja nekoliko puta, iterativno). Zamijećeno je da takav pristup ima značajne probleme s memorijskim zahtjevima. Stoga, u ovoj je disertaciji predložena zamjena sloja linearne regresije neuronskim mrežama posebne arhitekture. Ključno je da se oblik lica iz vektora F odvije u nekoliko koraka. Prvi korak "komprimira" vektor F u niskodimenzionalnu reprezentaciju koja se u ostalim koracima ix transformira u oblik lica. Ako je niskodimenzionalna reprezentacija dovoljno kompaktna (dimenzionalnost je dovoljno mala), postiže se značajna ušteda memorije. U ovoj se disertaciji predlažu dvije razlčcite arhitekture s ovim svojstvom. Prvu je arhitekturu moguće naučiti egzaktno algoritmom najmanjih kvadrata s matricama reduciranog ranga. Drugu arhitekturu moguće je učiti običnim gradijentnim spustom (gradijent se izračunava algoritmom unazadne propagacije). Predložena metoda uspoređena je na 300W bazi (≈ 3000 slika s označenim točkama) s dvadesetak ostalih popularnih pristupa za određivanje oblika lica. Ostvareni su rezultati odlični s obzirom na memorijske zahtjeve i brzinu izvođenja. Što se tiče preciznosti, predložena metoda i ovdje dobiva izvrsne rezultate, ali postoje pristupi koji su nešto precizniji. Ti su pristupi temeljeni na konvolucijskim neuronskim mrežama i to ih čini vrlo sporim na modernim uređajima (za izvođenje u stvarnom vremenu potrebne su grafičke kartice). Svojstva predložene metode ćine je izvrsnim kandidatom za lokalizaciju točaka ljudskog lica na mobilnim i ugrađenim uređajima, pogotovo kada se uzme u obzir i razina preciznosti koju dostiže. Peto poglavlje – Zaključci Posljednje poglavlje ukratko sažima glavne rezultate i doprinose ostvarene tijekom izrade ove disertacije. Ključna je poruka da su predložene metode izrazito korisne ako tip primjene dozvoljava (ili čak nalaže) žrtvovanje (malo) preciznosti kako bi se dobilo mnogo na brzini izvođenja

    Multi-person fever screening using a thermal and a visual camera

    No full text
    We propose a system to automatically measure the body temperature of persons as they pass. In contrast to exisitng systems, the persons do not need to stop and look into a camera one-by-one. Instead, their eye corners are automatically detected and the temperatures therein measured using a thermal camera. The system handles multiple simultaneous persons and can thus be used where a flow of people pass, such as at airport gates

    High-performance face tracking

    No full text
    Face tracking is an extensively studied field. Nevertheless, it is still a challenge to make a robust and efficient face tracker, especially on mobile devices. This extended abstract briefly describes our implementation of a high-performance multi-platform face and facial feature tracking system. The main characteristics of our approach are that the tracker is fully automatic and works with the majority of faces without any manual initialization. It is robust, resistant to rapid changes in pose and facial expressions, does not suffer from drifting and is modestly computationally expensive. The tracker runs in real-time on mobile devices
    corecore