15 research outputs found

    Bayesian Classification Methods for Bat Call Identification

    Get PDF
    Bat call classification is widely used in bat population monitoring in the field of ecology. Since bat populations are susceptible to changes in their surroundings, it is essential to monitor bat populations for purposes of bat protection and bio-environment protection. The purpose of this thesis is to compare the performance of several classification methods applied to a data set extracted from audio recordings for different species of bats in Mexico. The methods under comparison are (i) a nonparametric Bayesian approach using a multinomial probit model with Gaussian process prior; (ii) support vector machines (SVM); (iii) naive Bayes; and (iv) Bayesian additive regression trees (BART). We find that BART achieves the lowest classification error rate

    Acoustic identification of Mexican bats based on taxonomic and ecological constraints on call design

    Get PDF
    1. Monitoring global biodiversity is critical for understanding responses to anthropogenic change, but biodiversity monitoring is often biased away from tropical, megadiverse areas that are experiencing more rapid environmental change. Acoustic surveys are increasingly used to monitor biodiversity change, especially for bats as they are important indicator species and most use sound to detect, localise and classify objects. However, using bat acoustic surveys for monitoring poses several challenges, particularly in mega-diverse regions. Many species lack reference recordings, some species have high call similarity or differ in call detectability, and quantitative classification tools, such as machine learning algorithms, have rarely been applied to data from these areas. 2. Here, we collate a reference call library for bat species that occur in a megadiverse country, Mexico. We use 4,685 search-phase calls from 1,378 individual sequences of 59 bat species to create automatic species identification tools generated by machine learning algorithms (Random Forest). We evaluate the improvement in species-level classification rates gained by using hierarchical classifications, reflecting either taxonomic or ecological constraints (guilds) on call design, and examine how classification rate accuracy changes at different hierarchical levels (family, genus, and guild). 3. Species-level classification of calls had a mean accuracy of 66% and the use of hierarchies improved mean species-level classification accuracy by up to 6% (species within families 72%, species within genera 71.2% and species within guilds 69.1%). Classification accuracy to family, genus and guild-level was 91.7%, 77.8% and 82.5%, respectively. 4. The bioacoustic identification tools we have developed are accurate for rapid biodiversity assessments in a megadiverse region and can also be used effectively to classify species at broader taxonomic or ecological levels. This flexibility increases their usefulness when there are incomplete species reference recordings and also offers the opportunity to characterise and track changes in bat community structure. Our results show that bat bioacoustic surveys in megadiverse countries have more potential than previously thought to monitor biodiversity changes and can be used to direct further developments of bioacoustic monitoring programs in Mexico

    Ultrasonic monitoring to assess the impacts of forest conversion on Solomon Island bats

    Get PDF
    Paleotropical islands are experiencing extensive land-use change, yet little is known about how such changes are impacting wildlife in these biodiversity hotspots. To address this knowledge gap, we characterized bat responses to forest conversion in a biodiverse, human-threatened coastal rainforest habitat on Makira, Solomon Islands. We analysed ~200hrs of acoustic recordings from echolocating bats in the four dominant types of land-use on Makira: intact forest, secondary forest, food gardens and cacao plantations. Bat calls were identified to the species level using a supervised classification model (where labelled data are used to train the system). We examined relative activity levels and morphological traits across habitats. Relative activity levels were highest in intermediately disturbed habitats and lowest in the most heavily disturbed habitat, although these differences were not significant. There were significant differences in the mean forearm length of bat assemblages across habitats, with the highest mean forearm length found in the most open habitat (Cacao). Overall, our study constitutes the first detailed exploration of anthropogenic effects on mammalian diversity in the Solomon Islands and includes the first acoustic and morphological information for many bat species in Melanesia. We use our experience to discuss the challenges of acoustic monitoring in such a remote and poorly studied region.Publisher PDFPeer reviewe

    Bayesian ancestral reconstruction for bat echolocation

    Get PDF
    Ancestral reconstruction can be understood as an interpolation between measured characteristics of existing populations to those of their common ancestors. Doing so provides an insight into the characteristics of organisms that lived millions of years ago. Such reconstructions are inherently uncertain, making this an ideal application area for Bayesian statistics. As such, Gaussian processes serve as a basis for many probabilistic models for trait evolution, which assume that measured characteristics, or some transformation of those characteristics, are jointly Gaussian distributed. While these models do provide a theoretical basis for uncertainty quantification in ancestral reconstruction, practical approaches to their implementation have proven challenging. In this thesis, novel Bayesian methods for ancestral reconstruction are developed and applied to bat echolocation calls. This work proposes the first fully Bayesian approach to inference within the Phylogenetic Gaussian Process Regression framework for Function-Valued Traits, producing an ancestral reconstruction for which any uncertainty in this model may be quantified. The framework is then generalised to collections of discrete and continuous traits, and an efficient approximate Bayesian inference scheme proposed, representing the first application of Variational inference techniques to the problem of ancestral reconstruction. This efficient approach is then applied to the reconstruction of bat echolocation calls, providing new insights into the developmental pathways of this remarkable characteristic. It is the complexity of bat echolocation that motivates the proposed approach to evolutionary inference, however, the resulting statistical methods are broadly applicable within the field of Evolutionary Biology

    Contributions to time series data mining departing from the problem of road travel time modeling

    Get PDF
    194 p.Bidaiarientzako Informazio Sistema Aurreratuak (BISA) errepideetan sensoreenbidez bildutako datuak jaso, prozesatu eta jakitera ematen dituzte,erabiltzailei haien bidaietan lagunduz eta ibilbidea hasi baino lehen eta bideanhartu beharreko erabakiak erraztuz [5]. Helburu honetarako, BISA sistemektrafiko ereduak beharrezkoak dituzte, bidaiarientzat baliagarriak izandaitezkeen trafiko aldagaiak deskribatu, simulatu eta iragartzeko balio duelako.Zehazki, kontutan hartu daitezkeen trafiko aldagai guztietatik (fluxua,errepidearen okupazioa, abiadurak, etab.) bidai denbora da erabiltzaileentzatintuitiboena eta ulerterrazena den aldagaia eta, beraz, BISA sistemetan garrantziberezia hartzen duena [6]. Bidai denbora, aurrez zehaztutako puntubatetik bestera joateko ibilgailu batek behar duen denborari deritzo.Bidai denboren eredugintzan bi problema nagusi bereizten dira: estimazioaeta iragarpena. Nahiz eta literaturan batzuetan bi kontzeptu hauek baliokidetzatjo, berez, bi problema bereizi dira, ezaugarri eta helburu ezberdinekin,eta teknika ezberdinak eskatzen dituztenak.Alde batetik, bidai denboren estimazioaren helburua iada amaitutakobidaietan ibilgailuak bataz beste zenbat denbora igaro duten kalkulatzeada. Horretarako, ibilbidean zehar jasotako trafikoari buruzko informazioaedo/eta bestelako datuak (eguraldia, egutegiko informazioa, etab.) erabildaitezke [1]. Estimazio metodo ezberdinak eskuragarri dauden datu motaeta kantitatearen araberara sailka daitezke eta, a posteriori motako balorazioakegiteko balio dute. Bestalde, bidai denboren iragarpena, orainean edoetorkizunean hasiko diren bidaien denborak kalkulatzean datza. Honetarako,iragarpena egiten den momentuan jasotako eta iraganeko trafikoari buruzkodatuak eta testuinguruko informazioa erabiltzen da [8].Ibilgailu kopuru eta auto-ilaren ugaritzeen ondorioz, bidai denboren estimazioeta predikzio onak lortzea geroz eta beharrezkoagoa da, trafikoarenkudeaketa egokia ahalbidetzen duelako. Hau ikusirik, azken urteetan eredumota ezberdin andana proposatu eta argitaratu dira. Nolanahi ere, literaturarenberrikuspen eta analisi sakon bat egin dugu tesi honen lehenengoatalean. Bertan, ondorioztatu ahal izan dugu proposatutako eredu guztiakez direla egokiak errepide sare, trafiko egoera eta datu mota guztiekin erabiltzeko.Izan ere, atera dugun ondorio nabariena, argitaratutako eredu askokez dituztela BISA sistemen eskakizun praktikoak betetzen, da. Lehenik etabehin, eredu asko errepide zati txikietan soilik aplika daitezke, eta ez dagoargi errepide sare guztira nola hedatu daitezkeen. Bestalde, eredu gehienekdatu mota bakarra erabiltzen dute eta errealitatean ohikoa da datu mota batekinbaina gehiagorekin lan egin behar izatea. Azkenik, pilaketa ez-ohikoenaurrean malgutasun mugatua izatea ere desabantaila nabari eta ohikoa da.Hau honela, eredu konbinatu edo hibridoak proposamen hauetatik guztietatiketorkizun handiena dutenak direla dirudi, patroi ezberdinetara moldatzekogaitasuna dutelako, eta eredu eta datu mota ezberdinak nahastekoaukera ematen dutelako.Tesi honetan, bidai denborak iragartzeko eredu hibrido edo konbinatuakhartuko ditugu abiapuntutzat. Zehazki, hasieran datuak antzekotasunarenarabera multzokatzen dituenetan jarriko dugu arreta. Metodo hauek, datuakmultzokatu ondoren, multzo bakoitzari bidai denborak iragartzeko eredu ezberdinbat aplikatzen diote, zehatzagoa eta patroi espezifiko horrentzat espresukieraikia.Eredu talde honen kasu berezi bat, datuen multzokatzea denbora serieentaldekatzearen bitartez egiten duena da. Denbora serieen taldekatzea (clustering-a ingelesez) datu mehatzaritzako gainbegiratu gabeko ataza bat da, nonhelburua, denbora serie multzo, edo beste era batera esanda, denbora seriedatu base bat emanik, serie hauek talde homogeneoetan banatzea den [3]. Xedea,beraz, talde bereko serieen antzekotasuna ahalik eta handiena izatea etaaldiz, talde ezberdinetako serieak ahalik eta desberdinenak izatea da. Trafikodatuetan eta bidai denboretan, portaera ezberdinetako egunak aurkitzea osoohikoa da (adib. asteguna eta asteburuak). Hau honela, egun osoan zeharjasotako bidai denborez osatutako serie bat izanik, metodo mota honek lehenik,dagokion egun mota identifikatuko luke eta ondoren iragarpenak egunmota horretarako bereziki eraikitako eredu batekin lortuko lituzke.Denbora serieen clustering-an oinarritutako eredu mota hau ez da ia inoizerabili literaturan eta, ondorioz, bere onurak eta desabantailak ez dira ondoaztertu orain arte. Honegatik, tesi honen bigarren kapituluan, eredugintzaprozeduaren hasieran egun mota ezberdinak identifikatzea bidai denboreniragarpenak lortzeko lagungarria ote den aztertu dugu, emaitza positiboaklortuz. Hala ere, praktikan, honelako eredu konbinatuak eraikitzeak eta erabiltzeakzailtasun bat baino gehiago dakartza. Tesi honetan bi arazo nagusietanjarriko dugu arreta eta hauentzat soluzio bana proposatzea izango duguhelburu.Hasteko, denbora serieak multzokatzeko, erabaki ez tribial batzuk hartubehar dira, adibidez distantzia funtzio egoki bat aukeratzea. Literaturanbehin baino gehiagotan erakutsi da erabaki hau oso garrantzitsua dela etaasko baldintzatzen dituela lortuko diren emaitzak [7]. Trafikoko kasuan ere,hau honela dela demostratu dugu. Baina distantzia baten aukeraketa ez dabatere erraza. Azken urteotan hamaika distantzia ezberdin proposatu dituikerlari komunitateak denbora serieekin lan egiteko eta, dirudienez, datu basebakoitzaren ezaugarrien arabera, bat ala bestea izaten dela egokiena [3, 7].Guk dakigula, ez dago metodologia formalik erabiltzaileei aukeraketa hauegiten laguntzen dionik, ez batik bat denbora serieen clustering-aren testuinguruan.Metodologia ohikoena distantzia sorta bat probatzea eta lortutakoemaitzen arabera bat aukeratzea da. Zoritxarrez, distantzia batzuen kalkuluakonputazionalki oso garestia da, eta beraz, estrategia hau ez da batereeraginkorra praktikan.Ataza hau simplifikatzeko asmoarekin, tesiko hirugarren kapituluan etiketaanitzeko sailkatzaile bat (ingelesez multi-label classifier ) proposatzen dugudenbora serieen datu base bat multzokatzeko, distantzia egokiena modu automatikoanaukeratzen duena. Sailkatzaile hau eraikitzeko, hasteko, denboraserie datu base baten alderdi batzuk deskribatzeko ezaugarri sorta bat definitudugu. Besteak beste, datuetan dagoen zarata maila, autokorrelazio maila,serie atipikoen kopurua, periodizitatea eta beste hainbat ezaugarri neurtu etakuantifikatzeko metodoak proposatu ditugu. Ezaugarri hauek sailkatzaileakbehar duen input informazioa edo, bestela esanda, sailkatzailearen menpekoaldagaiak izango dira. Emaitza gisa, sailkatzaileak datu base batentzategokienak diren distantziak itzuliko dizkigu, kandidatu sorta batetik, noski.Sailkatzaile honen baliagarritasuna egiaztatzeko, esperimentu sorta zabalbat bideratu dugu, bai lan honetarako bereziki sortutako datu base sintetikoekineta bai UCR artxiboko [4] benetako datuak erabiliz. Lortutako emaitzapositiboak argi uzten dute proposatutako sailkatzaileak denbora serie batmultzokatzeko distantzia funtzio baten aukeraketa errazteko balio duela.Ekarpen hau azalduta, berriz bidai denboren iragarpenerako eredu kon-binatuetara itzuli eta bigarren problema bat identifikatzen dugu, tesiko bigarrenekarpen nagusira eramango gaituena. Gogoratu eredu konbinatu hauekhasiera batean datuak multzokatzen dituztela, clustering algoritmoak erabiliz.Talde bakoitzak patroi edo trafiko portaera ezberdin bat adieraziko du.Ondoren, talde bakoitzean iragarpenak egiteko, iragarpen eredu ezberdin bateraikiko dugu, soilik multzo horretako datu historikoak erabiliz. Gure kasuan,denbora serieen clustering-a aplikatu dugu eta beraz, egun mota ezberdinaklortuko ditugu. Ondoren, iragarpen berriak egin nahi ezkero, egun berri bathasten denean, zein multzokoa den asmatu beharko dugu, erabili behar duguneredua aukeratzeko.Ohartu, iragarpenak egiteko garaian, ez dugula egun osoko daturik izangoeskuragarri. Adibidez, goizeko hamarretan, eguerdiko hamabietan (2 ordugeroago) puntu batetik bestera joateko beharko dugun denbora iragarri nahibadugu, soilik egun horretan hamarrak arte jasotako informazioa izango dugueskuragarri, informazio historikoarekin batera, noski. Egoera honetan, egunhorretako informazio partzialarekin, seriearen lehen zatiarekin soilik, erabakibehar dugu zein multzotakoa den. Noski, ordurarte jasotako informazioa ezbada nahikoa adierazgarria, kalterako izan daiteke multzo eta eredu zehatzbat aukeratzea, eta ziurrenik hobe izango da eredu orokorrago bat erabiltzea,datu historiko guztiekin eraikia. Finean, egun berriak ahal bezain prontomultzo batera esleitu nahi ditugu, baina esleipen hauetan ahal bezain erroregutxien egin nahi dugu.Logikoa da pentsatzea esleipenak geroz eta lehenago eginez akatsak egitekoaukera handiagoa dela. Hau honela, helburua esleipenak ahal bezain azkaregitea da, baina zehaztasun maila onargarri bat bermatuz. Denbora serieenmehatzaritzan problema honi denbora serieen sailkapen goiztiarra (ingelesezearly classification of time series) deritzo [10].Denbora serieen sailkapena (ingelesez time series classification) [9, 10] datumehatzaritzako gainbegiratutako problema aski ezaguna da non, denboraserie multzo bat eta haietako bakoitzaren klasea jakinik, helburua sailkatzailebat eraikitzea den, serie berrien klaseak iragartzeko gai dena.Denbora serieen sailkapenaren azpi-problema gisa, sailkapen goiztiarra,denboran zehar iristen den datu zerrenda bat ahalik eta lasterren klase zehatzbatean sailkatzeko nahia edo beharra dagoenean agertzen da [10]. Adibide gisa,informatika medikoan, gaixoaren datu klinikoak denboran zehar monitorizatueta jasotzen dira, eta gaixotasun batzuen detekzio goiztiarra erabakigarriada pazientearen egoeran. Esaterako, arterien buxadura, fotopletismografia(PPG) serieen bidez detektatzen da errazen [2], baina diagnosian segunduhamarren baten atzerapenak, guztiz ondorio ezberdinak ekar ditzake.Honela, tesiaren 4. kapituluan, denbora serieen datu mehatzaritzari bigarrenekarpen garrantzitsu bezala, ECDIRE (Early Classification frameworkfor time series based on class DIscriminativeness and REliability ofpredictions) izeneko denbora serieen sailkatzaile goiztiarra aurkeztu dugu.Sailkatzaile hau eraikitzeko, entrenamendu fasean, metodoak klase bakoitzaanalizatzen du eta beste klaseengandik noiztik aurrera ezberdindu daitekeenkalkulatzen du, aurrez ezarritako zehaztasun maila bat mantenduz,noski. Zehaztasun maila hau erabiltzaileak finkatuko du haren interesen arabera.Entrenamentu fase honetan lortutako informazioak sailkapenak noizegin zehaztuko digu eta, beraz, serieak goizegi esleitzea saihesten lagundukodu. Bestalde, ECDIRE metodoak sailkatzaile probabilistikoak erabiltzen ditu,eta sailkatzaile mota hauengandik lortutako a-posteriori probabilitateak,lortutako sailkapenen zehaztasuna beste era batean kontrolatzen lagundukodigu.ECDIRE metodoa UCR artxiboko 45 datu baseei aplikatu diogu, literaturanorain arte lortutako emaitzak hobetuz. Bestalde, kasu erreal bateanmetodoaren aplikazioa nolakoa izango zen erakusteko, kantuen bidezko txoriendetekzio eta identifikazio problema baterako sortutako datu base batekinere burutu ditugu esperimentuak, emaitza egokiak lortuz.Azkenik, berriro ere bidai denboren iragarpenera itzuli gara eta aurrekobi ekarpenak problema honi aplikatu dizkiogu. Lortutako emaitzetatik,problema zehatz honetarako, proposatutako bi metodoetan egin beharrekomoldaketa batzuk identifikatu ditugu. Hasteko, distantzia aukeratzeaz gain,hauen parametroak ere aukeratu behar dira. Hau egiteko silhouette bezalakoindizeak erabili ditugu, baina argitzeke dago ea metodo hau ataza honetarakoonena den. Bestalde, datuen garbiketa eta aurre-prozesatze sakon bat beharrezkoadela ere ikusi dugu, serie atipikoak eta zaratak clustering soluzioetaneragin handia baitaukate. Azkenik, gure esperimentuak iragarpen eredu historikosimpleetan oinarritu ditugu. Eredu simple hauek ordu berdinean jasotakobidai denboren batez bestekoa kalkulatuz egiten dituzte iragarpenak,eta eredu konplexuagoak erabiltzea aukera interesgarria izan daiteke.Laburbilduz, tesi honetan bidai denboren eredugintzaren literaturarenanalisi batetik hasi gara eta, bertatik abiatuta, denbora serieen mehatzaritzaribi ekarpen egin dizkiogu: lehena, denbora serie multzo bat taldekatzekodistantzia automatikoki aukeratzeko metodo baten diseinua, eta bigarrena,sailkatzaile probabilistikoetan oinarritutako denbora serieen sailkatzaile goiztiarbat. Azkenik, berriro ere bidai denboren eredugintzaren problemara itzuligara eta aurreko bi ekarpenak testuinguru honetan aplikatuko ditugu, etorkizunerakoikerketa ildo berriak zabalduz

    BAT (Chiroptera) CALL SEQUENCE EXTRACTION FROM LONG SERIES OF FIELD AUDIO RECORDINGS USING MACHINE LEARNING

    Get PDF
    Kontinuirano praćenje šišmiša (Chiroptera) na terenu rezultira nastankom dugih nizova terenskih audio snimaka. Ručni pregled ovih podataka zbog količine snimaka predstavlja vrlo zahtjevan zadatak. Kako bi se ubrzala analiza snimaka šišmiša izrađeni sustavi temeljeni na umjetnim neuronskim mrežama. Ovi sustavi imaju sposobnost automatskog izdvajanja sekvenci glasanja šišmiša iz dugih nizova audio snimaka.Continious field monitoring of Bats (Chiroptera) often results with long series of field audio recordings. Manual analysis of such footage is a demanding task. To facilitate analysis of bat call footage, systems based on artificial neural networks were created. These systems have the ability to extract sequences of bat calls from long series of field audio recordings

    Untangling hotel industry’s inefficiency: An SFA approach applied to a renowned Portuguese hotel chain

    Get PDF
    The present paper explores the technical efficiency of four hotels from Teixeira Duarte Group - a renowned Portuguese hotel chain. An efficiency ranking is established from these four hotel units located in Portugal using Stochastic Frontier Analysis. This methodology allows to discriminate between measurement error and systematic inefficiencies in the estimation process enabling to investigate the main inefficiency causes. Several suggestions concerning efficiency improvement are undertaken for each hotel studied.info:eu-repo/semantics/publishedVersio

    Essays on Latent Variable Models and Roll Call Scaling

    Full text link
    This dissertation comprises three essays on latent variable models and Bayesian statistical methods for the study of American legislative institutions and the more general problems of measurement and model comparison. In the first paper, I explore the dimensionality of latent variables in the context of roll call scaling. The dimensionality of ideal points is an aspect of roll call scaling which has received significant attention due to its impact on both substantive and spatial interpretations of estimates. I find that previous evidence for unidimensional ideal points is a product of the Scree procedure. I propose a new varying dimensions model of legislative voting and a corresponding Bayesian nonparametric estimation procedure (BPIRT) that allows for probabilistic inference on the number of dimensions. Using this approach, I show that there is strong evidence for multidimensional ideal points in the U.S. Congress and that using only a single dimension misses much of the disagreement that occurs within parties. I reexamine theories of U.S. legislative voting and find that empirical evidence for these models is conditional on unidimensionality. In the second paper, I expand on the varying dimensions model of legislative voting and explore the role of group dependencies in legislative voting. Assumptions about independence of observations in the scaling model ignore the possibility that members of the voting body have shared incentives to vote as a group and lead to problems in estimating ideal points and corresponding latent dimensions. I propose a new ideal point model, clustered beta process IRT (C-BPIRT), that explicitly allows for group contributions in the underlying spatial model of voting. I derive a corresponding empirical model that uses flexible Bayesian nonparametric priors to estimate group effects in ideal points and the corresponding dimensionality of the ideal points. I apply this model to the 107th U.S. House (2001 - 2003) and the 88th U.S. House (1963 - 1965) and show how modeling group dynamics improves the estimation and interpretation of ideal points. Similarly, I show that existing methods of ideal point estimation produce results that are substantively misaligned with historical studies of the U.S. Congress. In the third and final paper, I dive into the more general problem of Bayesian model comparison and marginal likelihood computation. Various methods of computing the marginal likelihood exist, such as importance sampling or variational methods, but they frequently provide inaccurate results. I demonstrate that point estimates for the marginal likelihood achieved using importance sampling are inaccurate in settings where the joint posterior is skewed. I propose a light extension to the variational method that treats the marginal likelihood as a random variable and create a set of intervals on the marginal likelihood which do not share the same inaccuracies. I show that these new intervals, called kappa bounds, provide a computationally efficient and accurate way to estimate the marginal likelihood under arbitrarily complex Bayesian model specifications. I show the superiority of kappa bounds estimates of the marginal likelihood through a series of simulated and real-world data examples, including comparing measurement models that estimate latent variables from ordered discrete survey data.PHDPolitical ScienceUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/163023/1/kamcal_1.pd
    corecore