    ChiSCor: A Corpus of Freely Told Fantasy Stories by Dutch Children for Computational Linguistics and Cognitive Science

    In this resource paper we release ChiSCor, a new corpus containing 619 fantasy stories, told freely by 442 Dutch children aged 4-12. ChiSCor was compiled for studying how children render character perspectives, and unravelling language and cognition in development, with computational tools. Unlike existing resources, ChiSCor's stories were produced in natural contexts, in line with recent calls for more ecologically valid datasets. ChiSCor hosts text, audio, and annotations for character complexity and linguistic complexity. Additional metadata (e.g. education of caregivers) is available for one third of the Dutch children. ChiSCor also includes a small set of 62 English stories. This paper details how ChiSCor was compiled and shows its potential for future work with three brief case studies: i) we show that the syntactic complexity of stories is strikingly stable across children's ages; ii) we extend work on Zipfian distributions in free speech and show that ChiSCor obeys Zipf's law closely, reflecting its social context; iii) we show that even though ChiSCor is relatively small, the corpus is rich enough to train informative lemma vectors that allow us to analyse children's language use. We end with a reflection on the value of narrative datasets in computational linguistics.Comment: 12 pages, 5 figures, forthcoming in Proceedings of the 27th Conference on Computational Natural Language Learning (CoNLL

    Indian English Evolution and Focusing Visible Through Power Laws

    New dialect emergence and focusing in language contact settings is difficult to capture and date in terms of global structural dialect stabilization. This paper explores whether diachronic power law frequency distributions can provide evidence of dialect evolution and new dialect focusing, by considering the quantitative frequency characteristics of three diachronic Indian English (IE) corpora (1970s–2008). The results demonstrate that IE consistently follows power law frequency distributions and the corpora are each best fit by Mandelbrot’s Law. Diachronic changes in the constants are interpreted as evidence of lexical and syntactic collocational focusing within the process of new dialect formation. Evidence of new dialect focusing is also visible through apparent time comparison of spoken and written data. Age and gender-separated sub-corpora of the most recent corpus show minimal deviation, providing apparent time evidence for emerging IE dialect stability. From these findings, we extend the interpretation of diachronic changes in the β coefficient—as indicative of changes in the degree of synthetic/analytic structure—so that β is also sensitive to grammaticalization and changes in collocational patterns

    Non-Extensive statistical physics properties of seismic coda waves recorded during the Santorini unrest period 2011-2012

    Η περίοδος της ηφαιστειακής κρίσης στο νησί της Σαντορίνης κατά τη περίοδο 2011- 2012, οδήγησε αρκετές επιστημονικές μελέτες να εγείρουν το κρίσιμο ερώτημα, εάν η σεισμικότητα της ευρύτερης περιοχής της καλντέρας, σχετίζεται με μια επικείμενη και πιθανή ηφαιστειακή έκρηξη ή αν εκφορτίζει τη συσσωρευμένη τεκτονική ενέργεια. Στην παρούσα μεταπτυχιακή διατριβή, μελετήσαμε τα σεισμικά κύματα ουράς (Coda waves), από τα τοπικά σεισμικά γεγονότα πριν, κατά τη διάρκεια και μετά την περίοδο της ηφαιστειακή και σεισμικής κρίσης της Σαντορίνης. Τα σεισμικά κύματα ουράς, οφείλουν την παρουσία τους σε φαινόμενα σκέδασης και στην πολυπλοκότητα της κατανομής των σκεδαστών του υπεδάφους, στις ανομοιογένειες του εσωτερικού της Γης, όπως είναι οι ρωγμές και η σχιστότητα των πετρωμάτων, τα ρήγματα, στα όρια μετάβασης υλικών διαφορετικής πυκνότητας, και στις πάσης φύσεως γεωφυσικές ανομοιογένειες ως προς τις ιδιότητες των υλικών στα ανώτερα στρώματα του φλοιού της Γης. Πιο συγκεκριμένα, λάβαμε υπόψη και τις τρεις συνιστώσες των σεισμολογικών σταθμών στο νησί της Σαντορίνης και εκτιμήσαμε τη διάρκεια των σεισμικών κυμάτων ουράς, εφαρμόζοντας μια διαδικασία πέντε επιπέδων, η οποία περιλαμβάνει την αναλογία σεισμικού σήματος προς θόρυβο (SNR), τη μέθοδο τύπου βραχέως μέσου χρόνου προς μακροπρόθεσμο μέσο χρόνο (STA/LTA) στο πεδίο του χρόνου αλλά και στο αναλυτικό σήμα, όπως αυτό προκύπτει από την εφαρμογή του μετασχηματισμού Hilbert, καθώς και τον μετασχηματισμό Fourier βραχέως χρόνου (STFT), εφαρμόζοντας παράθυρο Γκαουσιανής συνάρτησης (window function). Η τελική εκτίμηση της διάρκειας των κυμάτων ουράς, επαληθεύτηκε ή και επανεκτιμήθηκε αναλογικά από τον χρήστη, εξαιτίας της ύπαρξης ισχυρού σεισμικού θορύβου. Λόγω της πολυπλοκότητας των κυμάτων ουράς, για τη μελέτη του ηφαιστειακού συμπλέγματος της Σαντορίνης, εφαρμόσαμε την θεωρία της μη εκτατικής στατιστικής φυσικής (NESP). Η προσέγγιση NESP εκφράζει την γενίκευση της στατιστικής μηχανικής των Boltzmann-Gibbs και έχει χρησιμοποιηθεί εκτενώς για την ανάλυση πολύπλοκων συστημάτων, με εμφανή χαρακτηριστικά και ιδιότητες αλληλεπίδρασης μακράς εμβέλειας, μνήμης και μορφοκλασματικότητας. Η ανάλυση και τα αποτελέσματα της παρούσας διατριβής δείχνουν ότι οι διαφορές πλάτους των διαδοχικών σημείων των σεισμικών κυμάτων ουράς (στο πεδίο του χρόνου), αποκλίνουν από το στατιστικό πρότυπο τύπου Gauss, καθώς οι αντίστοιχες συναρτήσεις πυκνότητας πιθανότητας (PDFs), μπορούν να περιγραφούν επαρκώς από κατανομές πιθανότητας που προκύπτουν από τον μη εκτατικό φορμαλισμό και πιο συγκεκριμένα από την κατανομή q-Gaussian. Επιπλέον, για να διερευνήσουμε τη δυναμική εξέλιξη της ηφαιστειακής-σεισμοτεκτονικής δραστηριότητας, εκτιμήσαμε τους εντροπικούς δείκτες σκέδασης qs όπως αυτοί προκύπτουν από την μη γραμμική ανάλυση των PDFs, παρουσιάζοντας τις μεταβολές τους ως συνάρτηση του χρόνου, του χώρου (χωροχρονική μεταβολή), του τοπικού μεγέθους (ML) καθώς και της επικεντρικής απόστασης (km) πριν, κατά τη διάρκεια και μετά την περίοδο ηφαιστειακής κρίσης της καλντέρας, από το 2009 έως το 2014.The unrest period in Santorini's caldera during 2011-2012, led several studies to raise the important question of whether seismicity is associated with an impending and potential volcanic eruption or if it solely relieves the accumulated tectonic energy. In the present work, we study seismic coda waves, generated by local earthquake events prior, during and after the Santorini’s unrest period (volcanic and seismic crisis) that occurred within the caldera area. Coda waves are interpreted as scattered seismic waves generated by heterogeneities within the Earth, i.e. by faults, fractures, fissure structures, microcracks, velocity and/or density boundaries/anomalies, etc. In particular, we utilize all three components of the seismograms recorded by three seismological stations on the Santorini island and estimate the duration of the coda waves by implementing a five-step procedure that includes the signal-to-noise ratio, the STA/LTA like method, in time domain and upon analytic signal obtained after implementing Hilbert transformation, and the short time Fourier transform, using gaussian windowing as a window function. The final estimation was verified or re-estimated manually due to the existent ambient seismic noise. Because of the nature and the path complexity of the coda waves and towards achieving a unified framework for the study of the immerse geo-structural seismotectonic complexity of the Santorini volcanic complex, we use Non-Extensive Statistical Physics (NESP) to study the probability density functions (PDFs) of the increments of seismic coda waves. NESP, forms a generalization of the Boltzmann-Gibbs statistical mechanics that has been extensively used for the analysis of semi-chaotic systems that exhibit long-range interactions, memory effects and multi-fractality. The analysis and results demonstrate that the seismic coda waves increments, deviate from the Gaussian shape and their respective pdfs could adequately be described and processed by the q-Gaussian distribution. Furthermore and in order to investigate the dynamical evolution of the volcanic-tectonic activity, we estimate the qs indices derived from the PDFs of the coda wave time series increments, and present their variations as a function of time, of space (spaciotemporal variation), of local magnitude (ML) and epicentral distance (measured in km) prior, during and after the caldera unrest period from 2009 to 2014