6 research outputs found
ChiSCor: A Corpus of Freely Told Fantasy Stories by Dutch Children for Computational Linguistics and Cognitive Science
In this resource paper we release ChiSCor, a new corpus containing 619
fantasy stories, told freely by 442 Dutch children aged 4-12. ChiSCor was
compiled for studying how children render character perspectives, and
unravelling language and cognition in development, with computational tools.
Unlike existing resources, ChiSCor's stories were produced in natural contexts,
in line with recent calls for more ecologically valid datasets. ChiSCor hosts
text, audio, and annotations for character complexity and linguistic
complexity. Additional metadata (e.g. education of caregivers) is available for
one third of the Dutch children. ChiSCor also includes a small set of 62
English stories. This paper details how ChiSCor was compiled and shows its
potential for future work with three brief case studies: i) we show that the
syntactic complexity of stories is strikingly stable across children's ages;
ii) we extend work on Zipfian distributions in free speech and show that
ChiSCor obeys Zipf's law closely, reflecting its social context; iii) we show
that even though ChiSCor is relatively small, the corpus is rich enough to
train informative lemma vectors that allow us to analyse children's language
use. We end with a reflection on the value of narrative datasets in
computational linguistics.Comment: 12 pages, 5 figures, forthcoming in Proceedings of the 27th
Conference on Computational Natural Language Learning (CoNLL
Indian English Evolution and Focusing Visible Through Power Laws
New dialect emergence and focusing in language contact settings is difficult to capture and date in terms of global structural dialect stabilization. This paper explores whether diachronic power law frequency distributions can provide evidence of dialect evolution and new dialect focusing, by considering the quantitative frequency characteristics of three diachronic Indian English (IE) corpora (1970s–2008). The results demonstrate that IE consistently follows power law frequency distributions and the corpora are each best fit by Mandelbrot’s Law. Diachronic changes in the constants are interpreted as evidence of lexical and syntactic collocational focusing within the process of new dialect formation. Evidence of new dialect focusing is also visible through apparent time comparison of spoken and written data. Age and gender-separated sub-corpora of the most recent corpus show minimal deviation, providing apparent time evidence for emerging IE dialect stability. From these findings, we extend the interpretation of diachronic changes in the β coefficient—as indicative of changes in the degree of synthetic/analytic structure—so that β is also sensitive to grammaticalization and changes in collocational patterns
Non-Extensive statistical physics properties of seismic coda waves recorded during the Santorini unrest period 2011-2012
Η περίοδος της ηφαιστειακής κρίσης στο νησί της Σαντορίνης κατά τη περίοδο 2011-
2012, οδήγησε αρκετές επιστημονικές μελέτες να εγείρουν το κρίσιμο ερώτημα, εάν η
σεισμικότητα της ευρύτερης περιοχής της καλντέρας, σχετίζεται με μια επικείμενη και
πιθανή ηφαιστειακή έκρηξη ή αν εκφορτίζει τη συσσωρευμένη τεκτονική ενέργεια.
Στην παρούσα μεταπτυχιακή διατριβή, μελετήσαμε τα σεισμικά κύματα ουράς (Coda
waves), από τα τοπικά σεισμικά γεγονότα πριν, κατά τη διάρκεια και μετά την περίοδο
της ηφαιστειακή και σεισμικής κρίσης της Σαντορίνης. Τα σεισμικά κύματα ουράς,
οφείλουν την παρουσία τους σε φαινόμενα σκέδασης και στην πολυπλοκότητα της
κατανομής των σκεδαστών του υπεδάφους, στις ανομοιογένειες του εσωτερικού της
Γης, όπως είναι οι ρωγμές και η σχιστότητα των πετρωμάτων, τα ρήγματα, στα όρια
μετάβασης υλικών διαφορετικής πυκνότητας, και στις πάσης φύσεως γεωφυσικές
ανομοιογένειες ως προς τις ιδιότητες των υλικών στα ανώτερα στρώματα του φλοιού
της Γης. Πιο συγκεκριμένα, λάβαμε υπόψη και τις τρεις συνιστώσες των σεισμολογικών
σταθμών στο νησί της Σαντορίνης και εκτιμήσαμε τη διάρκεια των σεισμικών κυμάτων
ουράς, εφαρμόζοντας μια διαδικασία πέντε επιπέδων, η οποία περιλαμβάνει την
αναλογία σεισμικού σήματος προς θόρυβο (SNR), τη μέθοδο τύπου βραχέως μέσου
χρόνου προς μακροπρόθεσμο μέσο χρόνο (STA/LTA) στο πεδίο του χρόνου αλλά και
στο αναλυτικό σήμα, όπως αυτό προκύπτει από την εφαρμογή του μετασχηματισμού
Hilbert, καθώς και τον μετασχηματισμό Fourier βραχέως χρόνου (STFT), εφαρμόζοντας
παράθυρο Γκαουσιανής συνάρτησης (window function). Η τελική εκτίμηση της
διάρκειας των κυμάτων ουράς, επαληθεύτηκε ή και επανεκτιμήθηκε αναλογικά από
τον χρήστη, εξαιτίας της ύπαρξης ισχυρού σεισμικού θορύβου. Λόγω της
πολυπλοκότητας των κυμάτων ουράς, για τη μελέτη του ηφαιστειακού συμπλέγματος
της Σαντορίνης, εφαρμόσαμε την θεωρία της μη εκτατικής στατιστικής φυσικής (NESP).
Η προσέγγιση NESP εκφράζει την γενίκευση της στατιστικής μηχανικής των Boltzmann-Gibbs και έχει χρησιμοποιηθεί εκτενώς για την ανάλυση πολύπλοκων συστημάτων, με
εμφανή χαρακτηριστικά και ιδιότητες αλληλεπίδρασης μακράς εμβέλειας, μνήμης και
μορφοκλασματικότητας. Η ανάλυση και τα αποτελέσματα της παρούσας διατριβής
δείχνουν ότι οι διαφορές πλάτους των διαδοχικών σημείων των σεισμικών κυμάτων
ουράς (στο πεδίο του χρόνου), αποκλίνουν από το στατιστικό πρότυπο τύπου Gauss,
καθώς οι αντίστοιχες συναρτήσεις πυκνότητας πιθανότητας (PDFs), μπορούν να
περιγραφούν επαρκώς από κατανομές πιθανότητας που προκύπτουν από τον μη
εκτατικό φορμαλισμό και πιο συγκεκριμένα από την κατανομή q-Gaussian. Επιπλέον,
για να διερευνήσουμε τη δυναμική εξέλιξη της ηφαιστειακής-σεισμοτεκτονικής
δραστηριότητας, εκτιμήσαμε τους εντροπικούς δείκτες σκέδασης qs όπως αυτοί
προκύπτουν από την μη γραμμική ανάλυση των PDFs, παρουσιάζοντας τις μεταβολές
τους ως συνάρτηση του χρόνου, του χώρου (χωροχρονική μεταβολή), του τοπικού
μεγέθους (ML) καθώς και της επικεντρικής απόστασης (km) πριν, κατά τη διάρκεια και
μετά την περίοδο ηφαιστειακής κρίσης της καλντέρας, από το 2009 έως το 2014.The unrest period in Santorini's caldera during 2011-2012, led several studies to raise
the important question of whether seismicity is associated with an impending and
potential volcanic eruption or if it solely relieves the accumulated tectonic energy. In the
present work, we study seismic coda waves, generated by local earthquake events prior,
during and after the Santorini’s unrest period (volcanic and seismic crisis) that occurred
within the caldera area. Coda waves are interpreted as scattered seismic waves
generated by heterogeneities within the Earth, i.e. by faults, fractures, fissure
structures, microcracks, velocity and/or density boundaries/anomalies, etc. In particular,
we utilize all three components of the seismograms recorded by three seismological
stations on the Santorini island and estimate the duration of the coda waves by
implementing a five-step procedure that includes the signal-to-noise ratio, the STA/LTA
like method, in time domain and upon analytic signal obtained after implementing
Hilbert transformation, and the short time Fourier transform, using gaussian windowing
as a window function. The final estimation was verified or re-estimated manually due to
the existent ambient seismic noise. Because of the nature and the path complexity of
the coda waves and towards achieving a unified framework for the study of the
immerse geo-structural seismotectonic complexity of the Santorini volcanic complex, we
use Non-Extensive Statistical Physics (NESP) to study the probability density
functions (PDFs) of the increments of seismic coda waves. NESP, forms a generalization
of the Boltzmann-Gibbs statistical mechanics that has been extensively used for the
analysis of semi-chaotic systems that exhibit long-range interactions, memory effects
and multi-fractality. The analysis and results demonstrate that the seismic coda waves
increments, deviate from the Gaussian shape and their respective pdfs could adequately
be described and processed by the q-Gaussian distribution. Furthermore and in order to
investigate the dynamical evolution of the volcanic-tectonic activity, we estimate the qs indices derived from the PDFs of the coda wave time series increments, and present
their variations as a function of time, of space (spaciotemporal variation), of local
magnitude (ML) and epicentral distance (measured in km) prior, during and after the
caldera unrest period from 2009 to 2014