55 research outputs found
HRVATSKI KORPUS GOVORNOG JEZIKA (HrAL)
Interest in spoken-language corpora has increased over the past two decades leading to the development of new corpora and the discovery of new facets of spoken language. These types of corpora represent the most comprehensive data source about the language of ordinary speakers. Such corpora are based on spontaneous, unscripted speech defined by a variety of styles, registers and dialects.
The aim of this paper is to present the Croatian Adult Spoken Language Corpus (HrAL), its structure and its possible applications in different linguistic subfields. HrAL was built by sampling spontaneous conversations among 617 speakers from all Croatian counties, and it comprises more than 250,000 tokens and more than 100,000 types. Data were collected during three time slots: from 2010 to 2012, from 2014 to 2015 and during 2016.
HrAL is today available within TalkBank, a large database of spoken-language corpora covering different languages (https://talkbank.org), in the Conversational Analyses corpora within the subsection titled Conversational Banks. Data were transcribed, coded and segmented using the transcription format Codes for Human Analysis of Transcripts (CHAT) and the Computerised Language Analysis (CLAN) suite of programmes within the TalkBank toolkit. Speech streams were segmented into communication units (C-units) based on syntactic criteria. Most transcripts were linked to their source audios. The TalkBank is public free, i.e. all data stored in it can be shared by the wider community in accordance with the basic rules of the TalkBank.
HrAL provides information about spoken grammar and lexicon, discourse skills, error production and productivity in general. It may be useful for sociolinguistic research and studies of synchronic language changes in Croatian.Zanimanje za korpuse govornog jezika posljednja dva desetljeÄa raste, pri Äemu nastaju i razvijaju se novi istovrsni korpusi koji omoguÄuju uvid u nove Äinjenice o govornom jeziku. Ova vrsta korpusa predstavlja najiscrpniji izvor podataka o jeziku prosjeÄnoga govornika. Ti se korpusi temelje na spontanom i nestrukturiranom govorenju koje je odreÄeno razliÄitim stilovima, registrima i dijalektima.
Cilj je ovog rada predstaviti Hrvatski korpus govornog jezika odraslih (HrAL), njegovu strukturu i moguÄu primjenu u razliÄitim lingvistiÄkim granama. HrAL je oblikovan uzorkovanjem spontane konverzacije izmeÄu 617 govornika iz svih hrvatskih županija i sadrži viÅ”e od 250.000 pojavnica i viÅ”e od 100.000 razliÄnica. Podatci su prikupljani u tri vremenska razdoblja: od 2010. do 2011., od 2014. do 2015. te tijekom 2016. godine.
HrAL je danas dostupan u TalkBank-u, bazi korpusa govornih jezika prikupljenih u razliÄitim jezicima (https://talkbank.org), i to u pododjeljku Conversational analyses corpora unutar Conversational Bank. Podatci su transkribirani, kodirani i segmentirani rabeÄi transkripcijske forĀ¬maĀ¬te Codes for Human Analysis of Transcripts (CHAT) i Computerised Language Analysis (CLAN), iz niza programa TalkBank-a. Govorni nizovi segmentirani su na komunikacijske jedinice (C-jedinice) temeljene na sintaktiÄkom kriteriju. VeÄina je transkripata povezana sa svojim audiozapisom. TalkBank je javno dostupan, odnosno svi podatci pohranjeni u njemu mogu biti slobodno upotrijebĀ¬ljeĀ¬ni prema osnovnim pravilima TalkBank-a.
HrAL daje informacije o gramatici i leksikonu govornog jezika, diskursnim vjeÅ”tinama, proizve-denim pogreÅ”kama i produktivnosti opÄenito. Koristan je za sociolingvistiÄka istraživanja kao i za istraživanja sinkronijskih jeziÄnih promjena u hrvatskom
Projekt "Interdisciplinarni pristup u razvoju jeziÄno-kognitivnog modela disleksije kod odraslih"
Obavijest po zavrÅ”etku projekta (cilj projekta, ostvareni ishodi i opÄi doprinos projekta
PredoÄivost i subjektivna uÄestalost 500 procijenjenih rijeÄi u Hrvatskoj leksiÄkoj bazi
Properties such as word class, length, phonological and morphological complexity, concreteness, frequency, age of acquisition, and imageability have to be controlled in research
and clinical practice, since they strongly affect the speed and accuracy of language processing by monolinguals and bilinguals as well as by speakers with language disorders. The
purpose of this paper is to present the online Croatian Lexical Database (Cro. Hrvatska leksiÄka baza [HLB], http://polināhlb.erf.hr/) that contains different (psycho)linguistic word
properties, and to use the HLB to provide the first analyses about (1) the relationship between frequency and imageability for the rated 500 nouns, and (2) the influence of
ratersā age, gender and education on their judgement. The results indicate a significant positive correlation between noun frequency and imageability, but no significant influence
of the three nonālinguistic rater factors on judgements about (psycho)linguistic property.Pojedina obilježja rijeÄi, kao Å”to su vrsta, duljina, fonoloÅ”ka i morfoloÅ”ka složenost, konkretnost,
uÄestalost, dob usvajanja, predoÄivost itd., potrebno je kontrolirati u istraživanjima kao i u
kliniÄkoj primjeni. Naime, prethodna istraživanja govore kako navedena obilježja rijeÄi imaju
znaÄajan utjecaj na brzinu i toÄnost jeziÄne obrade kod osoba s razliÄitom jeziÄnom pozadinom
ā kod jednojeziÄnih i dvojeziÄnih govornika, govornika urednoga jeziÄnog razvoja, govornika s
jeziÄnim poremeÄajima. Svrha je ovoga rada predstaviti Hrvatsku leksiÄku bazu ā HLB (engl.
Croatian Lexical Database) ā dostupnu na internetskoj poveznici http://polināhlb.erf.hr/, a koja
sadržava (psiho)lingvistiÄka obilježja rijeÄi. TakoÄer, cilj je i dati prve podatke 1) o odnosu
uÄestalosti i predoÄivosti na 500 procijenjenih rijeÄi te 2) o utjecaju nelingvistiÄkih Äimbenika
kao Å”to su dob, spol i razina obrazovanja ispitanika na njihovu procjenu. Rezultati upuÄuju na
znaÄajnu pozitivnu korelaciju izmeÄu uÄestalosti i predoÄivosti imenica, ali ne i na znaÄajan
utjecaj triju ispitanih nelingvistiÄkih Äimbenika ispitanika na procjenu tih obilježj
OznaÄavanje likova u djeÄjem pripovjednom diskursu
Pripovijedanje se u znanstvenoistraživaÄkom i struÄnom logopedskom radu smatra dovoljno prirodnom i neposrednom alatkom jeziÄne procjene, kojom se može vjerodostojno prikazati govornikova uporaba jezika na razini iznad reÄenice. Prikladno oznaÄavanje i održavanje likova u priÄi, jedno je od naÄela kojim dijete treba ovladati kako bi se oblikovanim diskursom osigurala uÄinkovita komunikacija sa sluÅ”ateljstvom. U skladu s tim, cilj je ovog rada ispitati oznaÄavanje likova u priÄama potaknutim slikovnim materijalom iz hrvatske verzije Multilingual Assessment Instrument for Narratives (MAIN-a). U ispitivanju je sudjelovalo 23 djece predÅ”kolske i 23 djece rane Å”kolske dobi te 23 odraslih ispitanika, koji su trebali na osnovi slikovnih predložaka ispriÄati priÄu. Ispitivanje pokazuje da se djeca razlikuju od odraslih naÄinom ponovnog uvoÄenja likova s obzirom na sve tri promatrane vrste anafore - imensku, zamjeniÄku i nultu. U održavanju likova mlaÄa se djeca razlikuju od odraslih samo uporabom zamjeniÄke, ali se obje skupine djece razlikuju od odraslih i uporabom nulte anafore. Djeca predÅ”kolske dobi najviÅ”e odstupaju od toÄnog oznaÄavanja likova u svojim priÄama. Ovo ispitivanje upuÄuje na dobne jeziÄne osobitosti i razvojne promjene u oznaÄavanju likova
JeziÄna i govorna obilježja djeÄjega pripovjednog diskursa: analiza na mikrostrukturnoj razini
AnalizirajuÄi pripovijedanje na mikrostrukturnoj razini, moguÄe je prikupiti podatke o onim jeziÄnim elementima pomoÄu kojih se postiže koherentni diskurs. U skladu s tim, prikupljeni pripovjedni uzorci djece u dobi od Å”est i deset godina u ovom su radu promatrani u odnosu na
Äetiri jeziÄne i govorne mjere: sintaktiÄku složenost, gramatiÄku toÄnost, verbalnu proizvodnju i govornu teÄnost. Provedena neparametrijska statistiÄka analiza upuÄuje na znaÄajnu razliku samo na varijabli gramatiÄke toÄnosti. S obzirom na tako dobivene podatke, pretpostavku
ovoga rada ā da Äe djeca u dobi od deset godina brže i teÄnije pripovijedati dulje priÄe temeljeÄi ih na složenim sintaktiÄkim strukturama te pri tome imati manje gramatiÄkih odstupanja u
odnosu na djecu u dobi od Å”est godina ā moguÄe je prihvatiti samo u dijelu koji se odnosi na manji broj gramatiÄkih odstupanja
OznaÄivanje uzroÄnosti u djeÄjem usmenom i pismenom prepriÄavanju
One of the main prerequisites for understanding and producing coherent oral discourse or written text is successful understanding and production of causal relations. During both production, children have at their disposal a wide range of linguistic modes to mark it, some of which are more explicit and others more implicit.
In this study, retelling was used as a method to elicit narratives that served as a tool for analysing causal relations. Retelling enables exploring the linguistic reformulation of the syntactic structures of a previously stored story and the analysis of the overlap between the language content which child is exposed to (language input) and the language that child produces (language output). Two groups of children, aged 10 (N = 23) and 12 (N = 30), were exposed to the story at two time points; in the first they had to retell it orally and in the second they had to write it.
The conducted analyses showed that 12-years old children produced in total more causal relations than 10-year-old in written modality only. This difference is explained by the greater writing competence of 12-year-old children in the production of more complex syntactic structures. Furthermore, both groups of children in both modalities dominantly used the same causal markers that are primarily grammatical. All these findings point to the childrenās ability to reformulate causal relations regardless of the language content to which they were previously exposed.Jedan od glavnih preduvjeta za razumijevanje i oblikovanje koherentnoga usmenoga ili pisanoga diskursa jest uspjeÅ”no razumijevanje i stvaranje uzroÄno-posljediÄnih odnosa. Tijekom obiju proizvodnja djeca imaju na raspolaganju Å”irok raspon jeziÄnih sredstava za obilježavanje uzroÄnosti, od eksplicitnijih do implicitnijih.
U ovom je istraživanju upotrijebljeno prepriÄavanje kao metoda za poticanje stvaranja priÄa na temelju kojih je raspodjelom u pet markerskih tipova analizirano izražavanje uzroÄno-posljediÄnih odnosa. PrepriÄavanje omoguÄuje istraživanje reformulacije sintaktiÄkih struktura prethodno pohranjene priÄe i analizu preklapanja izmeÄu jeziÄnoga sadržaja kojemu je dijete izloženo (jeziÄni unos) i jezika koji dijete proizvodi (jeziÄni izlaz). Dvije skupine djece, u dobi od 10 (N=23) i 12 (N=30), bile su izložene priÄi u dvjema vremenskim toÄkama; u prvoj su je morali prepriÄati usmeno, a u drugoj pismeno.
Provedene analize pokazale su da su 12-godiÅ”njaci proizveli ukupno viÅ”e uzroÄno-posljediÄnih veza od 10-godiÅ”njaka, ali samo u pisanom obliku. Ta se razlika objaÅ”njava veÄom pismenom kompetencijom 12-godiÅ”nje djece u proizvodnji složenih sintaktiÄkih struktura. Nadalje, obje skupine djece služile su se u obama modalitetima dominantno istim uzroÄnim markerima koji su u prvom redu gramatiÄki. Rezultati upuÄuju na djeÄju sposobnost reformuliranja uzroÄnih odnosa neovisno o jeziÄnom sadržaju kojemu su prethodno bila izložena
CroDA: Hrvatski diskursni korpus govornika s afazijom
The paper describes data collection and transcription to develop the Croatian discourse corpus of speakers with aphasia (CroDA), developed within the framework of the project Adult Language Processing (HRZZ 2421-UIP-11-2013) and available from 2017 as part of the AphasiaBank database of multimedia interactions for studying communication among speakers with aphasia. In accordance with the AphasiaBank Protocol, the following discourse tasks were sampled: personal narrative, picture description, story narrative and procedura discourse. Recorded speech was transcribed according to the Codes for Human Analysis of Transcripts (CHAT). CroDA, as the first discourse corpus of speakers with aphasia in Croatian, may provide new insights into specific linguistic features of discourse produced by speakers with aphasia and serve as a useful resource for quantitative and qualitative analysis.Rad opisuje postupak prikupljanja podataka i transkripciju upotrijebljenu u razvoju Hrvatskog diskursnog korpusa govornika s afazijom razvijenog u sklopu projekta Adult Language Processing (HRZZ-2421-UIP-11-2013) i dostupnog od 2017. kao dio AphasiaBank - baze multimedijalne interakcije za prouÄavanje komunikacije meÄu govornicima s afazijom. U skladu s protokolom AphasiaBanka uzorkovani su diskursi na temelju Äetiriju zadataka: pripovijedanja osobne priÄe, opisa slike, prepriÄavanja priÄe i proceduralnog diskursa. Snimljeni govorni uzorci transkribirani su u skladu s Codes for Human Analysis of Transcripts (CHAT). CroDA, kao prvi diskursni korpus govornika s afazijom u hrvatskom može dati nove uvide u specifiÄna jeziÄna obilježja diskursne proizvodnje govornika s afazijom i poslužiti kao korisni izvor za kvantitativne i kvalitativne analize
Comprehension of syntactic structures in adulthood ā data from the TROG-2:HR test
Starenje je složen proces praÄen brojnim promjenama ā kao Å”to su senzoriÄke teÅ”koÄe, smanjeni opseg radnog pamÄenja, usporenje perceptivnih i kognitivnih sposobnosti te promjene u jeziÄnoj obradi. Kako je sintaktiÄka obrada odraslih osoba nedovoljno istražena tema u hrvatskom jeziku, glavni je cilj ovoga rada bio ispitati razumijevanje sintaktiÄkih struktura u odrasloj dobi. U istraživanju je primijenjen Test razumijevanja gramatike (TROG-2:HR; Bishop, KuvaÄ KraljeviÄ i sur., 2014). Radom se željela provjeriti povezanost izmeÄu dobi i razumijevanja pojedinih sintaktiÄkih struktura. TakoÄer, željele su se utvrditi i razlike u razumijevanju istih struktura izmeÄu triju skupina odraslih ispitanika, uz pretpostavku da Äe se razlike oÄitovati ponajprije na složenim sintaktiÄkim strukturama, u korist mlaÄe skupine. MlaÄu skupinu Äinilo je 69 ispitanika (18 do 39 godina), srednju 58 (40 do 64 godine), a stariju njih 32 (65 do 87 godina).
Rezultati upuÄuju na povezanost izmeÄu dobi i Äak 11 sintaktiÄkih struktura, od toga su neke i jednostavne, Å”to je suprotno od pretpostavljenog. To znaÄi da nije samo uspjeÅ”nost u razumijevanju složenih struktura podložna Äimbeniku dobi. TakoÄer, utvrÄene su i meÄugrupne razlike u razumijevanju triju složenih i jedne jednostavne strukture, ali samo izmeÄu mlaÄe i starije te srednje i starije skupine. Dobivene su spoznaje u skladu s aktualnim istraživanjima, koja idu u prilog tezi da se razumijevanje sintaktiÄkih struktura smanjuje s dobi.Ageing is a complex process characterised by numerous changes like sensory deficits, reduced working memory capacity, slowing of general perceptive and cognitive abilities and changes in language processing. As syntactic processing in adulthood is an understudied field in Croatian language, the main goal of this paper was to examine the comprehension of syntactic structures in adult age. For the purpose of this study TROG-2:HR Test for the reception of grammar (TROG-2:HR; Bishop, KuvaÄ KraljeviÄ et al., 2014) has been used. The research aimed at inspecting the correlation between age and comprehension of different syntactic structures. Moreover, the goal was to observe the differences between three groups of adult participants, with the assumption that the differences will be manifested for complex structures only, with youngest participants outperforming the rest. There were 69 people in the younger group of participants (aged 18 to 39), 58 in the middle group (aged 40 to 64), and 32 in the older group (aged 65 to 87).
The results indicate there is a significant correlation between age and 11 syntactic structures, some of which are also simple, which is contradictory to what was initially expected. This means that not only complex structures are susceptible to change with age. Also, between-group differences were observed in the comprehension of three complex and one simple structure, but only between younger and older and middle and older group.
Overall findings are in line with prevailing studies which support the account that the ability of understanding complex syntactic structures declines with age
Croatian Corpus of NonāProfessional Written Language ā Typical speakers and speakers with language disorders
Corpora, as annotated archives of human communication, are objective, reliable resources for language analysis. Here we present the corpus of non-professional written Croatian, based on 1-year sampling of writings by typical speakers and speakers with language disorders. This corpus provides a unique resource because it samples language used by non-professionals, in contrast to corpora based on texts by professional writers (such as journalists, scholars or novelists) sampled over more than a century. In addition, our corpus contains written language from typical and impaired speakers sampled under identical conditions, allowing detailed analyses of language use. This paper describes the language tasks (essay, story
generation, non-formal and formal letter and dictation) used to elicit text production, and procedures for sampling and annotation used to generate the corpus. Its usefulness is illustrated through language productivity analyses of transcripts of different genres produced by writers of different age and language status. This corpus may prove useful for the analysis of writing skills in typical and language-impaired speakers of Croatian
- ā¦