55 research outputs found

    HRVATSKI KORPUS GOVORNOG JEZIKA (HrAL)

    Get PDF
    Interest in spoken-language corpora has increased over the past two decades leading to the development of new corpora and the discovery of new facets of spoken language. These types of corpora represent the most comprehensive data source about the language of ordinary speakers. Such corpora are based on spontaneous, unscripted speech defined by a variety of styles, registers and dialects. The aim of this paper is to present the Croatian Adult Spoken Language Corpus (HrAL), its structure and its possible applications in different linguistic subfields. HrAL was built by sampling spontaneous conversations among 617 speakers from all Croatian counties, and it comprises more than 250,000 tokens and more than 100,000 types. Data were collected during three time slots: from 2010 to 2012, from 2014 to 2015 and during 2016. HrAL is today available within TalkBank, a large database of spoken-language corpora covering different languages (https://talkbank.org), in the Conversational Analyses corpora within the subsection titled Conversational Banks. Data were transcribed, coded and segmented using the transcription format Codes for Human Analysis of Transcripts (CHAT) and the Computerised Language Analysis (CLAN) suite of programmes within the TalkBank toolkit. Speech streams were segmented into communication units (C-units) based on syntactic criteria. Most transcripts were linked to their source audios. The TalkBank is public free, i.e. all data stored in it can be shared by the wider community in accordance with the basic rules of the TalkBank. HrAL provides information about spoken grammar and lexicon, discourse skills, error production and productivity in general. It may be useful for sociolinguistic research and studies of synchronic language changes in Croatian.Zanimanje za korpuse govornog jezika posljednja dva desetljeća raste, pri čemu nastaju i razvijaju se novi istovrsni korpusi koji omogućuju uvid u nove činjenice o govornom jeziku. Ova vrsta korpusa predstavlja najiscrpniji izvor podataka o jeziku prosječnoga govornika. Ti se korpusi temelje na spontanom i nestrukturiranom govorenju koje je određeno različitim stilovima, registrima i dijalektima. Cilj je ovog rada predstaviti Hrvatski korpus govornog jezika odraslih (HrAL), njegovu strukturu i moguću primjenu u različitim lingvističkim granama. HrAL je oblikovan uzorkovanjem spontane konverzacije između 617 govornika iz svih hrvatskih županija i sadrži viÅ”e od 250.000 pojavnica i viÅ”e od 100.000 različnica. Podatci su prikupljani u tri vremenska razdoblja: od 2010. do 2011., od 2014. do 2015. te tijekom 2016. godine. HrAL je danas dostupan u TalkBank-u, bazi korpusa govornih jezika prikupljenih u različitim jezicima (https://talkbank.org), i to u pododjeljku Conversational analyses corpora unutar Conversational Bank. Podatci su transkribirani, kodirani i segmentirani rabeći transkripcijske forĀ¬maĀ¬te Codes for Human Analysis of Transcripts (CHAT) i Computerised Language Analysis (CLAN), iz niza programa TalkBank-a. Govorni nizovi segmentirani su na komunikacijske jedinice (C-jedinice) temeljene na sintaktičkom kriteriju. Većina je transkripata povezana sa svojim audiozapisom. TalkBank je javno dostupan, odnosno svi podatci pohranjeni u njemu mogu biti slobodno upotrijebĀ¬ljeĀ¬ni prema osnovnim pravilima TalkBank-a. HrAL daje informacije o gramatici i leksikonu govornog jezika, diskursnim vjeÅ”tinama, proizve-denim pogreÅ”kama i produktivnosti općenito. Koristan je za sociolingvistička istraživanja kao i za istraživanja sinkronijskih jezičnih promjena u hrvatskom

    Projekt "Interdisciplinarni pristup u razvoju jezično-kognitivnog modela disleksije kod odraslih"

    Get PDF
    Obavijest po zavrÅ”etku projekta (cilj projekta, ostvareni ishodi i opći doprinos projekta

    Predočivost i subjektivna učestalost 500 procijenjenih riječi u Hrvatskoj leksičkoj bazi

    Get PDF
    Properties such as word class, length, phonological and morphological complexity, concreteness, frequency, age of acquisition, and imageability have to be controlled in research and clinical practice, since they strongly affect the speed and accuracy of language processing by monolinguals and bilinguals as well as by speakers with language disorders. The purpose of this paper is to present the online Croatian Lexical Database (Cro. Hrvatska leksička baza [HLB], http://polinā€“hlb.erf.hr/) that contains different (psycho)linguistic word properties, and to use the HLB to provide the first analyses about (1) the relationship between frequency and imageability for the rated 500 nouns, and (2) the influence of ratersā€™ age, gender and education on their judgement. The results indicate a significant positive correlation between noun frequency and imageability, but no significant influence of the three nonā€“linguistic rater factors on judgements about (psycho)linguistic property.Pojedina obilježja riječi, kao Å”to su vrsta, duljina, fonoloÅ”ka i morfoloÅ”ka složenost, konkretnost, učestalost, dob usvajanja, predočivost itd., potrebno je kontrolirati u istraživanjima kao i u kliničkoj primjeni. Naime, prethodna istraživanja govore kako navedena obilježja riječi imaju značajan utjecaj na brzinu i točnost jezične obrade kod osoba s različitom jezičnom pozadinom ā€“ kod jednojezičnih i dvojezičnih govornika, govornika urednoga jezičnog razvoja, govornika s jezičnim poremećajima. Svrha je ovoga rada predstaviti Hrvatsku leksičku bazu ā€“ HLB (engl. Croatian Lexical Database) ā€“ dostupnu na internetskoj poveznici http://polinā€“hlb.erf.hr/, a koja sadržava (psiho)lingvistička obilježja riječi. Također, cilj je i dati prve podatke 1) o odnosu učestalosti i predočivosti na 500 procijenjenih riječi te 2) o utjecaju nelingvističkih čimbenika kao Å”to su dob, spol i razina obrazovanja ispitanika na njihovu procjenu. Rezultati upućuju na značajnu pozitivnu korelaciju između učestalosti i predočivosti imenica, ali ne i na značajan utjecaj triju ispitanih nelingvističkih čimbenika ispitanika na procjenu tih obilježj

    Označavanje likova u dječjem pripovjednom diskursu

    Get PDF
    Pripovijedanje se u znanstvenoistraživačkom i stručnom logopedskom radu smatra dovoljno prirodnom i neposrednom alatkom jezične procjene, kojom se može vjerodostojno prikazati govornikova uporaba jezika na razini iznad rečenice. Prikladno označavanje i održavanje likova u priči, jedno je od načela kojim dijete treba ovladati kako bi se oblikovanim diskursom osigurala učinkovita komunikacija sa sluÅ”ateljstvom. U skladu s tim, cilj je ovog rada ispitati označavanje likova u pričama potaknutim slikovnim materijalom iz hrvatske verzije Multilingual Assessment Instrument for Narratives (MAIN-a). U ispitivanju je sudjelovalo 23 djece predÅ”kolske i 23 djece rane Å”kolske dobi te 23 odraslih ispitanika, koji su trebali na osnovi slikovnih predložaka ispričati priču. Ispitivanje pokazuje da se djeca razlikuju od odraslih načinom ponovnog uvođenja likova s obzirom na sve tri promatrane vrste anafore - imensku, zamjeničku i nultu. U održavanju likova mlađa se djeca razlikuju od odraslih samo uporabom zamjeničke, ali se obje skupine djece razlikuju od odraslih i uporabom nulte anafore. Djeca predÅ”kolske dobi najviÅ”e odstupaju od točnog označavanja likova u svojim pričama. Ovo ispitivanje upućuje na dobne jezične osobitosti i razvojne promjene u označavanju likova

    Jezična i govorna obilježja dječjega pripovjednog diskursa: analiza na mikrostrukturnoj razini

    Get PDF
    Analizirajući pripovijedanje na mikrostrukturnoj razini, moguće je prikupiti podatke o onim jezičnim elementima pomoću kojih se postiže koherentni diskurs. U skladu s tim, prikupljeni pripovjedni uzorci djece u dobi od Å”est i deset godina u ovom su radu promatrani u odnosu na četiri jezične i govorne mjere: sintaktičku složenost, gramatičku točnost, verbalnu proizvodnju i govornu tečnost. Provedena neparametrijska statistička analiza upućuje na značajnu razliku samo na varijabli gramatičke točnosti. S obzirom na tako dobivene podatke, pretpostavku ovoga rada ā€“ da će djeca u dobi od deset godina brže i tečnije pripovijedati dulje priče temeljeći ih na složenim sintaktičkim strukturama te pri tome imati manje gramatičkih odstupanja u odnosu na djecu u dobi od Å”est godina ā€“ moguće je prihvatiti samo u dijelu koji se odnosi na manji broj gramatičkih odstupanja

    Označivanje uzročnosti u dječjem usmenom i pismenom prepričavanju

    Get PDF
    One of the main prerequisites for understanding and producing coherent oral discourse or written text is successful understanding and production of causal relations. During both production, children have at their disposal a wide range of linguistic modes to mark it, some of which are more explicit and others more implicit. In this study, retelling was used as a method to elicit narratives that served as a tool for analysing causal relations. Retelling enables exploring the linguistic reformulation of the syntactic structures of a previously stored story and the analysis of the overlap between the language content which child is exposed to (language input) and the language that child produces (language output). Two groups of children, aged 10 (N = 23) and 12 (N = 30), were exposed to the story at two time points; in the first they had to retell it orally and in the second they had to write it. The conducted analyses showed that 12-years old children produced in total more causal relations than 10-year-old in written modality only. This difference is explained by the greater writing competence of 12-year-old children in the production of more complex syntactic structures. Furthermore, both groups of children in both modalities dominantly used the same causal markers that are primarily grammatical. All these findings point to the childrenā€™s ability to reformulate causal relations regardless of the language content to which they were previously exposed.Jedan od glavnih preduvjeta za razumijevanje i oblikovanje koherentnoga usmenoga ili pisanoga diskursa jest uspjeÅ”no razumijevanje i stvaranje uzročno-posljedičnih odnosa. Tijekom obiju proizvodnja djeca imaju na raspolaganju Å”irok raspon jezičnih sredstava za obilježavanje uzročnosti, od eksplicitnijih do implicitnijih. U ovom je istraživanju upotrijebljeno prepričavanje kao metoda za poticanje stvaranja priča na temelju kojih je raspodjelom u pet markerskih tipova analizirano izražavanje uzročno-posljedičnih odnosa. Prepričavanje omogućuje istraživanje reformulacije sintaktičkih struktura prethodno pohranjene priče i analizu preklapanja između jezičnoga sadržaja kojemu je dijete izloženo (jezični unos) i jezika koji dijete proizvodi (jezični izlaz). Dvije skupine djece, u dobi od 10 (N=23) i 12 (N=30), bile su izložene priči u dvjema vremenskim točkama; u prvoj su je morali prepričati usmeno, a u drugoj pismeno. Provedene analize pokazale su da su 12-godiÅ”njaci proizveli ukupno viÅ”e uzročno-posljedičnih veza od 10-godiÅ”njaka, ali samo u pisanom obliku. Ta se razlika objaÅ”njava većom pismenom kompetencijom 12-godiÅ”nje djece u proizvodnji složenih sintaktičkih struktura. Nadalje, obje skupine djece služile su se u obama modalitetima dominantno istim uzročnim markerima koji su u prvom redu gramatički. Rezultati upućuju na dječju sposobnost reformuliranja uzročnih odnosa neovisno o jezičnom sadržaju kojemu su prethodno bila izložena

    CroDA: Hrvatski diskursni korpus govornika s afazijom

    Get PDF
    The paper describes data collection and transcription to develop the Croatian discourse corpus of speakers with aphasia (CroDA), developed within the framework of the project Adult Language Processing (HRZZ 2421-UIP-11-2013) and available from 2017 as part of the AphasiaBank database of multimedia interactions for studying communication among speakers with aphasia. In accordance with the AphasiaBank Protocol, the following discourse tasks were sampled: personal narrative, picture description, story narrative and procedura discourse. Recorded speech was transcribed according to the Codes for Human Analysis of Transcripts (CHAT). CroDA, as the first discourse corpus of speakers with aphasia in Croatian, may provide new insights into specific linguistic features of discourse produced by speakers with aphasia and serve as a useful resource for quantitative and qualitative analysis.Rad opisuje postupak prikupljanja podataka i transkripciju upotrijebljenu u razvoju Hrvatskog diskursnog korpusa govornika s afazijom razvijenog u sklopu projekta Adult Language Processing (HRZZ-2421-UIP-11-2013) i dostupnog od 2017. kao dio AphasiaBank - baze multimedijalne interakcije za proučavanje komunikacije među govornicima s afazijom. U skladu s protokolom AphasiaBanka uzorkovani su diskursi na temelju četiriju zadataka: pripovijedanja osobne priče, opisa slike, prepričavanja priče i proceduralnog diskursa. Snimljeni govorni uzorci transkribirani su u skladu s Codes for Human Analysis of Transcripts (CHAT). CroDA, kao prvi diskursni korpus govornika s afazijom u hrvatskom može dati nove uvide u specifična jezična obilježja diskursne proizvodnje govornika s afazijom i poslužiti kao korisni izvor za kvantitativne i kvalitativne analize

    Comprehension of syntactic structures in adulthood ā€“ data from the TROG-2:HR test

    Get PDF
    Starenje je složen proces praćen brojnim promjenama ā€“ kao Å”to su senzoričke teÅ”koće, smanjeni opseg radnog pamćenja, usporenje perceptivnih i kognitivnih sposobnosti te promjene u jezičnoj obradi. Kako je sintaktička obrada odraslih osoba nedovoljno istražena tema u hrvatskom jeziku, glavni je cilj ovoga rada bio ispitati razumijevanje sintaktičkih struktura u odrasloj dobi. U istraživanju je primijenjen Test razumijevanja gramatike (TROG-2:HR; Bishop, Kuvač Kraljević i sur., 2014). Radom se željela provjeriti povezanost između dobi i razumijevanja pojedinih sintaktičkih struktura. Također, željele su se utvrditi i razlike u razumijevanju istih struktura između triju skupina odraslih ispitanika, uz pretpostavku da će se razlike očitovati ponajprije na složenim sintaktičkim strukturama, u korist mlađe skupine. Mlađu skupinu činilo je 69 ispitanika (18 do 39 godina), srednju 58 (40 do 64 godine), a stariju njih 32 (65 do 87 godina). Rezultati upućuju na povezanost između dobi i čak 11 sintaktičkih struktura, od toga su neke i jednostavne, Å”to je suprotno od pretpostavljenog. To znači da nije samo uspjeÅ”nost u razumijevanju složenih struktura podložna čimbeniku dobi. Također, utvrđene su i međugrupne razlike u razumijevanju triju složenih i jedne jednostavne strukture, ali samo između mlađe i starije te srednje i starije skupine. Dobivene su spoznaje u skladu s aktualnim istraživanjima, koja idu u prilog tezi da se razumijevanje sintaktičkih struktura smanjuje s dobi.Ageing is a complex process characterised by numerous changes like sensory deficits, reduced working memory capacity, slowing of general perceptive and cognitive abilities and changes in language processing. As syntactic processing in adulthood is an understudied field in Croatian language, the main goal of this paper was to examine the comprehension of syntactic structures in adult age. For the purpose of this study TROG-2:HR Test for the reception of grammar (TROG-2:HR; Bishop, Kuvač Kraljević et al., 2014) has been used. The research aimed at inspecting the correlation between age and comprehension of different syntactic structures. Moreover, the goal was to observe the differences between three groups of adult participants, with the assumption that the differences will be manifested for complex structures only, with youngest participants outperforming the rest. There were 69 people in the younger group of participants (aged 18 to 39), 58 in the middle group (aged 40 to 64), and 32 in the older group (aged 65 to 87). The results indicate there is a significant correlation between age and 11 syntactic structures, some of which are also simple, which is contradictory to what was initially expected. This means that not only complex structures are susceptible to change with age. Also, between-group differences were observed in the comprehension of three complex and one simple structure, but only between younger and older and middle and older group. Overall findings are in line with prevailing studies which support the account that the ability of understanding complex syntactic structures declines with age

    Croatian Corpus of Nonā€Professional Written Language ā€“ Typical speakers and speakers with language disorders

    Get PDF
    Corpora, as annotated archives of human communication, are objective, reliable resources for language analysis. Here we present the corpus of non-professional written Croatian, based on 1-year sampling of writings by typical speakers and speakers with language disorders. This corpus provides a unique resource because it samples language used by non-professionals, in contrast to corpora based on texts by professional writers (such as journalists, scholars or novelists) sampled over more than a century. In addition, our corpus contains written language from typical and impaired speakers sampled under identical conditions, allowing detailed analyses of language use. This paper describes the language tasks (essay, story generation, non-formal and formal letter and dictation) used to elicit text production, and procedures for sampling and annotation used to generate the corpus. Its usefulness is illustrated through language productivity analyses of transcripts of different genres produced by writers of different age and language status. This corpus may prove useful for the analysis of writing skills in typical and language-impaired speakers of Croatian
    • ā€¦
    corecore