30 research outputs found
Vad behöver eleverna undervisning i för att utveckla sitt skrivande? Förväntningsnormer och didaktiska beslut i svensklärares bedömningssamtal
I studien samtalar tre lärargrupper om elevers skrivande och skrivundervisning
i ämnet svenska på gymnasiet. Det teoretiska perspektiv som läggs på dessa
samtal är didaktiskt och inriktas på hur lärare formulerar och använder
bedömningsinformation om elevers skrivande för beslut om
skrivundervisningens innehåll. Resultatet visar att lärares bedömningar av
elevers skrivande behandlar fler och delvis andra aspekter av skrivförmåga än
vad deras didaktiska beslut sedan omfattar. De kvalitetsuppfattningar och
förväntningsnormer som lärarna uttrycker i sina bedömningar av elevers
skrivande inriktas huvudsakligen på texters kommunikativa kvaliteter, den
stilistiska utformningen och textuppbyggnaden, följt av ämnesinnehåll och
källanvändning. De didaktiska beslut som fattas utifrån bedömningen av elevers
texter inriktas däremot i stort sett enbart på att eleverna behöver
skrivundervisning i att disponera text och att använda källor. Detta gör att
överensstämmelsen är låg mellan lärarnas beslut om skrivundervisningens
inriktning och deras förväntningar på vad eleverna ska kunna. De didaktiska
besluten omfattar i begränsad utsträckning den bedömningsinformation som
lärarna själva har formulera
The Long-Term Effects of the COVID-19 Pandemic on Children’s Writing : a Follow-up Replication Study
The COVID-19 pandemic and the move by governments worldwide to cancel in-class instruction and move to emergency remote instruction in March and April of 2020 created an unprecedented disruption in children’s education. As the COVID-19 pandemic took form and continued to impact education in the following 2020/2021 academic year, multiple concerns were raised about possible negative effects on students’ learning. The current longitudinal replication study examined this proposition for second-grade students in Norway. In a previous investigation (Skar et al. Journal of Educational Psychology 114:1553–1566, 2022), we found that scores for quality of writing, handwriting fluency, and attitude toward writing of first-grade children tested immediately after emergency remote instruction ended in the Spring of 2020 (During COVID-19 cohort) were lower than the scores of first-grade students from the same schools tested a year earlier before the start of the pandemic (Before COVID-19 cohort). In the present study, we compared the scores for the During COVID-19 cohort (333 girls, 308 boys) on these same writing measures 1 year later at the end of second grade to a During COVID-19 cohort of second-graders (888 girls, 780 boys) from the same schools tested 2 years earlier before the start of the pandemic. The initial negative impact of the COVID-19 pandemic on first-grade students’ writing observed by Skar et al. (Journal of Educational Psychology 114:1553–1566, 2022) was no longer evident 1 year later at the end of second grade in the current study
Introducing teachers to new semiotic tools for writing instruction and writing assessment : consequences for students’ writing proficiency
Author´s accepted manuscript (postprint).This is an Accepted Manuscript of an article published by Taylor & Francis in Assessment in Education: Principles, Policy & Practice on 28/05/2017, available online: http://www.tandfonline.com/10.1080/0969594X.2017.1330251.acceptedVersio
Kunnskapsgrunnlag om standpunktvurdering
Denne rapporten svarer på tre forskningsspørsmål: . Hvilken forskningsbasert kunnskap finnes om læreres og skolelederes praksis med standpunktvurdering i Norden? . Hvilken forskningsbasert kunnskap finnes om kvaliteten på læreres standpunktvurdering og skolelederes bruk av standpunktvurdering i Norden? . Hvilke eksempler på tiltak for å øke kvaliteten til standpunktvurdering finner vi i et utvalg land det er naturlig å sammenligne seg med? Rapporten gir en metodisk oversikt over hvilke eksklusjons- og inklusjonskriterier for litteratursøk som kunnskapsoppsummeringen bygger på, samt koding og analyser av litteraturen. Sammenlagt bygger denne kunnskapsoversikten på undersøkelser og i alt har lærere, elever og rektorer deltatt i disse undersøkelsene. Videre har henholdsvis dokumenter og karakterer/prøveresultater blitt analysert. I de undersøkelsene som inngår i oversikten, fremkommer det at lærere synes å ta standpunktvurdering på stort alvor og at standpunkt, ifølge selvrapporteringen, bærer preg av systematikk. Videre har undersøkelser vist at lærergitte karakterer, slik som standpunkt, bedre predikerer senere skolefremgang enn resultater fra enkeltprøver. Samtidig viser denne kunnskapsoversikten at vi fremdeles har lite kunnskap om hva de ulike aktørene gjør i praksis. De fleste studiene har heller undersøkt meninger, holdninger og opplevelser til elever og lærere. En viktig konklusjon er dermed at vi har lite forskningsbasert kunnskap om læreres og skolelederes praksis og om kvaliteten på læreres standpunktvurdering
Teachers as raters: Investigation of a long term writing assessment program
In 2010, the Norwegian Writing Centre (NWC) was commissioned by the Norwegian Directorate for Education and Training to develop the National Sample-Based Writing Test (NSBWT), which was to be administered annually to a national representative sample of students in primary and lower secondary school (NSBWT-5 for school year 5 and NSBWT-8 for school year 8). The NWC was also commissioned to set up a national panel of raters (NPR), consisting of teachers, with the purpose of 1) establishing a strong interpretive community and 2) having in place a panel that would reliably rate the NSBWT. The first reliability estimates from the autumn of 2010 indicated large variation. However, it was the belief of the NWC that an interpretive community would slowly evolve through rater training over a long period of time. The present study utilized multiple data sources to explore this assumption by investigating potential variation among a sub-sample of NPR members. The data consisted of one quantitative dataset of ratings and one qualitative dataset based on semi-structured interviews and live ratings. The quantitative investigation showed large variation among the raters, as did the investigation using qualitative data. The results are discussed in depth
“Digging for Gold” or “Sticking to the Criteria”: Teachers’ Rationales When Serving as Professional Raters
This paper reports findings from a project called “The National Panel of Raters” (NPR) that took place within a writing test programme in Norway (2010–2016). A recent research project found individual differences between the raters in the NPR. This paper reports results from an explorative follow up-study where 63 NPR members were surveyed with 23 items that were dilemma-like in the sense that deviating from the NPR rules would follow another—but socially acceptable—rationale. Four NPR members participated in a follow-up interview in which they motivated why they had agreed or disagreed with certain items. The results indicate two distinctly different stances toward rating work, with one stance threatening the validity of the scoring process
Recommended from our members
Conditional Standard Error of Measurement: Classical Test Theory, Generalizability Theory and Many-Facet Rasch Measurement with Applications to Writing Assessment
Writing assessments often consist of students responding to multiple prompts, which are judged by more than one rater. To establish the reliability of these assessments, there exist different methods to disentangle variation due to prompts and raters, including classical test theory, Many Facet Rasch Measurement (MFRM), and Generalizability Theory (G-Theory). Each of these methods defines a standard error of measurement (SEM), which is a quantity that summarizes the overall variability of student scores. However, less attention has been given to conditional SEMs (CSEM), which expresses the variability for scores of individual students. This tutorial summarizes how to obtain CSEMs for each of the three methods, illustrates the concepts on real writing assessment data, and provides computational resources for CSEMs including an example of a specification file for the FACETS program for MFRM and R code to compute CSEMs for G-theory
Elevers skrivförmåga och texters kvantitativa egenskaper
I denne tekniske rapporten, «Elevers skrivförmåga och texters kvantitativa egenskaper», har Gustaf B. Skar (Skrivesenteret/NTNU) og Kjell Lars Berge (Skrivesenteret/UiO) gjennomført kvantitative analyser av elevtekster for å så korrelere disse mot tekstenes karakterer. Til grunn for analysene ligger 50 elevtekster skrevet av 25 elever som svar på to oppgaver, en «utforskende» og en «forestillende». Hver tekst er vurdert av åtte vurderere. Funnene indikerer høyt samsvar mellom karakter og tekstlengde og lange ord på de sakpregede (utforskende) tekstene og høyt samsvar mellom karakter og ordvariasjon på forestille seg-tekstene. Korrelasjonsanalysene viser også at elevene ikke skriver like langt i de to oppgavene de besvarer, men at det er et høyt samsvar i ordvariasjon i de to oppgavene. I rapporten blir resultatene diskuter
Sensorreliabilitet på skriftlig eksamen i videregående opplæring
Denne rapporten presenterer en analyse av sensorreliabilitet ut ifra de foreløpige karakterene på skriftlig eksamen i videregående opplæring. Analysene er basert på karakterforslagene fra de to sensorene som foretok ekstern sensurering. Analysene er gjort med utgangspunkt i vurderinger av over 700 000 elevbesvarelser fra årene 2015–2019. Den endelige karakteren ble ikke inkludert i analysene. Dette er det beste estimatet vi kan få på sensorreliabilitet, siden det per i dag ikke er mulig å gjøre denne typen analyser på endelige eksamenskarakterer. Analysen brukte klassiske metoder som beregninger av kappa, vektet kappa og intraklasse-koeffisienter for å evaluere sensorreliabiliteten. Resultatene viser at vurderingen, slik den kommer til uttrykk i karakterforslagene, i noen fag preges av svært god sensorreliabilitet. I andre fag er denne reliabiliteten så lav at vi ikke kan utelukke at eksamenskarakteren ikke bare gjenspeiler den kompetansen kandidatene har, men også vel så mye hvilke sensorer som har vurdert besvarelsen. Det er altså store forskjeller mellom fagene, men også forskjeller i hvor mye karakterene varierer innenfor hvert fag. I tillegg ble det foretatt kasusstudier der det ble gjort MFRM-analyser av fagene, basert på utvalg der kandidater og sensorer er koplet til hverandre. Dette er en eksplorativ analyse, som må forstås som en tidlig inngang som grunnlag for videre studier. MFRM-analysen viste at eksamen generelt sett var bedre på å skille mellom sensorers strenghet enn kandidaters kompetanse1 . Videre kunne vi i analysen av delutvalgene for MFRM-analysen notere at det ikke fantes statistisk grunnlag for å skille mellom seks nivåer av kompetanse. I gjennomsnitt klarte eksamen å utskille tre nivåer av kompetanse presist nok, ifølge MFRM analysen, men her er det store forskjeller mellom fagene. En generell konklusjon fra disse analysene er at det er store variasjoner i sensorreliabilitet i norske eksamener, basert på analyser av foreløpige karakterer. Disse variasjonene har antakeligvis ulike årsaker i forskjellige fag. Dette må derfor utforskes nærmere for hvert fag, slik at passende tiltak kan iverksettes