6 research outputs found

    An Examination of the Reliability Estimates of A Scroring Rubric of A Writing Skill Examination Using The Classical Test Theory, Generalizability Theory and The Item Response Theory Models

    No full text
    Bu araştırmanın amacı, tesadüfi hatayı en aza indirmek için çalışma alanlarına göre farklılaşan ölçme kuramlarından Klasik Test, Genellenebilirlik ve Madde Tepki Kuramlarının yazılı anlatım becerisi analitik puanlama anahtarı kullanılarak elde edilen ölçümlere ilişkin güvenirlik belirlemedeki yaklaşımlarının incelenmesidir. Betimsel olarak tasarlanan bu çalışmada uygun örnekleme yöntemi ile seçilen beş farklı sınıf seviyesinde toplam 523 öğrenci tarafından yazılan hikâyeler, puanlama anahtarındaki 11 ölçüte göre ve bir Türkçe öğretmeni, beş sınıf öğretmeni, bir ölçme değerlendirme uzmanından oluşan yedi puanlayıcı tarafından puanlanmıştır. Toplanan verilerin güvenirliğinin belirlenmesi için Klasik Test Kuramı'nda SPSS 22 programında puanlayıcıların puanlamaları arasındaki ilişki için Pearson Korelasyon, puanlayıcılar arasındaki uyum için Eta korelasyon, puanlayıcıların puanlamalarındaki iç tutarlılık için Cronbach Alpha katsayılarına bakılmıştır. Genellenebilirlik Kuramı'nda Edu-G 6.1e programı kullanılarak G ve Phi katsayıları hesaplanmıştır. Bu katsayılar her sınıf seviyesinde ve öğrencilerin tamamı analiz edilerek elde edilmiştir. Madde Tepki Kuramı'nda Multilog 7.03 programı kullanılarak Samejima'nın Derecelendirilmiş Tepki modeline göre madde ve test bilgi fonksiyonları ile marjinal güvenirlik katsayıları tek boyutluluk ve yerel bağımsızlık sayıltılarını sağlayan ilk beş puanlayıcı analiz edilerek hesaplanmıştır. Elde edilen güvenirlik kestirimleri arasındaki farkın manidarlığı için ise Microsoft Excel 2010 programında Fisher Z' istatistiği hesaplanmıştır. Klasik Test Kuramı bulgularında Pearson Korelasyon katsayıları incelendiğinde ilk beş puanlayıcı arasındaki katsayılar 0,90'ın üzerinde, altı ve yedinci puanlayıcıların diğer puanlayıcılarla arasındaki korelasyonların daha düşük seviyede (0,60-0,85 arasında) olduğu; Eta korelasyon katsayıları incelendiğinde puanlayıcıların öğrencileri her sınıf seviyesine ve tüm öğrencilere göre vii puanlamada yüksek uyum gösterdikleri; Cronbach Alfa katsayılarında ise tüm sınıf seviyelerinde ve puanlayıcılarda katsayılar 0,85-0,95 arasında olup altıncı puanlayıcının puanlamalarının iç tutarlığının daha düşük olduğu (0,80-0,90 arasında) bulunmuştur. G ve Phi katsayıları incelendiğinde ise G katsayılarının 0,97'nin üzerinde Phi katsayılarının 0,95'in üzerinde olduğu görülmüştür. Genellenebilirlik Kuramı bulgularına göre, öğrenciler arasında beklenen farklılaşma ortaya çıkmış, ölçütlerin güçlük düzeyleri bir öğrenciden diğerine değişmemiş, puanlayıcılar arasındaki puanlama tutarlılığı mükemmel seviyede (toplam hata varyansını açıklama oranı 0,00) bulunmuştur. Karar çalışmaları katsayıları yükseltmek amacı yerine 0,80'in üzerinde kalacak şekilde ölçüt ve puanlayıcı sayıları düşürülerek gerçekleştirilmiştir. Beş ölçüt ve iki puanlayıcının olduğu karar çalışmalarında en düşük katsayılar 3. sınıflarda G katsayısı 0,83 ve Phi katsayısı 0,79 olarak elde edilmiştir. Madde Tepki kuramı bulgularına göre kestirilen a parametrelerinin (1,24 ile 6,44 arasında) yüksek düzeyde ayırt ediciliğe sahip olduğu görülmüştür. 1 ve 3. puanlayıcılara göre en fazla ayırt edici olan madde 8. ölçüt iken 2, 4 ve 5. puanlayıcılara göre en fazla ayırt edici olan 9. ölçüttür. Ayırt ediciliği en az olan madde ise tüm puanlayıcılara göre 11. ölçüt olarak bulunmuştur. b parametrelerinde ise tüm puanlayıcılar için bireylerin 0,50 ihtimalle 0 kategorisinden daha yüksek puan almaları için en düşük -2,35 yetenek düzeyinde, 1 kategorisinden daha yüksek puan almaları için en düşük -0,80 yetenek düzeyinde, 2 kategorisinden daha yüksek puan almaları için en düşük 0,41 yetenek düzeyinde bulunmaları gerekmektedir. yetenek düzeylerinde ise 1. puanlayıcıya göre 3 ve 4. maddeleri; 2, 3, 4 ve 5. puanlayıcılara göre 4. maddeyi gruba göre en düşük yetenek düzeyindeki bireylerin, tüm puanlayıcılara göre 11. maddeyi gruba göre en yüksek yetenek düzeyine sahip bireylerin doğru yanıtlaması beklenmektedir. Test bilgi fonksiyonlarında ise bilgi miktarı arttıkça standart hata azalmaktadır. -1,00 ile 1,50 arasında yeteneğe sahip olan bireyler için ölçme sonuçları daha az hata ile kestirilmiştir. Bu aralıktaki değerlerinden uzaklaşıldıkça ölçme sonuçlarının içerdiği hata miktarı da artmaktadır. Marjinal güvenirlik katsayıları incelendiğinde ise güvenirliğin oldukça yüksek (0,93 civarında) olduğu görülmüştür. Tüm güvenirlik kestirimlerinin arasındaki farkın manidarlığı için, sınıf düzeylerine ve tüm öğrencilere ait KTK'de Eta korelasyon katsayıları, Cronbach Alpha katsayılarının ortancaları ile GK'de G ve Phi katsayıları için Fisher Z' testi sonuçlarında ile G, ile Phi, G ve Eta, Phi ve Eta katsayıları arasında 0,05 düzeyinde anlamlı bir fark bulunmuştur. Beş puanlayıcıya ait KTK'deki Cronbach Alpha katsayıları ile MTK'deki marjinal güvenirlik katsayıları arasında 0,05 anlamlılık düzeyinde anlamlı bir fark olmadığı tespit edilmiştir. Sonuç olarak hata varyansı kaynaklarını açıklamada ve güvenirlik belirlemede Genellenebilirlik Kuramı, madde bazında hata kestirimlerinde ve yetenek düzeyi belirlemede Madde Tepki Kuramı, Klasik Test Kuramı'ndan daha ayrıntılı bilgiler ortaya koymuştur. Puanlayıcılar arası güvenirlikte ise KTK ile GK'ye göre kestirilen parametreler arasında anlamlı bir fark (p < 0,05) bulunurken; KTK ile MTK'ye göre göre kestirilen parametreler arasında anlamlı bir fark (p < 0,05) saptanmamıştır.The aim of this research is to evaluate the performance of a writing scale rubric and to compare the reliability of the resulting test scores using the Classical Test Theory, Generalizability Theory and the Item Response Theory, each taking a different approach to minimizing random errors. In this study, stories written by 523 students at five different grade levels who were selected by convenient sampling were scored by seven raters including a Turkish Language teacher, five classroom teachers, and a measurement expert using a 11-criteria scoring rubric. Pearson Correlation was calculated to find interrater correlations to determine the reliability of the collected data based on the Classical Test Theory, Eta correlation was used to determine rater reliability and finally Cronbach Alpha coefficient was used to determine the overall internal consistency using SPSS 22 program. G and Phi coefficients were calculated by using Edu-G 6.1e program for Generalizability Theory. These coefficients were computed for each grade level. As for Item Response Theory, based on Samejima's Scaled Response Model, the Multilog 7.03 program was used to estimate item parameters, test information functions and marginal reliability coefficients using ratings data of the first five raters which satisfied the assumptions of unidimensionality and local independence. Fisher Z 'statistic was calculated using the Microsoft Excel 2010 program to test the significance of the differences observed between the resulting reliability estimates. When the Pearson Correlation coefficients of the Classical Test Theory were examined, it was found that the coefficients between the first five scorers were above 0.90 and that the correlations between the sixth and seventh raters were lower (between 0.60-0.85) when compared with the other raters. Eta correlation x coefficients showed that the raters had a high level of consistency in scoring according to each grade level and the students; Cronbach's alpha coefficients of raters were between 0,85 and 0,95 within grade levels; the ratings of the sixth rater being the lowest (between 0,80 and 0,90). As for G and Phi coefficients, G coefficients were over 0.97 while the Phi coefficients were over 0.95. According to the findings of Generalizability Theory, the expected differentiation occurred among the students, the difficulty levels of the criteria were not changed from one student to the other, the scoring consistency between the raters was perfect (the explanation ratio of the total error variance was 0.00). Decision studies were carried out by reducing the number of raters and criteria in order to keep the coefficients above 0.80 instead of the increasing the coefficients. The lowest coefficients in the decision studies with five criteria and two raters were obtained in Grade 3 with a G coefficient of 0.83 and a Phi coefficient of 0.79. It was seen that the a parameters estimated from the Item Response Theory findings (between 1.24 and 6.44) had a high level of discrimination. Item 8 was the most distinctive item with respect to raters 1 and 3, while item 9 was the most distinctive according to raters 2, 4, and 5. The item with the least distinctiveness was the 11th criterion according to all the raters. For b-parameters, for all raters should be in at least -2.35 skill level to get a higher score than category 0; at least -0.80 skill level to score higher than category 1; at least 0.41 skill level to score higher than category 2. It was expected that the individuals with the lowest ability level would give the correct answers in levels to 3rd and 4th items according to the 1st rater; the 4th item according to the 2nd, 3rd, 4th and 5th raters. The individuals with the highest ability level were expected to answer item 11 correctly according to all the raters. In test information functions, the standard error decreases as the amount of information increases. For individuals who had the ability between -1.00 and 1.50, the measurement results were estimated with fewer errors. As the distance from the values in this range decreases, the error amount of the measurement results increases. The reliability was very high in terms of the marginal reliability coefficients (around 0.93). For the purpose of examining the significant difference between the reliability estimates, a significant difference was found at the level of 0,05 between the coefficients of and G, and Phi, G and Eta, Phi and Eta as a result of Fisher Z' test with G and Phi in GT and Eta correlation and Cronbach Alpha coefficients in CTT, It was determined that there was no significant difference between the Cronbach Alpha coefficients of the five scorers in the CTT and the marginal reliability coefficients in the IRT at the significance level of 0.05. As a result, while Generalizability Theory can be used to explain sources of error variance and to determine reliability, Item Response Theory and Classical Test Theory are better in terms of error estimates in the item level and determining the ability level. There was a significant difference (p <0,05) between the estimated parameters according to CTT and GT in the interrater reliability; whereas there was no significant difference (p <0,05) between the estimated parameters according to CTT and IRT

    Devlet, özel ve Uluslararası Bakalorya okullarındaki öğretmenlerin ölçme ve değerlendirme çalışmaları ve görüşleri

    No full text
    This study aimsto investigatethe opinions of teachers working at public, private, and International Baccalaureate (IB) Schools on the evaluation practices, the use of assessment tools, the frequency of documenting data, and the feedback frequencies given to both students, and parents. Aquestionnaire has been usedto collect data from 168 teachers.84of these teachers were from public schools, 30 from IB, and 54 from private schools.Percentages and frequencies were examined to describe the data, and the chi-square test was conducted for their distribution. There are two main conclusions derived. The first one is that state schools and private schools differ from IB schools in terms of exam-oriented preparation and evaluations whentraditional methods are employed. The second one is that IB schools differ from state schools and private schools in terms of documenting the data and reporting of assessment for learning improvement and process-based evaluation. In terms of teachers` opinions, the ones from the IB schools believed there was a differencein terms of having an assessment policy, collaborative planning processes with partners, and experts, taking into consideration the individual differences, and having an inspection mechanism to monitor of the processes.Bu çalışmada devlet okullarında, özel okullarda veUluslararası Bakalorya okullarında çalışan öğretmenlerin değerlendirme çalışmalarına bakış açıları ile ölçme araçlarını kullanma, elde ettikleri bilgileri kayıt altına alma ve öğrenci-velilere yaptıkları geribildirim sıklıklarının incelenmesi amaçlanmaktadır. Tarama modelindeki bu çalışmada, anket kullanılarak 84’ü devlet, 30’u IB ve 54’ü özel okulda çalışan 168 öğretmenden veri toplanmıştır. Verilerin betimlenmesi için yüzde ve frekanslar incelenmiş, dağılımları için kay-karetesti yapılmıştır. Araştırmanın bulgularında özellikle geleneksel yöntemler kullanıldığında sınav bazlı hazırlıklar-değerlendirmeler konusunda devlet okulları ve özel okullar IB okullarından farklılaşırken süreç bazlı değerlendirmelerde, sonuçları kaydetme ve raporlamada, öğrenmeyi geliştirmek için değerlendirme yapmada IB okulları diğerlerinden farklılaşmaktadır. Okulların bir değerlendirme politikasının olması, süreçleri paydaşların birlikte ve uzman desteği ile planlanması, bireysel farklılıklara göre değerlendirmenin yapılması, birdenetlememekanizması tarafından süreçlerin izlenmesi açısından yine IB okullarındaki görüşlerin diğer okullardan farklılaştığı görülmüştü

    Comparison of Kernel Equating and Kernel Local Equating in Item Response Theory Observed Score Equating

    No full text
    The present study aims to compare the Kernel equating and Kernel local equating methods in observed score equating. Functions and error estimates regarding the difference between raw and equated scores and the scores equated by Stocking-Lord and Haebara true-score equating methods in Kernel local equating and Kernel equating were examined in Item Response Theory Observed Score Equating. Therefore, 5, 10, and 15 external anchor items were used, and scores were obtained from two forms based on the 2PL model. R (version 3.5.3.) programming software was used for IRT assumptions, item parameters, calibration, and equating analyses. The results revealed that Stocking-Lord and Haebara true-score equating methods yielded similar results. Moreover, if the equating method is the same, estimation errors decreased when the number of anchor items increased. The mean scores obtained by Kernel equation 5 and 15 anchor items were lower than Kernel local equating, while means of Kernel equating of 10 anchor items were higher. As the number of items increased, estimation errors decreased, and Kernel local equating revealed the lowest errors in the medium score scale.Kernel equating can be used based on the related ability level if the individual’s ability distribution is known

    Adaptation of the computational thinking skills assessment tool (techcheck-k) in early childhood

    No full text
    In the early years, it has become essential to support the acquisition of computational thinking, which is seen as a 21st-century skill and new literacy. A valid and reliable measurement tool is needed to develop and evaluate educational practices related to these skills. TechCheck is a validated unplugged assessment of computational thinking skills for young children. (Relkin & Bers in IEEE Global Engineering Education Conference (EDUCON) in 2021 (pp. 1696–1702), 2021; Relkin et al. in Journal of Science Education and Technology 29(4):482–498, 2020). This study aims to adapt and characterize a Turkish version of TechCheck-K for children aged 5–6. Validity and reliability of the Turkish version were established through classical test theory and item response theory, as had been done for the original English language version. Based on classical test theory, the confirmatory factor analysis used A tetrachoric weighted matrix to test the instrument’s structure. The one-dimensional structure of the instrument was verified. The KR-20 reliability coefficient for the scale consisting of one dimension and 15 items was.87, which is considered an acceptable level of reliability. Rasch and 2PL models were compared with M2 statistics to determine the item and test parameters based on item response theory (IRT). The 2PL model was chosen as the best fit. Mean TechCheck scores differed based on gender, socio-economic status, past exposure to computers, and coding experience. These results indicate that the Turkish version of TechCheck-K has acceptable psychometric properties for measuring computational thinking skills in children between 5 and 6 years of age. © 2024, The Author(s), under exclusive licence to Springer Nature B.V

    Comparison of exploratory factor analysis studies in Turkish measurement tools index according to parallel analysis results

    Get PDF
    Bu araştırmanın amacı, Türkiye Ölçme Araçları Dizininde (TOAD) yer alan ölçek geliştirme veya uyarlama çalışmalarında açımlayıcı faktör analizi (AFA) ile belirlenmiş olan faktör sayılarının paralel analiz sonuçlarına göre incelenmesidir. Araştırmanın başladığı tarih itibariyle TOAD’da yer alan 4440 çalışma arasından 500’ü sistematik örnekleme yöntemiyle seçilmiş ve bu araştırmalardan 451’inin tam metnine ulaşılabilmiştir. Tam metnine ulaşılabilen çalışmalardaki örneklem büyüklüğü, madde sayısı, eksen döndürme yöntemi gibi bilgiler araştırmacılar tarafından geliştirilen bir forma göre kodlanmıştır. İncelemeler sonucunda AFA gerçekleştirilen 300 araştırma raporunda örneklem büyüklüğü, madde sayısı, faktör yükü alt sınırı, faktör sayısı, açıklanan varyans oranı gibi bilgilere yer vermeyen çalışmaların bulunduğu görülmüştür. AFA’da en sık kullanılan faktör çıkarma yönteminin temel bileşenler analizi olduğu, özdeğerin 1’den büyük olmasının ise faktör sayısına karar vermede en sık kullanılan ölçüt olduğu tespit edilmiştir. Birden çok faktörün çıkarıldığı durumlarda en sık kullanılan eksen döndürme tekniği ise varimax’tır. Paralel analiz sonuçları ile karşılaştırılabilen 67 AFA çalışmasından 52’sinde fazla, sekizinde eksik ve yedisinde doğru sayıda faktörün çıkarıldığı belirlenmiştir. Bulgular mevcut alanyazın kapsamında tartışılmış ve AFA’nın raporlaştırılmasındaki eksiklerin azaltılabilmesi amacıyla bir kontrol listesi önerilmiştir.The purpose of this study is to investigate the number of extracted factors in exploratory factor analysis (EFA) studies which takes part in Turkish Measurement Tools Index (TMTI / TOAD) according to parallel analysis results. By the date the study had begun, 4440 studies were indexed in TMTI, 500 studies were selected by systematic sampling procedure among them and the number of full texts investigated is 451. For these studies, values were coded by using a form which was developed by researchers such as sample size, number of items, rotation method. For 300 studies in which EFA was implied, some of them do not include information about sample size, number of items, minimum factor loading, number of factors, extracted variance. The most frequent extraction method is principal component analysis, and criterion for number of factors is eigenvalue greater than unity. For multifactor scales typical rotation, method is varimax. Amongst 67 EFA studies that could be compared to parallel analysis results, 52 overextraction and seven underextraction situation was detected. For seven studies, number of factors were accurate. Findings are discussed within existing literature and a checklist is recommended for the purpose of minimizing deficiencies in reporting EFA results

    The Effect of Turkish Green Crescent Society APTP Program on Students' Knowledge and Emotional Awareness about Tobacco, Alcohol, Drug, and Technology Addiction

    No full text
    This study aimed to test the effectiveness of the Addiction Prevention Training Program (APTP) of Turkey, (Turkiye Bagimlilikla Mucadele Programi) and gather the perspectives of students and stakeholders about the program. APTP is an intervention program designed and implemented by the Turkish Green Crescent Society, which aims to increase knowledge and emotional awareness about addiction among primary, secondary, and high school students. APTP consists of 4 modules: tobacco, alcohol, drug, and technology addiction, and the knowledge and emotional awareness of each of these were tested. In the first phase of this mixed-method study, 2x3 Split Plot Factorial Design was used. A total of 5451 randomly assigned students (primary=600, secondary=2496, and high school=2355) participated in the experimental and control groups. In the second phase, focused group interviews with students (n=55), parents (n=26), and branch teachers (n=18); and individual interviews with school counselors (n=3) and principals (n=3) were conducted. The opinions of the participants regarding the training were analyzed using descriptive analysis. Results of the Two-way Analysis of Variance (ANOVA) revealed that receiving APTP had a significant effect, mostly on improving the knowledge level of students about tobacco, alcohol, drug, and technology addiction. Qualitative findings supported the quantitative results that parents, teachers, school counselors, and school principals reflected the increased knowledge of students about addiction
    corecore