489 research outputs found

    Improving the Utility of Large-Scale Assessments in Canada

    Get PDF
    Principals and teachers do not use large-scale assessment results because the lack of distinct and reliable subtests prevents identifying strengths and weaknesses of students and instruction, the results arrive too late to be used, and principals and teachers need assistance to use the results to improve instruction so as to improve student learning. Therefore,it is recommended that the first assessment activity should be to clearly establish that the domain to be assessed is multidimensional. Given this, the assessment schedule should be changed so that a given subject area is assessed in non-consecutive years but the number of sittings remains the same each year. Assistance should be provided to principalsand teachers so as to increase their understanding of how to use large-scale assessment results. Three suggested assessment cycles are presented, each of which increases the reliability of subtests and provides principals and teachers with at least two years to make changes in instruction

    A Critical Analysis of the Body of Work Method for Setting Cut-Scores

    Get PDF
    The recent increase in the use of constructed-response items in educational assessment and the dissatisfaction with the nature of the decision that the judges must make using traditional standard-setting methods created a need to develop new and effective standard setting procedures for tests that include both multiple-choice and constructed-response items. The Body of Work (BoW) method is an examinee-centered method for setting cut-scores that applies a holistic approach to student work in order to estimate the cut-scores that differentiate examinees according to their level of performance in situations where both item formats are used. A detailed review of Version 1 and the recent modification, Version 2, are first presented followed by a critical evaluation of the two versions in terms of Berk’s (1986) 10 criteria for defensibility. The results reveal that the BoW method appears to be a promising method for setting cut-scores that could be used on a wider scale in Canada. However, as with other methods, the experience gained from using the BoW method in the field will probably lead to further modifications in an attempt to increase efficiency without sacrificing accuracy.La décision d’augmenter l’emploi des questions à réponse construite dans l’évaluation scolaire a provoqué de l’insatisfaction à l’égard des décisions que doivent prendre les juges qui utilisent des méthodes traditionnelles pour établir les normes. Ce mécontentement a entraîné le besoin de développer de nouvelles procédures efficaces pour établir des normes dans le cas d’examens comportant des questions à choix multiples aussi bien que des questions à réponse construite. La méthode Body of Work (BoW) est une méthode d’établissement de notes de passage qui est centrée sur le candidat et qui repose sur une approche holistique au travail de l’élève pour déterminer les notes de passage qui distinguent les candidats selon leur rendement dans des situations impliquant les deux sortes de questions. Un examen détaillé de la 1re version et de la modification récente qu’on en a faite (la 2e version) est suivi d’une évaluation critique des deux versions d’après les 10 critères de validation établis par Berk (1986). D’après les résultats, la méthode BoW pourrait bien servir dans l’établissement des notes de passage et être mieux diffusée partout au Canada. Comme c’est le cas pour toutes les autres méthodes par contre, l’expérience qu’on retire de l’emploi de la méthode BoW entraînera probablement des modifications visant à la rendre plus efficace sans toutefois en sacrifier la précision

    The Use of One-, Two-, and Three-Parameter and Nominal Item Response Scoring in Place of Number-Right Scoring in the Presence of Test-Wiseness

    Get PDF
    Ability estimates yielded by the one- (1PL), two- (2PL), and three-parameter (3PL) models and the nominal response model (NRM) were compared with the number-right (NR) scoring model using items not susceptible to test-wiseness (NTW) and items susceptible to the ID1 test-wiseness strategy. These items were contained in grade 12 diploma examinations for social studies and chemistry. The results were compared for high-, middle-, and low-ability examinees. Differences were found between pairs of ability estimates obtained when 2PL, 3PL, and NRM scores were used in place of NR scores. The differences tended to be greater for chemistry than for social studies, and with the exception of high-ability students in social studies, for the subtest containing items with absurd options than for the subtest containing nonsusceptible test-wise items. It appears at least for the two subject areas considered in the present study, that the scoring models cannot be used interchangeably to obtain estimates of examinees’ abilities, particularly when a test contains test-wise susceptible items.En nous appuyant à la fois sur des items qui ne sont pas susceptibles d’être influencés par des paramètres de discrimination et de pseudo-chance, et à des items qui le sont, nous avons comparé les estimations de niveau d’habileté découlant de modèles à un (1PL), deux (2PL) et trois (3PL) paramètres ainsi que du modèle à réponses nominales (NRM) à celles provenant du modèle basé sur le nombre de bonnes réponses (NR). Ces items étaient présents dans les examens du ministère en études sociales et en chimie pour la 12e année. Nous avons comparé les résultats des élèves de différents niveaux d’habileté (bas, moyen et élevé). Des écarts se sont manifestés entre des paires d’estimations d’habileté quand nous avons analysé des scores reposant sur les modèles 2PL, 3PL et NRM plutôt que les scores NR. De façon générale, les différences étaient plus importantes: (a) en chimie qu’en études sociales et, (b) à l’exception des élèves à capacité élevée en études sociales, dans le sous-test comprenant des réponses absurdes que dans celui avec des items qui ne sont pas susceptibles d’être influencés par des paramètres de discrimination et de pseudo-chance. Du moins pour les deux domaines à l’étude, il semblerait que les modèles de pointage ne sont pas interchangeables dans l’évaluation des capacités des élèves, surtout lorsqu’un examen contient des items susceptibles d’être influencés par des paramètres de discrimination et de pseudo-chance

    Establishing Performance Standards and Setting Cut-Scores

    Get PDF
    This article serves as an introduction to the following four articles in which four methods for establishing standards and setting cut-scores are presented and evaluated. The purposes, nature, and characteristics of performance standards are first reviewed. This is followed by a brief discussion of the methods for setting cut-scores. Berk’s (1986) criteria for evaluating four of these procedures are then presented and described.Cet article sert d’introduction aux quatre articles suivants dans lesquels sont présentées et évaluées quatre méthodes pour établir des normes et des seuils de passage. Dans un premier temps, les objectifs, la nature et les caractéristiques des normes de rendement sont examinés. Ensuite, on offre un survol des méthodes employées pour déterminer les seuils de passage. En dernier lieu, on présente et décrit les critères de Berk (1986) pour évaluer quatre de ces procédures

    An Investigation of the Accuracy of Alternative Methods of True Score Estimation in High-Stakes Mixed-Format Examinations

    Get PDF
    Increasingly, high-stakes large-scale examinations are used to make important decisions about student achievement. Consequently, it is equally important that scores obtained from these examinations are accurate. This study compares the estimation accuracy of procedures based on classical test score theory (CTST) and item response theory (Generalized Partial Credit model, GPCM) for examinations consisting of multiple-choice and extended-response items. Using the British Columbia Scholarship Examination program, the accuracy of the two procedures was compared when the scholarship portions of the examinations were removed. For the subset of examinations investigated, the results indicate that removing these scholarship portions led to an error rate of approximately 10% with approximately seven out of 10 errors resulting in the denial of scholarships. The results were similar for both the CTST and the GPCM, indicating that for mixed-format examinations the two procedures produce randomly equivalent results. Implications for policy and future research are discussed.Lors de la prise de décisions importantes quant au rendement des élèves, on tient de plus en plus compte d'examens à grande échelle et à enjeu considérable. Il est donc tout aussi important que les résultats qu'obtiennent les élèves à ces examens soient justes et précis. Cette étude compare la justesse de l'estimation de procédures reposant sur la théorie classique des scores (classical test score theory, CTST) d'une part, et la théorie de la réponse d'item (Generalized Partial Credit model, GPCM) d'autre part, pour des examens comprenant des questions à choix multiples et des questions ouvertes. La justesse des deux procédures à été comparée dans le contexte du programme d'évaluation pour les bourses d'études de la Colombie britannique (British Columbia Scholarship Examination program) duquel la section sur les bourses d'études avait été retranchée. Les résultats de l'étude portant sur le sous-ensemble d'examens indiquent que le fait d'enlever la section liée aux bourses d'études donnait un taux d'erreurs d'environ 10% où à-peu-près 7 erreurs sur 10 menait à un refus d'accorder la bourse. Les résultats pour les deux procédures (CTST et GPCM) étaient similaires, ce qui indique que pour les examens à format mixte, les procédures donnent des résultats équivalents au hasard. Une discussion des incidences de l'étude sur les politiques et la recherche termine l'article

    Epilogue

    Get PDF

    ESL/EFL Instructors’ Beliefs about Assessment and Evaluation

    Get PDF
    The beliefs of 95 ESL/EFL instructors in Canada, 44 in Hong Kong, and 124 in Beijing about assessment and evaluation were examined with 32 questionnaire items. While the results revealed more similarities than the differences, among the instructors in the three contexts, the beliefs expressed by the instructors in the three contexts were somewhat mixed and, at times, contradictory. While the beliefs that assessment and evaluation were important for instruction and help improve student learning and the actual purposes of and uses of assessment and evaluation held by the instructors were positively related. The instructors’ beliefs about how they conducted their assessments and evaluations, the time required for assessments and evaluations, and their understanding of and preparation for assessment and evaluation were only somewhat related to their actual assessment practices. Nous avons examiné les convictions sur les jugements et les évaluations de 95 instructeurs ELS/ELE au Canada, 44 à Hong Kong, et 124 à Pékin avec un questionnaire de 32 points. Alors que les résultats font apparaître plus de similarités que de différences parmi les instructeurs dans les trois milieux, la confiance exprimée par les instructeurs est plus ou moins mélangée et parfois contradictoire dans ces trois milieux. Pour ces instructeurs, il y a une corelation positive entre leur confiance que les évaluations et les jugements sont importants pour l\u27enseignement et aident les élèves à améliorer leur apprentissage et leur confiance sur le but réel et l\u27utilisation des jugements et des évaluations. Mais la conviction sur la façon avec laquelle ils conduisent les jugements et les évaluations, le temps nécessaire pour les conduire et leur compréhension comme leur préparation des jugements et évaluations n\u27ont qu\u27une relation assez vague avec leurs pratiques des évaluations

    Robustness of Lord’s Formulas for Item Difficulty and Discrimination Conversions Between Classical and Item Response Theory Models

    Get PDF
    Lord (1980) proposed formulas that provide direct relationships between IRT discrimination and difficulty parameters and conventional item statistics. The purpose of the present study was to determine the robustness of the formulas beyond the initial and restrictive conditions identified by Lord. Simulation and real achievement data were employed. Results from the simulation study indicate that the item discrimination parameters were recovered quite well for low to moderately discriminating items regardless of ability distribution, and the difficulty parameters were recovered quite well for the range typically found for achievement tests. Results of the real data were consistent with those found for the simulation study

    Using Statistical and Judgmental Reviews to Identify and Interpret Translation Differential Item Functioning

    Get PDF
    The purpose of this study was to evaluate the equivalence of two translated tests using statistical and judgmental methods. Performance differences for a large random sample of English- and French-speaking examinees were compared on a grade 6 mathematics and social studies provincial achievement test. Items displaying differential item functioning (DIF) were flagged using three popular statistical methods—ManteTHaenszel, Simultaneous Item Bias Test, and logistic regression—and the substantive meaning of these items was studied by comparing the back-translated form with the original English version. The items flagged by the three statistical procedures were relatively consistent, but not identical across the two tests. The correlation between the DIF effect size measures were also strong, but far from perfect, suggesting that two procedures should be used to screen items for translation DIF. To identify the DIF items with translation differences, the French items were back-translated into English and compared with the original English items by three reviewers. Two of seven and six of 26 DIF items in mathematics and social studies respectively were judged to be nonequivalent across language forms due to differences introduced in the translation process. There were no apparent translation differences for the remaining items, revealing the necessity for further research on the sources of translation differential item functioning. Results from this study provide researchers and practitioners with a better understanding of how three popular DIF statistical methods compare and contrast. The results also demonstrate how statistical methods inform substantive reviews intended to identify items with translation differences.Le but de cette étude était d'évaluer l'équivalence de deux examens traduits avec des méthodes basées sur les statistiques et d'autres reposant sur le jugement. On a comparé les différences dans la performance d'un grand échantillon aléatoire de sujets anglophones et francophones qui avaient complété des examen provinciaux de sixième année en mathématiques et en études sociales. Les items démontrant une divergence par rapport aux autres (differential item functioning - DIF) ont été marqués d'un indicateur dans le contexte de trois méthodes statistiques bien connues - Mantel-Haenszel, Simultaneous Item Bias Test et la régression logistique. La signification de fond de ces items a été étudiée en comparant la version traduite de l'examen avec l'original en anglais. Les items marqués par les trois procédures statistiques étaient relativement constants mais pas identiques d'une version à l'autre. Alors que la corrélation entre les mesures de l'effet DIF étaient aussi forte, elle était loin d'être parfaite, ce qui suggère que l'on devrait avoir recours à deux procédures dans le dépistage du DIF en traduction. Pour identifier les items DIF présentant des différences en traduction, trois réviseurs ont comparé les items français retraduits en anglais avec les originaux en anglais. Ceux-ci ont jugé que deux sur sept items en mathématiques et six sur vingt-six items en études sociales n'étaient pas équivalents d'une langue à l'autre à cause des différences introduites par le processus de traduction. Les autres items ne présentaient pas de différences apparentes de traduction, ce qui révèle le besoin de poursuivre la recherche sur les sources du DIF en traduction. Les résultats de cette étude aideront les chercheurs et les praticiens à mieux comprendre les similarités et les différences entres trois méthodes statistiques DIF souvent employées. De plus, ils démontrent comment les méthodes statistiques contribuent aux études de signification dont le but est l'identification des items présentant des différences de traduction
    • …
    corecore