简介:大规模语言运用测试(performanceassessment)中评分员的评分质量直接关系到考生的命运和考试成绩的信效度及公平性,因此如何通过有效的评分员培训最小化评分误差是确保考试成绩有效性的重要问题。本研究运用多层面Rasch模型(MFRM)中所提供的丰富的统计信息对评分员的评分数据进行诊断分析,研究表明,MFRM输出的统计结果可以较为全面地诊断评分员在评分中所存在的问题,为评分员培训提供更加具有针对性的反馈信息,也可以作为区分评分员准确度高低的依据,为更多评分员误差研究提供有效的测量工具。
简介:语言运用测试(languageperformanceassessment)是各种大规模语言考试中不可或缺的部分,但因为其测试环境中不可避免地引入了评分员的主观判断、测试任务的难度、评分标准的设定和使用情况等因素,使其信度、效度及考试的公平性都受到了质疑。多层面Rasch模型是项目反应理论(IRT)中经典Rasch模型在多个维度上的延伸,它的主要优势在于可以将考试环境中多个影响考生最终得分的因素纳入同一个数学模型中进行分析,并估算出各个层面的因素对考生成绩的影响程度。本文旨在对MFRM的工作原理和基本模型进行简单介绍,并系统梳理语言测试领域运用MFRM进行的相关研究,以期让读者更好地了解如何在语言测试研究中有效地运用这种统计方法。
简介:本研究运用多层面Rasch模型测量软件FACETS分析了计算机和15名专家评分员在一次广东省高考机助英语听说考试模拟测试中批阅215名考生口语录音的阅卷行为。研究发现:计算机自动评分和专家评分员评分的严厉度虽有显著差异,但并不会对考生能力分布产生决定性影响;计算机自动评分阅卷较低的评分偏差几率说明计算机自动评分比专家人工阅卷具有更高的内部一致性。
简介:本研究基于多层面Rasch模型,针对某市一次青少年外语能力竞赛决赛中的评分员效应进行研究,使用Facets软件分析了7名评分员对13名选手在外语能力竞赛中的评分。研究结果表明:1)评分员之间的严厉度有较为显著的差异,且有个别评分员自身一致性较差;2)7位评分员总体并没出现显著的集中趋势和随机性,但是个别评分员在打分时可能出现集中趋势和随机效应;3)7位评分员出现了明显的晕轮效应;4)在区别性严厉度方面,评分员在对个别选手和不同性别的选手评分时出现偏差,在评分项目上不存在评分偏差。本文对产生上述评分偏差的原因进行了初步的探讨,并针对问题提出了相应的建议。
简介:肥胖在当今社会日趋普遍,已成为了影响全世界的公共健康问题。肥胖不但会引起各种生理疾病,且会对大脑认知功能造成负面影响。青少年时期是认知功能发展的关键时期,此阶段的认知功能尤为容易受到肥胖的损害,以致影响学业成绩甚至降低个体的生活质量,为此积极研究青少年肥胖与认知功能的关系刻不容缓。采用Flanker任务探究肥胖青少年与正常体质量青少年在基本认知功能及高阶认知功能上的差异及特点,并进一步运用相关分析探究身体质量指数(BMI)与2种认知功能的关系。结果显示(1)无论在一致刺激条件还是不一致刺激条件下,肥胖组的反应时都显著慢于正常体质量组,P〈0.01,这表明肥胖青年无论在基本认知功能还是高阶认知功能上的表现都差于正常体质量青少年;(2)BMI与一致刺激条件(r=-0.45)及不一致刺激条件下的反应时都呈显著正相关(r=0.51),P〈0.01,表明个体越肥胖,对基本认知功能及高阶认知功能的负面影响越大。结论:肥胖青少年在基本认知功能及高阶认知功能上都差于正常体质量青少年,BMI与认知功能呈负相关。