【外语教学】大学英语四级考试质量评估:基于经典测量理论和Rasch模型的数据分析

调整后的四级考试取消了多项选择题型的完形填空,另有三个题型作了局部调整:

(1) 单词及词组听写

原复合式听写调整为单词及词组听写,短文的长度、难度以及播放次数不变,所占分值比例不变。原复合式听写要求考生根据听到的短文内容填写空缺的单词和句子,单词要求用听到的原文填写,句子可以在理解原文内容的基础上用自己的语言表述。此部分调整后,要求考生在听懂短文的基础上填写空缺的单词或词组,所有单词和词组均要求用听到的原文准确填写。

(2) 长篇阅读

原快速阅读理解调整为长篇阅读理解,篇章长度和难度不变,所占分值比例不变。原快速阅读理解要求考生阅读一篇较长篇幅的文章后作答7道多项选择题及3道句子填空题。现调整为篇章后附有10个句子,每句一题,每句所含的信息出自篇章的某一段落,要考生找出与每句所含信息相匹配的段落。

(3) 段落翻译

原单句汉译英调整为段落汉译英。原单句翻译共5句,每句一题,要求考生根据中文提示将每句的部分内容翻译成英语,使句子意思完整。调整后,要求考生将所给的中文段落全部译为英语。整个部分所占比重由原来的5%上升到15%,答题时间也由原来的5分钟增加至30分钟。翻译内容融入了中国元素,涉及中国的历史、文化、经济、社会发展等各个方面。为了保证翻译评分的信度,考试委员会制定了统一的翻译评分标准。评分采取整体印象法(holistic marking),主要考虑意思表达的准确程度和语言的质量两个方面。满分15分,分六个档次,每个档次应达到的水平都有详细的文字描述。

另外,此次题型调整后,构建型作答试题(constructed response items)所占比重进一步增加,达到了整卷的40%,从而更好地测试学生的语言综合应用能力。

3. 2013年12月四级考试数据分析

调整后的四级考试于2013年12月首次实施,笔者从此次四级考试所采用的试卷中随机抽取一份试卷,并在作答所选四级试卷的考生总体中抽取了部分考生的数据进行分析。根据分层随机抽样原则抽取了3427名四级考生,所选的样本覆盖了全国不同地区不同层次的本科院校,因而是一个容量较大、代表性也比较好的样本数据。在样本数据的基础上,笔者既采用了经典试题分析方法对评价试题质量的主要指标(试题的难易度和区分度、试卷的内部相关等)进行考察,另外还运用了项目反应理论中的Rasch模型对试题的质量作进一步分析。

3.1试卷总体难度与各部分难度

四、六级考试报道成绩时对原始分要进行等值处理,所以理论上试卷平均难度的高低对考生能力的测量不会产生影响,但难度过高或过低对教学的后效都较差,因而需要将试卷的难度控制在合理的范围内。就大规模标准化考试而言,整卷的平均难度在0.6左右是合适的(杨惠中、Weir 1998)。表2是对3427名四级考生所得原始分数的描述统计。其中,翻译和写作作为一个大的部分计算平均难度。

从表2各个题型的数据可以看出,四级试卷中传统题型的难度大多在0.6左右,难度比较适中,仅选词填空题略难(0.51),仔细阅读题略易(0.72)。从三个新题型的难度来看,段落翻译题的平均难度为0.59,难度适中;单词和词组听写题偏难(0.44),同时也是整个试卷最难的部分,但从历年考试数据来看,学生作答听写题的表现一直相对较弱,平均得分率不到50%,因此调整后的听写题就其整体难度而言与以往大致相当,属正常水平;长篇阅读题难度较低(0.80),但由于其他两个阅读题的难度相对较高,因而整个阅读理解部分的平均难度在合理范围内。

从试卷各个大的部分来看,听力理解部分的总体难度(0.58)与翻译和写作部分的总体难度(0.59)基本相当,难度适中。而阅读理解部分的整体难度为0.71,相对略易。因此,整份试卷的平均难度为0.63,表明四级试卷的难度是适中的。另外,数据还显示总分标准差较大,说明考生能力分布的离散程度较大,试卷能够很好地将考生能力区分开来。

3.2试题项目分析

除了试卷的总体难度以外,试题项目分析也是考试质量评估的一个重要方面,即根据样本计算每道试题的难易度和区分度。试题的难易度和区分度是衡量试题质量的两个重要指标。对于大规模语言考试而言,一般要求试题的难易度在0.3~0.7之间,区分度在0.2以上(杨惠中、Weir 1998)。表3为四级试卷中全部客观题的难易度和区分度的双向汇总表:

所有55道客观题中,1~25题为听力题,36~65题为阅读题。从各题数据可以看出,难易度在0.3~0.7之间的题目共29题,高于0.7的有24题,低于0.3的有2题,因而整卷全部客观题的平均难度为0.68。另外,就试题的区分度来看,在所有客观题中,仅有1题的区分度在0.2以下,说明四级题目有着很好的区分度,能将不同水平的考生区分开来。

3.3试卷的内部相关性

根据Alderson等人(1995)的观点,对考试的各个组成部分进行相关分析可以提供考试构念效度方面的证据。一般来说,如果某两部分之间的相关系数太高,说明两者考核的是相同的能力,在考试设计上存在不必要的重复;如果两部分之间的相关系数太低,则说明两者考的是完全不同的能力。就语言测试而言,如果各个部分考核的是语言能力的不同侧面,那么它们之间的相关系数应在适中的水平,一般认为在0.3~0.7之间是合适的(杨惠中、Weir 1998)。但Alderson等人同时指出,由于总分是整体语言能力的体现,因此各组成部分与总分的相关应相对较高,以0.7左右或更高水平为佳。以下是对四级试卷所作的内部相关分析的结果。

3.3.1各题型之间的相关

笔者首先分析了四级试卷各题型之间的相关以及各题型与总分的相关。表4是四级试卷各题型的相关系数矩阵。

就各题型之间的相关来看,表4中的数据显示听力篇章(LC3)与短文听写(LC4)、长篇阅读(RD2)与仔细阅读(RD3)的相关最高,相关系数达到了0.63。听力篇章与短文听写同属听力理解部分,考核的均为听力方面的技能,仔细阅读与长篇阅读同属阅读理解部分,考核与阅读相关的能力,所以相关程度较高是合理的。另外,短文听写(LC4)与选词填空(RD1)的相关达到了0.63,虽然两者分别属于听力题型和阅读题型,但实际上两者都在很大程度上考核了词汇的理解和运用能力,因此两者之间有较高的相关也是可以理解的。听力长对话(LC2)与写作(WT)的相关最低,但也达到了0.42。其他相关系数大多在0.4~0.6之间,呈中等程度相关,说明各题型既具有一定的独立性,又存在相互联系,试卷设计得比较合理。

从表4还可以看出,各题型与总分的相关系数大多都在0.7以上,值得一提的是,仅占整卷5%的选词填空题(RD1)与总分的相关也达到了0.78。在各个题型中,仔细阅读(RD3)与总分的相关最高,相关系数达到了0.83。由于仔细阅读部分所占分值比例最高,占到整卷的20%,所以此部分与总分的相关最高是可以理解的。另外,短文听写(LC4)与总分的相关也达到了0.8。短文听写要求学生既能听懂内容,还能正确书写,是对领会能力和表达能力的综合考核,能较好地反映出学生的整体语言水平,因此与总分相关较高也是可以理解的。与总分相关最低的是听力长对话(LC2),但相关系数也达到了0.69,且此部分仅占整卷的7%,因此,与总分达到这样的相关程度也是比较理想的。

以上是对各题型相关数据的总体描述,下面将着重分析三个新题型的相关数据:单词及词组听写(LC4)与其他各题型之间的相关在0.52~0.63之间,长篇阅读(RD2)与其他题型的相关在0.47~0.63之间,段落翻译(TR)与其他题型的相关在0.44~0.57之间,说明这三个新题型与其他各题型之间呈中度相关;另外,三个新题型与总分的相关都很高,长篇阅读和翻译与总分的相关均达到了0.75,听写与总分的相关则更高,达到了0.8。各项数据表明,三个新题型的设计均比较合理,符合测试意图。

3.3.2各部分之间的相关

笔者进一步分析了四级试卷各个部分之间的相关以及各部分与总分的相关。表5是四级试卷各部分的相关系数矩阵,其中翻译和写作仍作为一个整体进行分析。

从表5的数据来看,在试卷各个部分中,听力(LC)和阅读(RD)的相关最高,相关系数为0.72,其他各部分之间的相关系数均为0.67。虽然各部分的相关系数在0.7左右,处于较高水平,但仍在合理范围之内,表明试卷各部分既考核了语言能力的不同方面,同时又是相互关联的,各个部分的综合能够准确而有效地反映学生的总体语言水平。另外,各部分与总分之间的相关都很高,其中听力部分和阅读部分与总分的相关均高达0.91,而翻译和写作部分与总分的相关也达到了0.8以上。

3.4Rasch模型分析

Rasch模型是一种单参数项目反应理论模型,因其克服了传统测量理论的局限之处,实现了测量的客观等距目标,为社会科学领域内的测量建立了一套客观标准,现已广泛应用于教育、心理学、医学等诸多领域。近年来,Rasch模型也越来越多地应用于语言测试领域,国内外有不少学者运用Rasch模型对测试的信效度进行了研究。

云奕文章网

【外语教学】大学英语四级考试质量评估:基于经典测量理论和Rasch模型的数据分析

相关推荐：