认知诊断在语言测试中的应用论文

时间:2019-11-13 23:21:12 论文范文 我要投稿

认知诊断在语言测试中的应用论文

  1. 引言

认知诊断在语言测试中的应用论文

  传统的语言测试往往只提供一个笼统的考试分数或语言能力估值,对于具有相同分数或相同语言能力的学生具有不同的知识状态及不同认知结构这一现象无法做出解释; 相同分数的个体间差异无法区分; 是什么因素导致考生试题做错、考生掌握了什么语言技能、未掌握什么语言技能等信息无法获取。语言测试研究的发展已不满足于仅研究整体语言能力的水平测试( proficiency tests) 和成就测试( achievement tests) ( Glaser 1994; Linn 1990) ,语言测试专家们更希望语言测试能够提供诊断信息,能够报告学生的认知结构( Alderson 2005; Bailey 1999;Shohamy 1992; Spolsky 1990) .传统的诊断性测试只是按技能将试题分为几类,诊断结果只是通过计算各类试题的答对数目来反映学生的知识结构,这显然不符合语言技能的综合性和抽象性。为了科学地诊断学生的认知结构,最近几十年来教育与心理测量学界兴起了一项新的诊断技术---认知诊断,它通过获得被试在测试上( 可观察) 的反应模式而推知该被试不可观察的知识状态,用来测量/评估个体特定的知识结构( knowledge structure) 和加工技能( process-ing skills) ( Leighton & Gierl 2007) .本文将主要介绍认知诊断的理论基础、发展历程及其在语言测试领域中的应用,希望能为国内诊断性语言测试的发展起到抛砖引玉的作用。

  2. 认知诊断的理论基础

  认知诊断以下列三大理论的发展为基础,即现代认知心理学、计量心理学、现代统计数学和计算机科学。

  第一,现代认知心理学的发展。现代认知心理学研究人的心理活动和心理加工过程 ( 如学生的解题过程) ,并将之模型化。它能为测验编制提供心理学理论支持,并直接指导项目开发。认知心理学的分析不仅可以明确被试正确作答所需的知识、技能、解题策略与加工过程,还可以明确项目特征和刺激条件与作答反应的关系,从而有力地提高编制过程对难度等性能的预控性。所以,它是测验实现认知诊断功能的前提条件。

  第二,计量心理学的发展,尤其是以现代项目反应理论( Item Response Theory,IRT) 为基础的计量心理学的发展。测验认知诊断功能的实现,必须有相应的具有认知诊断功能的心理计量模型,这种心理计量模型要能将认知心理学理论融入心理测量学模型 ( 认知诊断模型)中,即能把项目所含的认知属性等信息加入合适的数学模型中,从而将学生的认知结构数学模式化。这样,也就能定性定量相结合地考查学生的认知结构和个别差异,实现对个体认知状况的诊断。

  第三,现代统计数学和计算机科学的发展。以项目反应理论等计量技术为基础的认知诊断模型,一般都是比较复杂的,而且实现了相当高度的数学形式化。因此,要对实验数据进行深入分析和对模型中未知参数进行估计,必须有相关统计数学和计算机科学的支持。否则,认知诊断模型仅有学术理论上的认识价值,而不能真正为实际工作服务。

  语言测试的认知诊断涉及语言学科的专业知识,因此,要做好语言测试的认知诊断工作,还离不开语言学科专家的积极参与。

  3. 认知诊断模型及其发展

  根据认知诊断的理论基础,我们可以发现认知诊断技术的核心是将认知心理学、项目反应理论、统计数学结合在一起的认知诊断模型。因此,认知诊断技术的发展很大程度上就是认知诊断模型的发展。认知诊断模型是用来评估学生对一系列粒化技能( finer-grained skills) 掌握状况的潜质变量模型( latent variable model) ( de la Torre 2011) .

  以 Tatsuoka( 1983) 等提出的规则空间模型( Rule Space Methodology) 为基础,测试和计量学家发展了至少 60 多个认知诊断模型,其中较常用的认知诊断模型有融合模型( fusion mod-el) ( Hartz et al. 2002) 、DINA 模型( deterministic input,noisy “and”gate model) ( Junker & Sijts-ma 2001) 、NIDA 模型( noisy inputs,deterministic,“and”gate model) ( Junker & Sijtsma 2001) 、DINO 模型( deterministic input,noisy “or”gate model) ( Templin & Henson 2006) 、GDM 模型( general diagnostic model) ( von Davier 2008) ,以及 G-DINA 模型框架( generalized DINA modelframework) ( de la Torre 2011) .其中 G-DINA 模型框架为以上提到的多个认知诊断模型提供了共同的平台,通过一定的设置,就可以得到相应的模型。换言之,认知诊断模型之间是有共通之处的。

  而认知诊断模型之间存在的差异决定了模型的分类标准及适用范围。认知诊断模型一般有两种分类方法: 一种是非补偿型( non-compensatory) 和补偿型( compensatory) 之间的分类; 一种是简约型( reduced) 和饱和型( saturated) 之间的分类。在非补偿型模型下,试题答对概率以被试掌握该试题所有认知属性为先决条件,掌握部分认知属性答对概率仍为零。在补偿型模型下,试题各认知属性对试题答对概率有着不同的贡献比例,掌握部分认知属性也有一定的答对概率。简约型模型仅包含单一属性参数,不包含多属性间的交互参数。饱和型模型不仅包含所有单一属性参数,还包含了多属性间的交互( interaction) 参数。很明显,非补偿型及简约型模型都不太契合语言技能的特征,而补偿型及饱和型模型则与之比较契合。补偿型模型契合了语言技能的综合性和多元性,饱和型模型则可以比较理想地应对语言技能的抽象性和难区分性。认知诊断模型的发展历程体现了从非补偿型到补偿型,从简约型到饱和型的趋势。表 1 简要归纳了本文涉及的认知诊断模型的类型及其分析软件:

  4. 认知诊断在语言测试中的应用

  由于语言技能具有综合和抽象的特征,语言测试的认知诊断对认知诊断模型的要求较高。

  以往对语言测试的认知诊断研究采用的模型大多是非补偿的简约模型,直到最近才应用与语言技能特征相匹配的补偿型或饱和型模型,这也体现了语言测试领域的认知诊断研究正日趋成熟。

  最早对语言测试的认知诊断研究可追溯到 20 世纪 90 年代。Sheehen et al.( 1993) 曾在美国教育考试服务中心( Educational Testing Service,ETS) 发表有关应用规则空间模型诊断美国青少年文本加工技能的报告。Buck et al.( 1997) 则应用规则空间模型对托业( TOEIC) 考试阅读试题的认知属性进行了认知诊断。Buck & Tatsuoka( 1998) 继而应用了同一模型对开放式答题的英语听力试题的认知属性进行了认知诊断。与以上研究采用的认知诊断模型不同,vonDavier( 2008) 应用了 GDM 模型对托福( TOEFL) 的阅读和听力试题的认知属性进行了认知诊断,Jang( 2009) 则应用了融合模型对模拟 TOEFL 考试的 LanguEdge 考试阅读试题的认知属性进行了认知诊断。Lee & Sawaki( 2009) 应用了 GDM 模型、融合模型以及潜在分类模型分别对TOEFL 考试的阅读和听力试题的认知属性进行了认知诊断。Kim( 2015) 以成人二语分班阅读考试为依托,用融合模型进行了认识诊断研究。而放眼国内,目前涉及语言测试的认知诊断研究还不多,蔡艳等( 2011) 应用了属性层次模型对中学生的阅读能力认知属性进行了认知诊断,孟亚茹( 2013) 应用了 G-DINA 模型框架中的饱和模型对大学生听力能力进行了认识诊断,陈慧麟,赵冠芳( 2013) 、陈慧麟,陈劲松( 2013) 则分别应用了 G-DINA 模型框架中的补偿模型和饱和模型对 PISA 阅读测试进行了认知诊断。

  综上所述,对语言测验进行认知诊断是认知诊断研究的一个重要挑战,认知诊断技术的发展促进了语言测试及语言技能的研究,语言测试及语言技能的研究反过来也推动了新型认知诊断模型的开发。

  5. 语言测试中认知诊断的基本流程

  语言测试中的认知诊断有两种类型,第一类是对现有的非诊断性语言测试进行认知诊断评估,第二类是设计诊断性语言测试并对其进行认知诊断评估。这两类评估都有两大阶段,但第一阶段是不同的。第一类评估的第一阶段为根据现有语言测试试题确定认知属性及 Q 矩阵,第二类评估的第一阶段为根据诊断目标确定认知属性及 Q 矩阵并编制语言测试。两类评估的第二阶段是相同的,即选择认知诊断模型,根据测试结果进行诊断评估和分析。

  我们先来看对现有的非诊断性语言测试进行认知诊断。在第一阶段,认知属性的确定方法一般有语言专家确定法、有声思维法( think aloud protocol) 、文献参考法三种。语言专家确定法主要是由语言专家从语言学知识及其语言教学经验的角度出发,对每道试题进行内容分析,定义每道试题的认知属性。有声思维法是指研究者进行前期试测时,要求正在试图完成测试题目的被试报告头脑中的思维过程,或试测后要求被试追述回忆其思维过程。文献参考法主要是回顾以往语言技能方面的研究成果以及参考现有的非诊断性语言测试的教学考试大纲,先确定整个测试所涉及的认知属性,再确定每题的认知属性。在具体操作过程中可以将以上三种方法结合在一起使用,这样定义的认知属性会更加有说服力。在每道试题的认知属性定义好后,测试的认知属性 Q 矩阵就建立起来了。在认知属性 Q 矩阵中,我们用“1”表示“考核该属性”、“0”表示“未考核该属性”.假定该语言测试包含 5 个认知属性,20 道试题,该测试的认知属性 Q 矩阵范例如表 2 所示。对于第二类认知诊断来说,在第一阶段,首先要根据教学或测试大纲确定细化的技能诊断目标,细化的技能诊断目标就是整个测试所涉及的认知属性。接下来要根据细化的技能诊断目标编制认知诊断测试。对于第二类评估来说,认知诊断测试的编制是至关重要的一步,它不仅是实现认知诊断的工具,而且是确定每题认知属性的过程。编制认知诊断测试需要语言专家参与,他们可以在编写试题的同时确定每题的认知属性。在定义好每道试题的认知属性后,可以建立初步的认知属性 Q 矩阵。测试编制完成后还要进行试测,试测中或试测后要对被试进行有声思维或访谈式调查,以验证先前建立的认知属性 Q 矩阵是否合理,如不合理,语言专家可以对初步的认知属性 Q 矩阵作相应调整,从而确立最终的认知属性 Q 矩阵。在认知诊断的第一阶段,第二类评估是优于第一类评估的,这是因为第二类评估中编制的认知诊断测试所包含的认知属性是与教学目标紧密结合的,其在各试题中的分布依据教学目标,有一定的权重分配,而非随意分布,因此其诊断结果对相应技能的培养和教学会有更直接的促进作用。然而,由于现有的认知诊断语言测试数量很少,较难得到大规模的数据,从现有的非认知诊断语言测试中获取认知诊断信息也不失为一种改善教学的途径。

  第二阶段,在认知属性确定之后,测试学专家要根据所测语言技能的特点,选取适当的认知诊断模型,以确保认知诊断结果的准确性及分析的合理性。由于语言技能具有综合和抽象的特征,对语言测试进行认知诊断,建议采用补偿型或饱和型模型。由于认知诊断模型是建立在项目反应理论框架之下的,是项目反应理论的新发展,因此认知诊断对样本容量的要求相对要高。为了确保认知诊断模型分析的准确性,一般要求样本在 300 人以上,样本大小主要取决于被定义的认知属性数量、试题数量以及计分种类的数量,认知属性、试题数量或计分种类越多,所需要的样本数量就越大。确定认知诊断模型并获得样本数据后,就可以将样本数据连同第一阶段确定的认知属性 Q 矩阵输入相应的认知诊断模型中进行认知诊断分析。在产生分析结果之前,认知诊断分析软件也会提供模型拟合度数据。相对拟合度指标主要有-2 倍最大似然值( -2LL) 、赤池信息量( AIC) 以及贝叶斯信息量( BIC) ,以上三个指标值越小,模型拟合度就越高。一些测试学家( Chen et al. 2013) 也在研究模型的绝对拟合度,但目前还处于待完善阶段。如果模型拟合度不高,就要重新确定认知属性和 Q 矩阵。

  认知诊断一般可产生四个方面的分析结果: 认知属性的总体掌握概率、样本的认知属性掌握类型及其分布比例、认知属性的个体掌握概率和基于认知属性的试题分析。

  第一,通过认知诊断分析可以得出认知属性在被试样本中的总体掌握概率。表 3 为 5 个认知属性在样本总体中的掌握概率,反映出样本整体对技能 A 的掌握概率最高,对技能 E 的掌握概率最低。也可以理解为,对于样本来说,技能 A 难度最小,技能 E 难度最大。第二,通过认知诊断分析可以发现被试样本的认知潜质分类( latent classification) 及其分布比例。表 4 列出了被试对 5 个认知属性所有可能的 32 个掌握类型及其分布比例。表 4 中代表认知潜质类型的 5 位数字从左至右分别代表技能 A、技能 B、技能 C、技能 D、技能 E 等 5 个认知属性。从表 4 中可以发现分布比例最大的认知潜质类型为全部掌握( “11111”) ,另外还有 3 种认知潜质类型的分布比例也较大,分别为掌握技能 A、技能 B、技能D( “ 11010” ) 类型、全不掌握 ( “ 00000 ” ) 类型以及掌握技能 A、技能 B、技能 C、技能 E( “11101”) 类型,其他认知潜质类型的比例都较低。第三,通过认知诊断分析可以得出每个被试对于每个认知属性的掌握概率。表 5 列出了样本中 6 位被试对于每个认知属性的'掌握概率。认知属性的个体掌握概率也可理解成个体被试的认知属性得分。第四,通过认知诊断分析可以得出每一道试题在不同认知属性掌握状况下及在猜测状况下的答对概率。表 6 列出一道具有三个认知属性( 技能 A、技能 B、技能 C) 的试题在各种掌握状况下的答对概率。各种掌握状况下的答对概率也体现了该试题在各种掌握状况下的难度,某种掌握状况下的答对概率越高,在这种掌握状况下该题的难度就越低。此题是在饱和模型下分析的,故对认知属性间的交互组合效应也加以分析,认知属性间的交互性关系用“×”来表示。根据表 6,我们可以发现该题的猜测答对概率小于掌握单个技能时的答对概率,更小于掌握多个技能时的答对概率,且掌握两个技能时的答对概率小于掌握所有三个技能时的答对概率,说明此试题没有明显的问题。否则此试题的内容或认知属性的定义可能存在问题,需要修改或调整。

  认知诊断分析的结果可以反馈给语言学家、语言测试设计者、语言教师和学生,以促进语言学理论、测试质量、教学方法、学习动力方面的进一步完善。语言测试中认知诊断的基本流程可以用图 1 进行归纳,详见下图。

  6. 认知诊断应用于语言测试的意义

  从以上对认知诊断的介绍中,不难发现认知诊断应用于语言测试的意义。认知诊断在语言测试中的应用对语言及语言测试的理论研究、语言测试的设计、语言教学、语言学习都具有重要的意义。在语言测试中应用的意义可归纳如下:

  第一,认知诊断理论在语言测试中的应用不仅可以促进语言测试研究向新的阶段发展,还可以促进语言能力和技能研究等本体语言学领域的发展; 第二,语言测试的设计者可以通过认知诊断来提高语言测试的效度,提高每道试题的质量,降低猜题概率; 第三,语言教师可以通过认知诊断调整教学方案和教学方法,加强对掌握概率较低语言技能的教学,了解学生的长处和弱点,进而对学生进行个性化辅导; 第四,通过认知诊断,可以对考生认知属性的掌握情况赋予分数,建立新型考分报道机制,作为传统考分报道机制的补充,使考生不仅能了解自己的总分和子测试( subtest) 分数,而且还能了解自己各个语言技能的得分,从而可以在较弱的技能上加强学习和操练。

  7. 结语

  认知诊断在语言测试中的应用作为语言测试领域的一个新兴课题,正受到越来越多语言测试研究者的重视,2013 年 7 月召开的“第 35 届国际语言测试大会”( Language Testing Re-search Colloquium) 和 2014 年 5 月召开的“第二届全国外语测试学术研讨会”也将认知诊断列为议题之一。认知诊断在语言测试中的应用是一个跨学科的课题,不仅涉及语言学、测试学、统计学,近两年来还跨越到了计算机技术领域,尝试开发基于认知诊断的计算机自适应语言测试系统( CD-CALT) .总而言之,认知诊断在语言测试中的应用价值正不断被开发,其发展空间将会越来越广阔。

【认知诊断在语言测试中的应用论文】相关文章:

1.超声在异位妊娠诊断中的应用论文

2.血液检验在贫血鉴别诊断中的应用论文

3.太极说在中医疾病诊断中的应用的论文

4.图形语言在包装设计中的应用论文

5.软件测试在信息工程建设中的应用论文

6.软件测试方法在嵌入式系统中的应用论文

7.语码转换在社会语言学中的应用论文

8.吉他在乐队中的应用论文