中国汉语水平考试的回顾与展望

2011-05-18 12:56:08 来源：互联网字体放大：大中小

精品学习网祝福考试战线友人旗开得胜，相信自己，你是最棒的

一、汉语水平考试简介

1.HSK的性质

中国汉语水平考试(HSK)是为测试母语非汉语者(包括外国人、华侨和中国少数民族人员)的汉语水平而设立的国家级标准化考试，由北京语言大学汉语水平考试中心设计开发。

首先，HSK不同于用来测试母语为汉语的人的语文水平的考试，像我们大家熟悉的我国的中小学语文考试、大学语文考试以及国家语委的普通话水平测试，这些考试都是测试母语为汉语的人的。HSK则是一种第二语言考试，参加这个考试的考生应该是把汉语作为外语的学习者(比如母语为英语的美国人)或把汉语作为第二语言的学习者(比如母语为维吾尔语的中国少数民族)。有人把HSK说成是“中国托福”，因为美国的托福(TOEFL)考试是一种把英语作为外语的考试，它是不能用来测试母语为英语的美国人的英语水平的，同样，如果用HSK来考母语为汉语的中国人也是无效的。

第二，HSK不同于一般的旨在考查学生是否掌握某门课程内容的成绩考试，而是一种目的在于测量考生的一般语言能力的水平考试。HSK不以任何特定的教材或特定的教学大纲的内容为依据， HSK的命题人员不会考虑考生究竟是在哪儿学的汉语、用了什么样的教材、学了哪些内容、怎么学的、学了多长时间，他们也没法去考虑这些。HSK的目的是考查汉语作为第二语言的学习者的现有汉语水平即汉语的熟巧程度。

第三，HSK不同于一般教师自编的考试，HSK是一种按照系统的科学程序组织、具有统一的标准并对误差作了严格控制的标准化的考试。

2.HSK的发展历程

1984 年，原北京语言学院成立了“汉语水平考试设计小组”，开始研制汉语水平考试。此项研究历时五年多，于1990年2月20日通过了国家教委组织的专家鉴定。这就是后来改称为HSK(初中等)的考试。由于考试的应用范围不断扩大，为了使HSK成为一个完整的系统，在初、中等考试研制工作取得初步成果的基础上， 1989年10月，汉语水平考试中心又开始了高等汉语水平考试的研制。1993年7月28日，HSK(高等)通过了国家汉语水平考试委员会组织的专家审定。为了使更多的汉语学习者有机会测试自己的水平，1995年9月又开始了基础汉语水平考试的研究。1997年11月24日，HSK(基础)通过了国家汉语水平考试委员会组织的专家鉴定。至此，HSK构成了一个水平由低到高的较为完整的系统。

1986年12月，HSK列入国家教委 1986年度文科博士点专项科研基金项目，开始得到教育部研究基金的资助。1992年9月2日，中国国家教育委员会发布了李铁映主任签署的第21号令，汉语水平考试正式升级为国家级考试，正式定名为“中国汉语水平考试”(HSK)。1995年12月26日，国家教育委员会发布教外来[1995]668号文，颁布了《关于外国留学生凭〈汉语水平证书〉注册入学的规定》。1997年8月27日，为了对汉语水平考试进行统一领导，国家教委成立了国家汉语水平考试委员会。

目前HSK考试已达到较高的科学化水平，实现了命题、施测、阅卷评分和分数解释的标准化。实现了预测统计分析、试题等值、考试报名、评分和成绩报告等的计算机化。1997年完成了HSK等值研究。从1998年9月开始了HSK题库计算机自动生成试卷系统课题的研究。目前，已经形成了一个初具规模的HSK题库和试卷计算机自动生成系统。在此基础上，北语汉考中心将逐步推出计算机化自适应性HSK考试，这种考试将更加具有针对性，更加个性化，从而可以实现更高的可靠性(信度)和更高的有效性(效度)。

目前正式推广的考试有汉语水平考试的基础、初中等和高等三种。中国少数民族汉语等级考试(MHK)也已经在部分地区启动。

汉考中心正式出版的书籍包括大纲类8部，论文集6部。它们包括《汉语水平等级标准和等级大纲》(试行，1988)，《汉语水平考试研究》(1989)，《汉语水平考试大纲(初、中等)》(1989)，《汉语水平词汇与汉字等级大纲》(1992)，《汉语水平考试大纲(高等)》(1995)，《首届汉语考试国际学术讨论会论文选》(1995)，《汉语水平考试研究论文选》(1995)，《汉语水平等级标准与语法等级大纲》(1996)，《汉语水平测试研究》(1997)，《中国汉语水平考试大纲(基础)》(1998)，《汉语8000词词典》(2000)，《汉语水平考试研究文集》(2000)，《中国少数民族汉语水平等级考试大纲》(2002)，《考试研究文集》(2002)等。

北京语言大学汉语水平考试中心已经形成了一支考试研究和考务管理的队伍。1997年出版了刘镰力教授主编的《汉语水平测试研究》，2002年出版了张凯教授的专著《标准参照测验理论研究》和《语言测验理论与实践》。汉考中心的同仁们在语言测试理论、考试设计、题目预测、题目分析、题库建设、主观试题和客观试题的评分原则和手段、语言测试语料库建设、题目公平性研究、分数和等值、测验信度和效度、新试题开发、语言测试的后效和决策等方面都取得了一定的成果。

1992年2月，“汉语水平考试”获国家教育委员会科学技术进步三等奖。1994年12月《汉语水平词汇与汉字等级大纲》获北京市第三届哲学社会科学优秀成果奖二等奖。

从1990年HSK开始正式在国内推广，1991年开始正式在海外推广，目前已在国内的27个城市设立了46个考点，在亚、欧、美洲和大洋州的27个国家和地区设立了67个考点。截止到2003年12月底，已有来自120多个国家和地区的55万多人次参加了HSK考试。

二、汉语水平考试历史回顾

80 年代初期，美国的托福考试开始进入中国的教育市场，对国内的外语教学产生了很大的影响。在此之前，中国的外语教学比较重视语言知识的传授，而语言技能的训练相对薄弱，结果是学生的听、说、读、写的能力都比较差。而托福考试主要考察的就是学生的听、读等实际运用语言的能力，因此托福考试加速了中国原有的单一的语言教学模式的变革。受托福考试的影响，我们有了EPT(英语能力测验)，这是我们自己开发的把英语作为外语的考试，考试形式脱胎于托福考试。

中国的对外汉语教学事业起步于50年代初，虽然经历了几十年的发展，但是在很多领域还缺乏科学系统的研究。到了80年代初期，我们还没有一个统一的、标准化的汉语考试。汉语第二语言教学的实践给我们提出了这样的要求，必须开发研制汉语的标准化考试。

1984年，在吕必松院长的主持下，北京语言学院成立了由刘珣、黄政澄、方立、郭树军、孙金林等人组成的研制小组。由于缺少资金、缺乏理论准备、缺乏研究经验，所以刚起步的时候步履艰难。

首先确定了施测对象。汉语水平考试的测试对象主要是在中国接受过一年或者二年正规语言技能训练的学生，测试的方面包括听、读、写各方面的技能。由于技术原因，当时的设计中不包括说的能力(现在在高等HSK中已经有了说的考试)。

1985 年出炉了第一套实验题目。为了考察学生写的能力，研究者们想了很多办法。为了使“写”能够与其他语言能力分开，设计者采取了听写的方法，具体做法是一个句子念三遍，然后要求考生把它写出来。这么做有个假设的前提就是考生必须能听得懂。后来发现这样考存在很大的问题，就是写的能力与考生听的能力分不开。这样考试的效度就会受到影响。1986年刘英林教授和郭树军副教授就这个问题进行了攻关。他们设计出一个客观的方法来，就是看学生能不能识别出写错的字。题型是选择题，列出四个双音节的词，其中只有一个汉字是写错的，看考生能否挑出来，由此来推断考生写的能力。这个方法比较可靠，对就是对，错就是错。但是这样毕竟还不是直接测试学生写的能力，所以这个办法试验了一次也就放弃了。后来他们想出来的办法就是现在应用的综合填空的办法，以填空题的形式考，一个句子中预留的空格处只可能填写某一个汉字，而不可能填写其他的汉字。

1985年开始试考。考试后我们计算出的难度和我们考前预想的难度达到了基本一致，这是比较理想的结果。因为我们针对的是对外汉语教学一、二年级的学生，从水平考试的角度来讲，我们希望的难易度指数(facility)是0.5 左右，这是一个中等的难度，等于平均答对率是50%。因为水平考试与成绩考试的不同就在于它要区分学生的水平，成绩考试可以大家都得高分，但是一个水平考试如果不能起到区分学生水平的作用，那这个考试就失败了。所以要想区分学生的水平，从理论上讲，难度在0.5左右即中等水平比较合适，这样考试的区分性会比较好，从个别的题来讲是这样，从整体卷面来讲也是这样的。最好把难易度指数控制在0.5左右，结果第一次实验的结果难易度指数就是0.56。但是当时题目的区分性不是很理想。

1986年确定了试卷的基本题型，考试的大体格局、难易度也都确定下来了。1986到1988年主要是实验阶段，做了一些题目上的修改，大的调整比较少了。最后的定型是在1988年。

1988年开始了计算机自动阅卷、评分系统的研制。这个计算机系统当时是在Dos 下开发的，现在我们已经升级到了Windows 下，但计算方法等基本的东西主要还是沿用了最初的设计。

1990 年在技术上解决了“垂直等值”问题。所谓“等值”就是要使不同次考试的考生考出的水平能够具有可比性(张凯2002)。这就要在不同的试卷之间建立对应关系。我们的考试有一个最重要的特点就是发等级证书，那么就存在一个问题：我们发给考生的证书，现在发的A级和过去发的A级是不是体现一样的水平?这就要求具有同样水平的考生得到的分数是等价的。如何实现这种等价呢?在不同次的考试中，试卷难度的变化和考生水平的变化是不可预测和不可控制的，所以必须找到这一次考试所用的试卷与标准试卷之间的对应关系。研究者采用的是所谓“共同题”即错测验(anchor test)的办法，就是在每一份试卷中都设置共同的题目，这些共同题目就能够测出不同批次的学生水平差距怎么样，根据这个差距我们就能判断题目是变难了还是容易了，也能判断两拨学生水平是不是一样，差距到底有多大。这个道理说起来很简单，但是其中的数学方法是很复杂的。

等值问题是我们在技术上的一个重大突破。桂诗春先生是国内第一个研究等值问题并在语言测验中运用等值技术的专家。当时郭树军去找桂先生请教，得到了桂先生热心指点。我们的方案也得到了桂先生的肯定。这就是我们现在所使用的等值办法。这个办法经过谢小庆博士不断完善，一直沿用至今。

在等值问题解决之后，我们的主要工作就是如何提高题目质量的问题了。我们在命题、题目分析、内容效度方面作了很多改进。有了等值之后，要把原始分数转换成HSK分数。因为原始分数所提供的信息是有限的，第一，原始分数不能反映考生在团体中的位置。HSK考试作为水平考试，很重要的一点是考生的分数要准确反映出考生的水平，这个水平是相对的。第二，原始分数不能直接对几个单项考试进行比较。因为各单项考试的分数比重不同，所以不能只根据分数的高低就说考生哪方面的水平比较高。原始分数究竟是怎么转换成HSK分数的呢?简单地说，就是把考生放在一个虚拟的团体里面来找到考生的相对位置分数。为什么说是一个虚拟团体呢，因为HSK考试每次的考生人数不是很多，所以每次考试中考生水平的变化都会影响到这一次考试的结果，那么为了准确地区分考生的水平，我们就把每个考生的分数和我们所设定的标准参照组或者标准参照样本进行比较，这个标准参照组是始终不变的，反映出来的考生的相对水平也是稳定的。把原始分数转换成HSK分数，首先就是把各个单项的原始分数与标准参照样本相比较，计算出一个能够表示相对位置的Z分数。有了Z分数，单项和单项之间具有了可比性，一个考生和其他考生也具有了可比性。在Z分数中，最高我们取3分，最低取-3分，平均分是0分，也就是说，一个考生如果Z分数为0，他在标准样本里就处于居中的水平。以HSK(初中等)为例，为了给考生一个更容易观察的分数，我们再把Z分数通过线性转换转换成为平均数为50，标准差为15的HSK分数，这就是考生所看到的自己的单项HSK分数;相应地，对于原始总分，我们则要把Z分数转换成以200为平均分数，以60为标准差的HSK分数。HSK总分并非单项分数的简单相加，而是经过了加权计算的。为什么要加权呢，因为就一个考生的整体能力来讲，听、说、读、写各方面技能的重要性是不同的，如果不加权就反映不出来考试设计者的这个思想。为什么听力理解有50个题目而语法结构只有30个题目呢?说明试卷设计者认为听力理解比语法结构重要，我们必须通过给分数加权的办法反映出设计者的这种想法，所以我们在计算考生总分的时候，给了各单项分数不同的权重，这样计算出的HSK总分当然不等于各单项HSK分数简单相加之和。HSK[初中等]各单项分配的权重为：听力：语法：阅读：综合=1：0.6： 1：0.8;而HSK[基础]和HSK[高等]各单项的权重均为1。

HSK考试一共包括三种考试：HSK(基础)、HSK(初中等)和HSK(高等)。它们在等级上是相互衔接的，分数等级共分为十一级。

设定这样的一个等级系统主要是参考了北京大学和北京语言学院的实验情况。理工农医类学生达到三级可以入系，文科学生达到六级可以入系。我们试验的基础样本是：接受过一年汉语预备教育的留学生应该达到三级，接受过两年汉语预备教育的留学生应该达到六级。这么分级也存在一些问题，因为级划得多，级和级之间的差别就很小，容易产生误差。我们的考试精度达不到那个水平。

1990年2月份，由教育部牵头组织了鉴定会，对HSK进行全面的鉴定，有汉语言文字学专家、对外汉语教学专家、语言测试专家、心理测量学专家、计算机技术专家组成的鉴定小组，包括北京大学陆俭明教授，广州外语外贸大学桂诗春教授，北京语言学院吕必松教授、王还教授，心里测量学专家张厚粲教授以及计算机等等方面的专家和领导。在鉴定会上，专家们普遍认为这个考试从信度、效度等方面看都很好，是个非常科学的考试，并建议我们向海外推广。于是从1991年开始，我们开始在海外选点，首选的三个点是新加坡、日本和澳大利亚。1991年的6 月15日，在新加坡国立大学进行了HSK在海外的首次考试。

1992年，在国家教委主任李铁映倡议下，我们组织了“首届汉语考试国际学术讨论会”，李铁映会后还接见了我们汉语水平考试中心的全体同志。接着他签署了国家教委第21号令—《中国汉语水平考试(HSK)办法》，要在外国人当中实施汉语水平考试。

HSK 考试之所以吸引了越来越多的考生参加，影响日益扩大，很重要的一个原因是考生对于获取汉语水平证书的需求在不断增长，然而还有一个不能忽视的原因就是 HSK是一个让人信服的考试，是一个科学化程度很高的考试，它的可靠性(信度)和有效性(效度)都得到了证实。

对于任何一个考试我们评价它的优劣至少是从两个方面考虑，一个是信度，一个是效度。

信度是指一个考试的结果的一致性和稳定性如何，如果对同一群考生实施同一个考试，在考生的知识和能力水平不变的情况下，多次考试的结果是稳定的、一致的，那么我们就认为这个考试是可靠的，或者说它的信度比较高。信度可以用信度系数表示，一般认为标准化考试的信度系数应该在0.90以上，托福考试在0.95 以上，而HSK考试一般是在0.98左右。HSK之所以有这么高的信度，一方面是由于它有足够多的题目(例如HSK初、中等有170个题目)，这大大降低了考生答题的偶然性;更重要的原因是HSK每一个题目都经过预测，正式试卷的题目是经过对预测结果进行统计分析以后筛选出来的，选题的标准之一就是看其是否能够区分考生的水平，叫做区分度。HSK预测筛选题目的标准是每个题目的点双列相关系数达到0.25以上，近年来多数题目都能达到0.30以上。可以说汉语水平考试的每一个题目都是具有相当的区分度的，这就保证了整个考试的内部一致性，从而保证了它的信度。

比信度更为重要的是考试的效度，效度是指一个考试是不是测到了它想要测的东西，是否达到了测量的目的。如果一个叫做“汉语水平考试”的考试考的不是学生的汉语水平而是别的能力(比如记忆能力、计算能力等)，那么这个考试就是无效的或者说是效度不高的。效度的证据不像信度的证据那么容易获得，而是需要长期的积累。HSK经过多年的考试，积累了不少的效度的证据，HSK的用户认为HSK的确能把考生的汉语水平高低区分开来，HSK的确考出了学生的实际汉语水平。我们也对HSK的效度做了一些实证性的研究，比如把考生的HSK分数与教师对他们的主观评价做相关分析，证明这类相关是比较高的，说明HSK是有效的。

HSK是一种标准化的考试，HSK的标准化程度是非常高的。所谓标准化是对考试的全过程都实施标准化，包括试题编制的标准化、考试实施的标准化、阅卷评分的标准化以及分数转换与解释的标准化。HSK在这个环节上都做了严格的控制，最大限度地减小考试的误差。比如在试题编制标准化方面，我们坚持了语言材料真实性(不加修改)和预测选题的做法;在施测标准化方面我们用统一的录音指令代替主考人的宣讲，使考试在同样的条件下进行。

HSK是在语言学、对外汉语教学、心理测量学和教育测量学以及语言测试理论指导下，结合汉语特点而设计的一种汉语作为第二语言的水平考试，其科学化程度是很高的，得到了广泛的承认。

三、汉语水平考试的局限性

HSK 考试作为第二语言的水平考试，它对于对外汉语教学的推广起到了十分积极的促进作用。另外，作为一项考试，HSK能够给教学提供一些反馈信息。但是HSK毕竟只是一个考试，它是一个可靠的、有效的测量工具，但它不是一个提高教学水平的手段或工具。考试的任务仅仅是准确地测量考生的水平而不是提高学生的水平，要想真正地提高教学质量，还得从教学的理论、原则、方法上多下功夫。HSK是水平考试，它有自己的要求，教学也有自己的要求，教学没有必要围绕着HSK 转。

HSK虽然是一个科学化程度很高的考试，但也还存在一些不足之处，比如试卷的结构和题型方面的一些问题，北语汉语水平考试中心正在考虑在适当的时候进行比较大的调整，甚至是全面的“改版”。当然“改版”以后的HSK考试一定会更可靠、更有效、更能准确地反映考生的真实水平，更能适合广大用户的需要。

HSK的另一个不足之处就是和世界上其他几个大规模的考试相比，它还是一个小规模的考试。作为小规模的考试，分散预测的难度很大，预测成本也非常高。作为小规模的考试，它的题库还不够大，有一些题目还不够完美。

HSK 的几个考试在彼此衔接上还有“不顺”的地方，应该加以改进。

上一篇：法国启动“汉语年” 法前总统德斯坦用汉语致辞
下一篇：2011BCT商务汉语水平考试时间