普通话水平测试之评分标准透视

来源：普通话学习网时间：2006-09-05

一

普通话水平测试是国家为推行和普及现代汉民族共同语而设置的一种考试制度。作为国家实施的语言能力测试，除不能忽视普通话在人们口语交际中的鲜活性、灵便性之外，精确严密的量化计分是完全必要的，也是不可缺少的。

然而，随着普通话水平测试大面积的开展，暴露出许多急待解决的问题，其中评分标准越来越成为测试员在测试工作中面临的一大难题。一方面，目前全国普测中尚无统一细致的评分标准细则，测试员全根据自己对《大纲》的理解评分，由于测试人员水平不一，个人判断理解能力不同，造成评分标准带有极大的主观性，不可能准确的反映出受测人的普通话实际水平，使测试成绩有失公正。另一方面，受测人层次不一，要求不同，执行标准也要灵活掌握，因而测试员反映在工作中越来越困惑，越来越不知到底应该如何评分才能准确、公正、科学地反映出受测人普通话的实际水平。

目前，这种状况日趋严重，造成的负面效应也越来越大。由于没有统一细致的评分标准，有些地区的测试站在测试过程中，对评分标准放的过宽，受测人的总合格率达到95％以上，几乎做到人人过关，使普通话水平测试流于推普过关的低层次阶段；另有一些地区的测试站对评分标准掌握的过严，受测人的总合格率在60％左右．使受测人闻测色变，扼制了参加普测的热情，阻碍了普通话水平测试工作的健康开展。如果我们不很好地解决这一难题，就很可能会使普通话水平测试这一国家性考试流于一种低层的推普过关形式而不能成为强制性的检验推普成果的一种手段。与其他语言测试不同，普通话水平测试的成绩是挂在受测人的嘴上的，只要受测人开口讲普通话，他就已经向人们展示出他的普通话水平。我国将在2O1O年在全国大中城市普及普通话，实现这一目标需要全体社会成员的努力。作为推普工作的一个重要组成部分，普通话水平测试工作必不可少，因而加强普通话水平测试工作的科研力度，理顺、确定、准确统一的细致的可操作性的评分标准，科学、公正、客观地反映出受测人普通话的语言面貌是保证普通话水平测试体系的科学性、规范性、可操作性的重要条件。

二

国内（大陆地区）的普通话水平测试其测试主要内容及其分值分配是：（一）读单音节字，10分；（二）读双音节词语，20分；（三）朗读，30分；（四）说话，40分。内容的安排与分配的比例应该说是比较合理的。但是，如果从普通话水平测试的特殊性考虑（所谓特殊性即指普通话水平测试是对应试人掌握普通话达标程度的检测，是对应试人运用普通话进行交际的能力水平的测试和评估）可以在今后的《大纲》修改中适当增加第四项“说话”的分值，相应减少第一项“读单字”的分值，使分值更能体现受测人综合运用普通话的水平。

目前，普通话水平测试中制约着评分标准的因素主要有两个：一个是客观因素，一个是非客观因素。

（一）客观因素

“大纲”规定了评分标准，如在读字词部分中，分为错误和缺陷两大类，并规定每字的扣分多少，可以说有量化的标准，比较好掌握。“大纲”还明确规定缺陷的性质和内容，从声韵调等方面分别加以说明，也便于测试员掌握。但是，在实际操作中会遇到大量的形形色色的问题。《大纲》还没有一个全面完整的评分细则，测试员在《大纲》中找不到评分依据，于是只好凭借自己对《大纲》精神的理解来评分。标准模糊不一，不便于操作。其存在的主要问题是：

1 量化比例

我们知道用量化分析的方法对应试者普通话语音的规范程度作出判断，是普通话水平测试采用的基本方法，其重要性是不容忽视的。而《大纲》目前评分标准本身带有弹性，量化不够，如朗读部分，方言语调的判断，出入很大，因为可扣1.5－3分，测试员更多是依据个人经验评判。在说话部分，虽然“大纲”规定了语音面貌和词汇语法规范程度的打分标准，但是方音明显还是不明显，规范还是不规范，由于无量化评分细则，测试员主观判断起的作用相对更大，这是困扰测试工作的一大难题。

2 字音与语流问题

以第二测试项双音节词语为例，有应试者读词完全隔裂词的亲缘关系，只注意音节的准确，如“英雄、准备、教条”等，读为“英一雄，准一备；教一条”，语音正确，语感很差，吐出词语的方式完全不符合汉民族口语习惯，应该如何评分？《大纲》中没有可凭借的依据。有测试员完全忽略其语感，只要音节正确，其余忽略不计；另有测试员注意到这个问题给以适当减分，这又造成了所执标准不一的混乱情况。这种状况涉及到一个重要的问题即语音（或者说“字音”）跟口语的语流之间是什么关系？目前完全侧重于语音而不考虑交际与语流的现象是很值得研究的。语音正确，语流极差，无法正常说话，肯定要降等，但在实际操作中又没有量化项作为扣分的依据，反之，语流好，语音不好，不会倒过来加分，这之间如何作技术性处理呢？

3 “方言语调”问题

首先大家对“方言语调”这个概念理解上有很大差异，有人认为它包含“方言色彩”和“语气语调”两层含义，有些人则认为它就是指“方言色彩”，还有人认为它专指方言色彩中的声调──这种认识上的分歧必然带来评分上的混乱，我们认为普通话水平测试中“方言语调”的范围应大于语言科学中界定的“方言语调”。普通话测试水平中的方言语调除方言色彩外，还应该包括声调的节律，词语的轻重格，轻声，音节的强弱的问题。把许多普通话中遇到的语流语调归入此类便于操作，但在具体评判时要转换为约略量．那么这个约略量的量化比例如何分配？这又是一个相当困惑的问题。

4 “语言面貌”问题

说话项中语音面貌的描述不十分清晰，测试员在此项评分中的误差率较高。当然这个评分项作为《大纲》有意设立的定性分析项，应该让测试员有一定的自由度。但定性分析并不排除用定量分析的方法来提供依据，对于“方音明显”“方音较明显”“方音不明显”应该有一个接近量化的界定．比如可依据有没有出现成系统缺陷或错误，成系统缺陷或错误出现多少，及这种错误或缺陷的社会认知程度怎样等因素来判定，尽可能量化。

5 非语言现象问题

评分标准在某些方面过分强调一些非语言性的侧面，以致在一定程度上压倒了必要的、基本的条件。如朗读部分，停顿、断句不当，每次扣一分，相当于10个错字，而在第一部分，错10个字，就要降级，不能评为一级了，这明显有点不公平。

6 等第的临界问题

等第的临界线问题事关重大，如何把握也是一个客观存在的难题。一乙与二甲，是最敏感的界线，一乙与二甲的量化可比度应精确到什么程度？一甲要严到什么程度？这些也是普通话水平测试中在评分问题上有待解决的问题。我们知道普通话水平测试是目标参照性考试。“一级甲等”是测试员在测试每一位应试人员时所参照的目标。但“一级甲等”实际上是一个理论概念，它无法绝对对应在某一个特定的人身上，每一个测试员心中都有一个自己认可的“一级甲等”，因而测试员所参照的目标也是不确定的。从中我们也可以看出影响、制约着普通话水平测试评分的还有一些非客观性因素。

（二）非客观因素

1测试员素质的多元性普通话水平测试是以测试应试人口语发音接近标准程度为目的的测试，由于语音变化的模糊性和语音识别的复杂性，现阶段只能依靠测试员来判定应试人的普通话水平，所以，无论其他方面（如命题、测试程序的规范等）做出多少科学化、规范化的努力，如果测试员的素质不高，普通话水平测试也必定会失去其应有的权威。基于此，国家三部委《关于开展普通话水平测试工作的决定》中，特意对测试员的任职资格做了许多明确规定，如“具有大专毕业文化程度和三年以上工作实践”、“熟练掌握汉语拼音”、“有较高的语音分辨能力”等．但普通话水平测试是一种专业性很强的大规模标准化考试，这项工作一旦启动，便需要大量的测试员去担当“主考官”的角色。在现阶段这方面人才十分短缺的情况下，必然会出现测试单位降格以求，测试员素质参差不齐状况，如有些测试员自身口语水平有待提高，有些测试员缺乏基本的语音学知识，有些测试员对测试工作的性质认识不够等等，这种种情况，必然会影响到普通话水平测试的信度。

2 语言规范的心理定势语言是多层次的结构体，不同层次（如地域层次、职业层次，年龄层次、文化层次等）的语用也具有不同特色。虽然规范汉语的口语标准也就是普通话水平测试所参照的目标，大体上大家的看法是一致的，但在实际的言语活动及测试中，由于需要和心态不同，人们对这一标准的态度以及由此而来的行为和结果都不同。比如测播音员时的评分心态和测教师时的评分心态不同，测中文专业的学生和测非中文专业的学生时的评分心态也不相同，不同的评分心态实际暗含着测试员对不同应试对象所应具备水平的心理预期，在这种不同心理的作用下，测试员在掌握评分标准时，也往往会有不同的宽严尺度，这就很可能导致不同层次的应试人等分不等值，影响测试的客观公正与成绩的可比性。

3 测试员的疲劳程度（前几名与后几名评分有差异）、心理因素（受测人的职业、身份）、感情因素（熟人、教过的学生）、个人语音修养（测试员自我的语音听辨分析能力的差异）都会对成绩的公正给以负面影响。测试员的个人好恶、临场心理感觉等非测试因素也会造成评分差异。测试的原则态度应该是不以个人的爱好来评判，不把不良情绪带到测试中，确保测试的严肃性，规范性。但无疑测试员是一个社会人，必然有自己的好恶，一旦测试员把个人情绪带入考场就必然会影响测试的客观性，只不过这种影响有的人强有的人弱，同一个人又会有时强有的弱，在朗读和说话项目中这种干扰表现得更突出些。

三

要解决普测中出现的这些问题，需要做大量的工作。我们采取的对策是：

1建立一支高素质的测评队伍普通话水平测试具有十分细致的特点：音与音的区别十分细微，给分、扣分数字相当细小，测评员听辨音和整个测评操作过程必须十分细致。显然，这就要求测评人员不仅要有比较丰富的语音知识，比较强的听辨音能力，还要有足够的细心和强烈的责任感。也就是说，要有较高的思想素质和业务素质。实践已向我们证明：作为测评人员，只有语音理论知识是不够的，他必须能熟练地运用这些知识去迅速地判断正误。能熟练、准确地讲一口流利的普通话是不够的，他虽然可以给应试者作示范，但不一定能分辨应试者错误的所在和错误类型，也不能提供行之有效的改正方法。一个合格的测评员，应当是面对应试者的实际语音面貌，无论是好是坏，是错误是缺陷，都能既“知其然”又知其“所以然”，必要时还能为应试者示范。同时，对待工作兢兢业业，一丝不苟，既对推普工作负责，又对应试者负责。有了这样一支测评员的队伍，就可以把测评工作中可能出现的偏差减少到最低限度，普通话水平测试就容易做得更科学、更公平、更规范。对于一般应试者，只要学好普通话的发言就可以了，对于测试员来说，则应当深入学习普通话知识（尤其是语音知识）。最起码要熟练掌握大学中文系《现代汉语》课本的语音部分，以求对自己的发音和他人的发音有更高的理论认识，能对具体问题作出清醒的分析，而不是就事论事，人云亦云，却不知其所以云。当然，如果多了解些汉语的现状和历史的话，则更有利。对测评员的培训，重点应放在实际测评能力和认真细致的工作作风两个方面。实际测评能力包括：基本的理论知识，听、辨、记音能力、熟练运用记音符号（汉语拼音和国际音标）的能力，分析、归纳错误音类的能力，以及口语示范能力等。

2加大科研力度，加强测试理论研究，加强普通话水平测试的可操作性。普通话水平测试评分中非客观因素的干扰，一方面是由于普通话水平测试是口语水平测试，语音本身的模糊性和语音识别的复杂性，使评分中的主观性成为不可避免，只能依靠提高测试员的水平来尽量减少其所带来的影响。另一方面则是由于《大纲》没有一个评分细则，测试中运到的大量的形形色色的问题，测试员在《大纲》中找不到评分依据，于是便只好凭自己对《大纲》精神的理解来评分，这也增加了评分中的主观性．因此我们必须加强普测的科研力度，来有效地逐步完善地解决普通话水平测试中出现的新理论问题和实践问题。根据《大纲》的原则，制订出符合本省本地实际的评分细则，是增强普通话水平测试工程的科学性、公正性、可操作性的可靠保证。

普通话水平测试是一项开创性的系统工程，需要全体语言工作者的共同努力。为完成这项事业，为维护国家语言工程的信誉，加强科研力度，完善普通话测试体系是我们每一个语言文字工作者应尽的义务。

（作者：杜文霞）