您现在的位置:普通话学习网 > 信息资讯栏目 > 普通话测试研究 > 正文

制定“PSC评分细则”的原则与方法

来源:普通话学习网    时间:2006-03-22

“PSC评分细则”是对《普通话水平测试大纲》中有关评分标准内容的具体表述,是国家级、省级普通话水平测试员对普通话水平测试应试人的普通话水平等级进行测评的客观依据,应具有较强的可操作性,必须规范和统一。从目前全国各省市试行的“PSC评分细则”来看,绝大部分与《大纲》的原则基本上是相符的,同时由于在个别问题上存在着认识上的分歧,在确定评分方法时就产生了一定的差别,这给测试员的测评工作带来了一定的麻烦,在一定程度上影响了应试人的测试成绩的准确性,因此需要进行统一的修订与完善。从普通话水平测试的性质与效果看,各省市在制定“PSC评分细则”时也应遵循统一的原则与方法。因此,从一定意义上说,有必要制定统一的与《大纲》相配套的、不违背《大纲》精神的、全国通用的“PSC评分细则”。

一、制定“PSC评分细则”的原则

制订“PSC评分细则”应遵循以下几条原则:

1、依据《大纲》的原则

《普通话水平测试大纲》是普通话水平测试的指导性文件,也是纲领性文件。作为国家社会科学基金项目,《大纲》的研制历时四载,并经学术委员会严密论证后才予以公布,因此具有一定的科学依据。作为《大纲》的补充和细化,“评分细则”的制定必须严格按照《大纲》“总论”部分的阐述进行,对《大纲》的原则意见要进行正确的理解与阐述,不允许出现偏离《大纲》原则的评判标准,更不允许为了操作方便或尊重个别人的主观意愿而对《大纲》确定的原则进行随意修改。如《大纲》规定第一题限时3分钟,超过3分钟就要扣分。有些地方在执行时就人为地将时间延长至3′30″才算超时,甚至提出4′以内也可以不扣分,这样做其实违背了《大纲》的原则。从语言测试的信度与效度来分析,时间的限定是测试的一个取量成分,是必须的。《大纲》在研制的过程中,对此也是经过认真的研讨与实验的,不是凭空确定的。要改变这一时间限定,必须有足够的理由,并要经过《大纲》学术委员会的认可。

2、尊重学术成果原则

对普通话的学术研究已有几十年的历史,语音、语调、方言等的研究历史更长,学术成果颇多,许多理论已成公认的权威理论,一些学术研究成果已作为国家标准予以公布。如《普通话水平测试等级标准(试行)》是作为部级标准颁布的,作为信息处理的词汇也有国家标准。制定“评分细则”时应充分利用已有的成果,在统一的前提下进行研讨,不应强制推广尚未取得公认的个人观点。对于有学术争议的问题,如关于轻声、儿化、词语轻重格等问题的处理尚未有国家级、部级标准,就应采取从宽的原则,不应强求一致。同时从语言规范化、推广普通话的角度出发,也希望有关部门尽快组织力量,解决一些与普通话水平测试密切相关的迫切需要解决的问题,如关于必读儿化词、轻声词、普通话语调内涵的确定等问题。 

3、理论联系实际原则

理论毕竟是在不断发展的,《大纲》不可能也没有必要对普通话水平测试中将会遇到的所有问题进行全面的阐述。有些问题是在测试的实践中才发现的,如说话项语音面貌定量与定性错位而造成的提降档问题,方音明显程度的判断方法等。这就需要我们在《大纲》确定的原则的指导下,对实际出现的情况进行分析、归类、研究,运用语言学的理论进行解释、评判,找出比较适合实际的、具有一定科学依据的解决方法。 

4、客观为先的原则

普通话水平测试是一种主观判断性测试,测试员测评能力的强弱起了很重要的作用。目前全国已有普通话水平测试员近2万人,而且队伍还在不断发展。由于测试员个体的学术层次有高低,加上对测试标准理解上的主观偏差,因此对同一个应试人,测试员的评分会有一定的差异,有的还会有较大差异。要解决这一问题,除了加强测试员队伍建设、对测试员不断地进行继续培训之外,更主要的是要遵循客观为先的原则,在制订细则时尽可能具体、客观,要体现出较强的可操作性;对有些原则问题要用通俗易懂、明确而不含糊的语句加以阐述,以减少测评时的主观偏差。因此,必须尽可能较少主观评判幅度较大的一些评分条目,增加一些操作性较强的、较为刚性的评分条目,使主观评分客观化。

要让主观判断性测试客观化,必须增加客观评分的分量,树立客观为先的意识。如关于语音发音错误、缺陷的界定,可以用音位学原理加以阐述,也可以用一般的列举法来加以说明。《大纲》采用了举例的方法,大部分测试员在培训时更愿意用具体的例子来解释这对概念,制订细则时也可以采用这种客观性强的方法。再如关于方言语调的判断,可以将涉及语调的几个主要内容加以说明,如字调、句调、轻重音的处理、停顿的方式、节奏的把握等,使测试员不至于因为主观的感性模糊判断影响具体目的测试项的客观评判,以缩小评分的差异。

二、制定“PSC评分细则”的方法

1、对《大纲》“总论”的部分内容进行具体解释

由于《大纲》对评分标准的表述原则性与综合性较强,因此制定“评分细则”时必须将其加以具体化,一些较为概括性的、容易产生误解的语句要进行详细的解释,以利操作。
比如,《大纲》“总论”部分有以下阐述:

a、读音有缺陷只在第一题读单音节字词和第二题读双音节词语两项记评。
这句话的意思并不是说读音的缺陷不影响第三题朗读与第四题说话的评分,而是说在这两项的评分中不能将它们按照第一题与第二题那样记录一个读音缺陷就扣一个字音的读音缺陷分,而是要将它们进行归类,再按照每一题目的测试项的不同评分要求进行评分。根据这一理解,“评分细则”可以将其表述为:“语音缺陷”在朗读项与说话项的测评中,不能按字的个数进行记录并扣分,但需要对发音缺陷类型进行归类以作为认定有无方言语调的参考条件和确定“方音”明显程度的依据。

b、应试人有较为明显的语音缺陷的,即使总分达到一级甲等也要降等,评为一级乙等。

这里所讲的“语音缺陷”,是指成系统的语音缺陷类型,或分布较为广泛,涉及类型较多的语音缺陷,而不是指偶尔出现的或数量较少不成系统的语音缺陷类型。“评分细则”对此要有明确的表述。同时应说明什么样的情况才算是成系统的,什么样的情况还没有构成系统等等。 

c、语速过快或过慢一次性扣2分。

朗读语速怎样算“过快”或“过慢”?《大纲》没有解释。宋欣桥先生在《普通话水平测试评分中的几个问题》(《语言文字应用》1997年第3期)中提出语速的一个“准极限数”的概念:每分钟字数上限为360音节,下限为120个音节。宋先生认为:“每分钟超过270个音节,可视为‘过快’”、“每分钟少于170个音节的,……可视为‘过慢’”。实际上,很多测试员都有类似的体会:不同题材的文章,不同的朗读者进行朗读,朗读速度会有很大的差别。测试材料尽管选用的多是记叙文、散文,但每分钟超过270音节的情况在测试中比较少,而且超过270音节/分钟的语速会使听的人感到十分的吃力,甚至会觉得难以容忍,因此把它定为“过快”还是比较合理的,值得注意的是朗读速度确定为“过慢”似乎不应是每分钟少于170个音节。从对目前公开出版发行的50篇朗读材料的朗读示范分析,语速每分钟少于170音节的比较多,但也未给人以“过慢”的感觉。倒是接近了“准极限数”下限线(120音节/分钟)时,才给人以难以忍受的感觉,此时判其为“过慢”比较合理。经过对50篇文章朗读速度的对比分析,我们认为以确定每分钟少于130音节为“过慢”比较合理。“评分细则”对此应有一个明确的说法。

将朗读速度定为每分钟不少于130音节的另一合理解释之处是,《大纲》对全文朗读时间有一个限定,为4分钟,并且有30秒的可容空间。作品46号是所有朗读篇目中篇幅最长的一篇,共578字,按每分钟130字的速度计算,需用时为4分25秒,很接近限定的扣分时间但又没达到必须扣分的标准。

2、对《大纲》确定的原则进行适当的补充和阐述

对于《大纲》没有涉及的或较为原则的意见应进行适当的补充和阐述,使“细则”的操作性更强、更为客观、具体,评分更为科学。

(1)关于读音错误与缺陷的界定

读音缺陷与错误的界定不论是国家级普通话水平测试员资格考核培训班还是省级普通话水平测试员资格考核培训班上都是作为重头戏进行训练的,但遗憾的是相当一部分测试员在测试时还是云里雾里的,只是凭着感觉来评判。这一方面是因为这些测试员缺乏语音学的基本理论知识,无法对读音缺陷进行具体描写,同时也由于方言的复杂性和应试人发音的不确定性,即使一些掌握一定语音知识的测试员也无法对某些发音缺陷进行较为精确的描写。这对于普通话培训、提高应试人的普通话水平时非常不利的,因此有必要对一些较为特殊的发音缺陷进行分析研究,将其归类整理,然后根据各省市方音特点,详细描述出读音错误与缺陷的各种类型,供测试员培训与测试时参考。

读音错误与缺陷的界定在《大纲》“总论”部分有举例性质的说明,由于地区的差别,方言的特点,各省市对语音错误与缺陷的界定(尤其在类型上)会有所不同,这是正常现象。考虑到语音发音错误与缺陷的界定涉及的范围较广,数量较多,因此建议将它作为“ PSC评分细则”的“附件”印发。

(2)关于声调成系统缺陷的扣分问题

这里首先要明确,什么是声调缺陷成系统。所谓声调发音缺陷成系统,是指同一类声调大部分的发音都保持相同或相近的一种状态,而这种状态是可以判断为是发音有缺陷的。《大纲》认为,声调缺陷“一般是成系统的,每个声调按五个单音扣分”。从实际操作情况看,声调发音缺陷成系统主要是通过量的积累而加以定性的,量较少时,我们可以认为声调发音缺陷不成系统,但较为复杂的情况是,有时候量的积累较难判断声调发音缺陷是成系统还是不成系统,这种情况下,测试员对于声调发音缺陷成系统的扣分是有差别的。因此建议“评分细则”对此可以作如下规定:“一类声调发音缺陷数量超过十次,可以按五个单音错误一次性扣分;数量不足十次,以按实际发音缺陷个数扣分为宜。”

(3)关于词语轻重格问题

词语的轻重格问题是很多测试员较为关注也较为头疼的问题。实事求是地说,相当一部分测试员对轻声问题都觉得难以掌握,更不用提“中?次轻”、“中?重”、“重?中”、“重?轻”等不同的轻重格式了。而国家语委至今也未出台按类型分项的规范的轻重格词表,儿化也是如此。对此,“细则”应有说明:凡应试人已掌握“中?重”、 “重?轻”两种基本格式的,其他格式可以不作评分要求。但由于词的轻重格涉及语调问题,因此在评定一级普通话时,应对此提出评分要求。

其他诸如朗读项的“方言语调”、“停顿、断句”、说话项的“方音”明显程度、“语音面貌”的定档问题、“自然流畅程度”的确定、“词汇、语法规范程度”等问题的处理,都需要进行具体的阐述和补充。

3、遵循《大纲》精神,根据实际情况适当加以发展

《大纲》有这么一条意见:随着情况的变化应适当增加说话评分的比例。

目前试行的《大纲》确定说话项的分值为30分,并有以下表述:“试行阶段采用以上评分办法。随着情况的变化应适当增加说话评分的比例。”根据这一精神,结合国家语委普通话培训测试中心的指导性做法,从96年开始,很多省市采用取消“判断测试”项,将其分值10分加入到“说话”项中的评分办法。由于说话项所增加的分值一般都消化在“语音面貌”的评分中,使“语音面貌”的档间分值距离相差加大,尤其是四档以下,分值相差分别为6分和3分。这对应试人普通话等级进入二级增加了难度,测试结果与应试人的实际水平也有一定的差距。有鉴于此,部分省市对两种不同类型的评分方法进行对比测试评分,提出提高五、六档分值的意见,并经报请国家语委普通话培训测试中心审定后实施。目前,大部分省市都采用说话项“语音面貌”每档分值相差3分的做法,在实际操作中证明是比较合理的。因为这一评分办法是对《大纲》原则意见的发展,因此在制订“评分细则”时应有比较明确的表述。

4、制订“评分细则”时尽可能使用比较容易把握与操作的表述语句

作为测试员在测评时的主要参照依据,“评分细则”应具有较强的可操作性,使不同测试员在把握、评判时不会产生较大的误差。比如对于“方音”明显程度的判定,不能光凭主观判断,还要根据应试人说话时存在的语音错误与缺陷类型的多少,提出比较容易把握的指导性意见。如“说话时有一类声调存在成系统的缺陷,即可判定应试人方音明显;有一类声调存在成系统的错误,可以判定应试人方音重。”

制定“PSC评分细则”是一项严谨而又复杂的工作,它需要在《大纲》原则的指导下,根据测试实践,运用语言学、语音学、方言学、语言测试理论等知识,依据测试手段、测试方式、测试对象的特点,进行科学而又具体的论述,其目的是统一测试员的评分标准,使PSC的评分减少主观性差异,更具有客观性,从而使普通话水平测试向着更为科学、客观、健康的方向发展。

[参考文献]
①[英]阿兰·戴维斯.语言测试原理.北京:经济科学出版社,1997。
②宋欣桥.普通话水平测试员实用手册. 北京:商务印书馆,2000。
③刘照雄主编.普通话水平测试大纲.吉林:吉林人民出版社,1994。
④语言文字报刊社.语言文字应用.北京:语言文字应用杂志社,1997-3。
⑤何文征.加强普通话水平测试的客观性.北京:语文建设,1998-9。
⑥刘镰力.汉语水平测试研究.北京:北京语言文化大学出版社,1997。
⑦李筱菊.语言测试科学与艺术.湖南:湖南教育出版社,1997。

(作者:屠国平)