关于“HSK动态作文语料库”的建设构想

来源：普通话学习网时间：2007-01-23

一、建设本语料库的意义和用途

1、HSK高等汉语水平考试自1993年开始正式实施，作文考试作为其中的主观性考试之一，经过11年的积累，已有2万多篇考生作文，字数将近1000万，并且还在逐年增加。这些考生作文对对外汉语教学与研究来说是用途非常广泛的宝贵财富，如果加以充分利用，可以发挥十分重要的作用。然而，长期以来这些财富并没有得到及时的整理和充分的开发，甚至可以说完全没有得到利用，而是常年闲置在仓库中，这是非常可惜的。

“HSK动态作文语料库”正是针对上述情况，由国家汉办立项、由北京语言大学崔希亮教授主持的一个科研项目。

2、“HSK动态作文语料库”将收集自1992年以来（1992年的作文答卷为试测答卷）历年汉语水平考试高等考试中的全部作文答卷，全面而完备；而且，作为动态的语料库，随着汉语水平考试的不断进行，语料的不断增加，语料库将不断得到充实。

本课题拟建语料库的建设规模为：收集1万篇左右考生作文、约400万字的语料。其余部分随后逐步建设。

3、“HSK动态作文语料库”的研制，首先将为汉语水平考试研究提供一个基础平台。例如主观性考试的客观化评分问题，特别是利用计算机进行阅卷评分的问题，是一个亟待解决的问题，又是一个很难解决的问题，其主要原因之一是无法对考生的主观性试题答卷进行规模分析。作文考试是主观性考试，目前采用的评分方法是总体等级评分，评分标准共分5级，又细分为12个小级；由2名阅卷员交叉阅卷，分别打分，最后取平均分作为考生的作文成绩。这样的方法，不仅费时费力，而且往往受到阅卷员的兴趣爱好、欣赏习惯、心态情绪和疲劳程度等多种主观因素的干扰，从而造成评分时的误差，这对考生显然是缺乏应有的公正的。因此，最大限度地降低乃至排除主观性试题评分的主观性，实现客观有效而又快捷迅速的作文评分计算机化，是研制本语料库的首要目的。

要实现这一目标，必须解决两大难题。其一是确立能够全面、客观地反映考生写作水平的作文分项评分标准及各项标准所占的比重，即根据作文评分标准的主要特征，把作文评分标准分解为若干不同的标准项，并按照一定的模式合成分数；其二是计算机能否根据已经确立的作文分项评分标准自动而准确地从考生作文中提取出相关信息，这不仅依赖于汉语本体研究的相关成果，如句法、语段、篇章方面的研究成果，同时也取决于中文信息处理技术的发展水平。

美国ETS（Educational Testing Service）的作文自动评分系统“电子评分者（Electronic Essay Rater，即E-rater）已经研制成功，其与人工评分的相关在0．87到0．94之间。我们可以借鉴E-rater的理论基础和成功经验，来研究把汉语作为第二语言学习者的作文自动评分系统。

4、“HSK动态作文语料库”是母语非汉语的外国人（另有部分国内少数民族考生）学习汉语的中介语语料库。据我们所知，目前国内外汉语中介语语料库只有一个，即北京语言学院于上世纪90年代中期研制成功的“汉语中介语语料库”。汉语水平考试方面的语料库尚付阙如，中介语的动态语料库即可以随时或定期更新的语料库也属未见。因此，“HSK动态作文语料库”可以填补国内外汉语中介语语料库研制的一项空白。

运用本语料库，研究者可以进行多方面的研究。例如汉语中介语研究、第二语言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考试研究、汉外语言对比研究、汉语本体研究，等等。这些研究对提高汉语教学、汉语测试、汉语本体研究的水平，都具有重要意义。而语料库方法的运用，也将使这些研究建立在更扎实的基础上，使研究结论具有更广泛的普遍性和更充分的科学性。因为“语料库方法在语言研究中的一个重要作用就是可以为研究者提供更一般的、经验的语言数据，这些经验数据可以使语言学家做出的结论更客观。”由于对“语言事实的观察是可以定量统计的”，研究中可以避免对某种语言现象使用“频度和罕见度的主观臆测”。（参见黄昌宁、李涓子2002/153-156）通过字、词、句、篇各种层次上的统计分析，可以充分了解考生使用字、词、句、篇的基本情况，哪些字词句使用频度高、哪些使用频度低、哪些容易出错、哪些错误最为典型，等等，从而为汉语教学与测试提供重要的参考与依据。所谓“例不十，法不立；例外不十，法不破”的做法，以语料库的方法来看，未免显得太不足道了。

考生作文中包括考生在使用汉语进行书面表达时出现的种类繁多的语病，包括字、词、句、篇等多方面的使用错误，我们可以把它看作外国人学习汉语的一个“语病诊所”（此名称引自于根元1999/69）。从这个诊所中，我们可以观察到外国人在学习汉语过程中会在哪些方面出现错误，会出现什么样的错误，并对这些错误进行类型分析，对各种类型的错误进行统计分析，从而得出考生在汉语使用方面的错误序列，以及错误程度、频率方面的序列。这对汉语中介语研究具有重要意义，对汉语教学同样具有重要意义，对汉语测试的积极作用也是显而易见的。

作文语料库不仅是一个包罗万象的“语病诊所”，也是考生学习汉语的一个成果展示场所，作为参加高等考试的考生，除存在的错误之外，更多的是对汉语的正确使用。而中介语研究既要对中介语进行描写，又要对中介语的形成过程进行分析；它既重视错，也重视对，从而发现第二语言学习规律（鲁健骥语，转引自于根元1999/72）。

虽然由于缺乏足够的语境，迄今为止，在语用学和话语分析中基于语料库方法的研究还很少（参见黄昌宁、李涓子2002/158），但在书面语语料库中，特别是作文语料库中，已为篇章研究提供了充足的上下文语境，可以进行深入的语段篇章分析。

语料库对教材的编写具有重要意义。它不仅提供了大量的真实例句，而且提供了语句的具体使用环境及用法的多样性，能为语言教学提供更普通的实例，从而有效地避免教材对教学的某些误导（参见黄昌宁、李涓子2002/159）。

5、本语料库是中国汉语水平考试作文考试考生答卷的第一个语料库，将对以往历年考试的作文答卷进行全面整理，将每一张答卷通过电子扫描的方法录入计算机，从而彻底改变以往作文答卷管理中的落后局面。因此，本语料库的建立标志着对考生作文答卷的管理，开始向着规范化、科学化和现代化的方向迈进。

二、本语料库的主要内

1、原始语料，即历年汉语水平考试高等考试考生作文答卷。有手工录入与电子扫描两种版本。

2、考生相关信息，包括：考生姓名（以代码形式出现）、国别、性别、年龄、母语、汉语学习时间、作文长度、作文分数、口试分数、客观试卷中听力、阅读、综合各部分分数和客观卷总分分数、汉语水平等级、考试时间、考试地点等。

3、字信息，包括：字量及字频统计、错字数量统计、错字类型分析、别字数量统计、别字类型分析、繁体字数量统计。

4、词信息，包括：分词、词量及词频统计、词性标注、词类统计、词类偏误类型分析、词类偏误统计分析、词语使用错误类型分析。

5、句信息，包括：考生使用的汉语基本句型统计、考生使用的汉语特殊句式统计、基本句型使用错误类型统计与分析、特殊句式使用错误类型统计与分析。

基本句型包括：主谓句、非主谓句、动词谓语句、形容词谓语句、名词谓语句、无主句、独词句。

特殊句式包括：把字句、被字句、比字句、连字句、是字句、“是……的”句、有字句、连动句、兼语句、存现句。

6、篇章信息，包括：句间连接手段的统计与分析、句间关联词语使用情况的统计与分析、省略的统计与分析、语义表达手段的统计与分析。

7、编制各种辅助软件、语料库的管理软件和检索软件，解决各个子库及其内容之间的链接问题、各种相关信息的调入与切换问题。

8、探索动态语料库随着语料的不断增加而带来的语料库动态加工管理办法，解决新增语料的加工处理与分类入库问题。

三、本语料库的基本结构
第一级：界面，HSK动态作文语料库；
第二级：粗语料库、精语料库（均以考试时间、地点、考生国籍、考号为序）；
第三级：考生信息库、字信息库、词信息库、句信息库、篇章信息库（粗语料库只有原始语料和考生信息库）；

四、本语料库的建库原则

1、真实性原则

由于我们把考生作文原件扫描进电脑，作为电子版本存于语料库中，因此本语料库完全保持了考生作文的原貌。考生作文中的全部信息——从汉字的一笔一画到词语的搭配组合，从句子的结构到篇章的安排，不论是正确的表述还是错误的用法，全部得到了保留，从而最大限度地满足了真实性的要求。而在手工录入版本中，我们虽然录入的是正确的汉字，但给每个实际上是错别字的字都做了标记，看到相应的标记，读者即可以到电子扫描版本中去查找对应的文字，以考察考生使用汉字的错误情况。

作为一种参照的对比，我们也对一部分（108万余字，约占全部语料的四分之一）手工录入的考生作文采取了完全“忠实于原作”的录入方法，即对考生作文不做任何修改订正，病句、错字、别字、繁体字、生造字、格式、标点等均原样录入，保持原文原貌。
我们之所以把真实性作为本语料库的首要原则，目的是要为研究者提供最原始、最准确的研究资料。

2、全面性原则

语料是描写和研究中介语的基础，如果语料不完整、不系统，那么在此基础上描写的中介语就不准确（参见于根元1999/88）。本语料库将大大超越“汉语中介语语料库”100万字的规模，达到400万字，以后还将逐步达到1000万字左右。而且，作为动态语料库，随着考试的不断进行，语料还会不断增加，从而为各方面的研究提供广泛而坚实的基础。

我们的最终目标是：将历年HSK高等考试中的作文答卷、包括1992年的试测作文答卷，全部收入语料库，研究者可以查到自1992年以来的任何一次考试的任何一篇考生作文。

3、平衡性原则

按照全面性原则收入的作文语料，首先将建成一个粗语料库，存有历年HSK高等考试中的全部作文的原始语料；在此基础上，再按照考试时间、考试地点、考生国别、考生序号等几个角度，随机抽取相等字数的语料进行精加工，建成精语料库。

所谓平衡性原则也就是语料的等量原则，主要指不同国别、不同母语背景的考生的作文数量及字数相等。遵循这一原则的好处是，可以为研究者在不同母语背景的汉语学习者之间进行比较分析时提供极大的方便。

4、简洁性原则

对语料的各种统计分析结果的说明描述，在保证清楚明确的前提下，尽可能简练。

5、方便性原则

本语料库界面友好，使用方便。按照语料库中的使用说明，可以进行各种相关信息的查询、检索、统计等。除便于读者使用外，对后续语料进行动态加工处理也是非常方便的。

6、开放性原则

建设本语料库的根本目的是促进国内乃至全球汉语教学事业的发展，为此，我们愿意为广大汉语教师和研究者提供一个基础平台，为对外汉语教学和研究服务。本语料库建成后将交由国家汉办提供给对外汉语教学的同行们使用，并在国家汉办允许的前提下，把它放在北京语言大学科研互动网的网页上公开展示，供对外汉语教学领域的教师和研究者免费浏览、使用（仅限于非商业目的），也向对汉语教学和对汉语研究感兴趣的其他各界人士免费开放（同样限于非商业目的）。我们认为，使用本语料库的人越多，才越能体现我们工作的价值，也才能真正发挥本语料库的作用。

五、一些可预见问题的处理方法

1、错别字的处理

在作为参照的对比的那部分语料中，为了保持语料的真实性，在进行语料录入时必须“忠实”于原作，保持语料文本的本来面目，所有句子（包括病句）都必须按照原样录入，错别字也必须“将错就错”，而不许“改邪归正”。

别字好办，错字则需要利用造字程序进行造字。

如实录入错别字可能造成的问题是，在利用计算机软件对语料进行分词处理和词性标注时，遇到错别字会无法处理或做出错误的处理。

我们准备采取的解决方法是，在遇到错别字时，先录入正确的字，然后再录入错别字并以括号标出：错字用中括号标示，别字用大括号标示。
例1、罚[]款，表示把“罚款”的“罚”写成了“”。
例2、追[]求[]，表示把“追求”写成了“”。
例3、个[亻+个]人，表示写“个人”的“个”时多加了一个“单人旁”。
例4、卫[卫-一]生，表示写“卫生”的“卫”时丢掉了一“横”。
例5、提{题}高，表示把“提高”的“提”写成了“题”。
例6、导致{至}，表示把“导致”的“致”写成了“至”。

录入正确的字是为了保证程序能够正确地自动分词和标注词性；录入考生的错别字是为了保持作文原貌。

需要说明的是，括号连同其中的错别字，都可以通过计算机程序自动删除，也可以自动恢复。这样，我们既保留了考生作文的原始面貌，可以对学生的错别字进行检索统计，又可以在分词、标注词性、以及词句篇章处理等无需显示学生的错别字时，将这些错误信息删除，以便于迅速而顺利地进行相关处理。

2、标记符号
[ ]：错字标记，用于标示不成字的字，笔画部件不完整或多余的字。如：[]款（罚款）、[亻+个]人（个人）。
{ }：别字标记，用于标示把甲字写成乙字的情况。如：{题}高（提高）、导{至}（导致）、磁器（瓷器）。
{FT}：繁体字标记，用于标示繁体字。如：记忆{FT憶}、营养（FT養）。
{PY}：拼音字标记，用于标示以拼音代替汉字的情况。如：缘{PYyúan}分。
{KQ}：空缺字标记，用于标示空着某字不写的情况。
{V}：错误标点标记，用于标示错误的标点符号。如：我家周边的美丽风景，{ V、}。
{W}：空缺标点标记，用于标示应用标点符号而未用的情况。如：周围的环境很安静{ W，}生活也非常平凡。
{S}：多余标点标记，用于标示不应用标点符号而用了的情况。
{CJ}：病句标记，用于标示错误的句子。
{CP}：篇章错误标记，用于标示篇章错误。

3、分词与词性标注

中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。当前汉语信息处理的主战场已从“字处理”转移到“词处理”。由于中文文本是按句连写的，词间无间隙，因而在中文文本处理中，首先遇到的问题是词的切分问题。按句连写转换为按词连写，词的正确切分是进行中文文本处理的必要条件（参见刘开瑛2000/2）。

词是语言中最小的能独立运用的单位，利用计算机把汉语的一个句子、一篇文章、一部著作中的单词，逐一地切分出来，才有可能对汉语进行进一步的分析。……词是汉语语法和语义研究的中心问题，也是汉语自然语言处理的关键问题（参见冯志伟2001/109）。对本语料库来说，除字处理之外，对词、句、篇章的处理都要在词的基础上进行，因此，分词在本语料库的建设中具有十分重大的意义。

理想的分词系统应该具有广泛的开放性、较高的通用性和实用性。鉴于汉语的词与语素及短语的界限不甚分明，以及歧义字段、未登录词（包括中外人名、中国地名、机构组织名、事件名、货币名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语）识别上的困难，以及语缀、动词重叠形式切分后语义解释上的困难（参见刘开瑛2000/2，宋柔1997），我们主要采用词典匹配的方法进行自动分词，自动标注词性，然后人工校对；并根据最终分词结果补充分词底库。根据初步的试验性研究，利用我中心现有的8000词词库进行分词处理，效果还是比较理想的。

存在的问题之一是：学生的词语错误可能会造成分词及词性标注的错误。例如考生把“世界”写成了“界世”，“范围”写成了“围范”，“解决”写成了“决解”，“时间”写成了“间时”，“恶劣”写成了“劣恶”，等等。遇到这种情况，分词程序大概会把它分成两个词。一个平行的例子是，清华大学孙茂松在对新华社新闻语料库XH-CORPUS中的汉语搭配进行计量分析时，由于词典中没有“调控”一词，自动分词系统因而把“调控能力”切分为“调/控/能力” （参见黄昌宁、李涓子2002/195）。为了避免此类问题出现，借鉴有些校对系统将含有易错字的词和词组作为分词单位的做法（参见宋柔1997），我们在校对语料时遇到这样的词就把它记下来，分词前输入词表，从而保持分词的正确。这个方法虽然笨一点，但预期可以保证分词的正确。

4、句法分析
1）断句
计算机依据六种标点符号，即：逗号、分号、句号、问号、感叹号和冒号，自动断句；并进行人工干预。
2）句法分析
计算机根据词性标注，进行动词谓语句、形容词谓语句、名词谓语句、主谓谓语句等基本句型的分析；
根据关键词进行特殊句式的分析。例如：把字句、被字句、连字句、比字句、有字句、是字句、是……的句，等等。

5、篇章处理
计算机根据词性标注及若干定义，进行关联词语的统计分析。
省略分析。

6、软件编制与调试
语料检索软件。符合特定条件的检索与模糊检索，主题检索和全文检索；各种检索情况的相关统计。
具有自学习功能的动态语料库管理软件。

六、本语料库的局限性

1、使不同类型的语料数量均衡是本语料库的一个基本原则，是我们努力追求的一个目标，但有些国家的考生很多，有些国家的考生则较少，有些国家的考生甚至很少；因为考生少，所能收入的作文数量自然有限，因此，所谓“平衡性原则”只能是相对而言的。

2、由于本语料库主要是利用计算机进行自动分析，因此在句法和篇章方面所能进行的分析以及分析的深度，也是有限的。

*本文得到国家汉办科研资助，项目批准号：HBK01-05/023。本文曾在北京语言大学汉语水平考试中心的学术活动中交流讨论，郭树军、张凯、谢小庆等先生的一些意见对笔者颇有启发，谨此致谢。

参考文献
储诚志、陈小荷1993，《建立“汉语中介语语料库系统”的基本设想》，《世界汉语教学》，第三期
冯志伟2001，《计算语言学基础》，商务印书馆
黄昌宁、李涓子2002，《语料库语言学》，商务印书馆
刘开瑛2000，《中文文本自动分词和标注》，商务印书馆
宋柔1997，《关于分词规范的探讨》，《语言文字应用》，第三期
于根元（主编）1999，《应用语言学理论纲要》，华语教学出版社