少数民族语言文字的标准化和信息化建设

发布日期:2020-09-20    浏览次数:

少数民族语文的规范化、标准化是我国民族语文现代化工作 的重要组成部分。在 中华人民共和国建立初期,就展开了民族语言文字调查工作。在此基础上,为一些民族语言确立了标准音,为10个无文字的民族创制了14种新文字,为文字不完善的民族改进了8种文字。这些工作不仅为民族语文规范化和标准化确立了基点、确定了方向,也为民族语文的信息化准备了基础性工作。1965年,国家测绘局和中国文字改革委员会发布了《少数民族地名汉语拼音字母音译转写法》,这是我国少数民族语言文字第一个标准文本,为少数民族语言地名标准化工作提供了参考和依据。

1984年10月,全国首届少数民族语言文字信息处理学术研讨会在呼和浩特举行,会议涉及蒙古、藏、维吾尔、 哈萨克、朝鲜、壮等6种少数民族语文信息的计算机处理,这次会议的召开标志着少数民族语文信息化正式拉开了序幕。此后连续召开了多次学术会议,极大地促进了少数民族语文信息化学术研究和技术的发展。

1991年,国务院下发了《国务院批转国家民委关于进一步做好少数民族语言文字工作报告的通知》,明确将“搞好民族语文的规范化、标准化和信息处理”作为民族语文的一项重要任务。此后我国少数民族语文规范化、标准化、信息化进入了一个蓬勃发展的时期。

1995年,全国术语标准化技术委员会少数民族语特别分委会在北京成立,随后在其下成立了蒙古、藏、朝鲜和新疆少数民族语4个术语工作委员会,负责整个少数民族和各有关民族语文的标准化工作,为我国少数民族语文标准化搭建了一个工作平台。

1998年7月,由国家民委文化宣传司语文室和中国社会科学院民族研究所联合主办的全国民族语文现代化规划会议在北京召开,主题是民族语文现代化整体规划。会议形成了《全国民族语文现代化规划会议纪要》,对我国少数民族语文信息化产生了深远的影响。

2002年9月,为落实中央领导的批示,教育部、国家民委、信息产业部、科技部、国家标准化管理委员会等部委 组成联合调研组,赴西藏、内蒙古等地区,对民族地区信息化建设情况进行实地调研。在调研和广泛征求意见的基础上,国家民委、教育部起草了《民族语文信息化总体规划》(征求意见稿)。

2004年4月,国家民委文化宣传司和中国科学院自动化研究所在北京联合召开中国少数民族语言信息技术与资源库建设学术研讨会。少数民族语文信息化得到了国家有关部门的关注和支持。国家民委、教育部、信息产业部、中央统战部、科技部、国家标准化管理委员会等机构 的领导出席了会议。同年11月,全国语言文字标准化技术委员会少数民族语言文字分技术委员会成立并召开第一次工作会议,就教育部、国家语委制定的《民族语言文字规范标准建设与信息化课题指南》进行了认真的讨论,达成了建立民族语文信息处理的统一平台、突出规范标准研制、抓好民族语文资源库建设等共识。

2005年7月,时值中国中文信息学会民族语言文字信息专业委员会成立20周年,在青海召开了规模空前的“第十届全国少数民族语言文字信息处理学术研讨会”。会议论题非常广泛,包含了各种民族语文编码字符集标准、输入输出设计、多文种网络应用与信息发布技术、多文种全文检索与跨语言信息检索技术、电子词典研制、民族文字文本处理和机器翻译、电子出版等内容。同年7月,教育部语言文字信息管理司在乌鲁木齐召开了 “中国民族语言文字规范标准建设及信息化工作会议”。会议认为当前要大力加强民族语文规范标准建设;要确保因特网上民族语文数据的传输、共享与信息安全; 要集中力量加快民族文字基础软件、通用软件的研发和统一平台的建设;要支持民族语文的资源库建设,有计划、分步骤地建设多文种的多种资源库。这次会议是政府主导的推进少数民族语文信息化的会议,其召开意味着中国少数民族语文信息化工作进入了一个崭新的阶段,表明中国政府对民族语文信息化工作的支持已进入落 实和实施阶段,也反映了民族语言文字标准化和信息处理研究进入了新的领域和阶段。

下面从标准、操作平台和资源库建设以及少数民族语文网络应用等方面,简述我国少数民族语文标准化和信息化的基本情况。

一、少数民族语文规范标准建设状况

标准化是规范化的发展和升华,是对规范化成果的凝练和概括,是语言规范化走向深入的标志。民族语文标准主要包括两类:一是民族语文及其衍生的标准;另一类是涉及民族语文信息处理、交换、管理等的技术标准。前一类标准使用范围比较广泛,既可以用于一般的社会生活, 也可以用于计算机;后一类标准主要用于计算机信息处理中。

(一)一般的语言文字标准

一般的语言文字标准(或者称本体标准)的制定先于面向信息处理的标准,它一开始主要是为了解决现实生活中语文的不规范问题。信息化时代来临后,又赋予了它新功能,成为人机两用标准。少数民族语文第一个标准是1965年发布的《少数民族语地名拼音字母音译转写法》,不但为我国少数民族语地名标准化提供了参考和依据,而且成为少数民族语地名标准化纲领性的文件。在此基础上,少数民族语地名方面形成了一系列的标准。主要包括蒙古语地名译音规则(CHIV—01—1982)、维吾尔语地名译音规则(CHIV—802—1982)、藏语(拉萨语)地名译音规则 (CHIV—803—1982)、哈萨克语地名译音规则(CHIV—804—1987)、柯尔克孜语地名汉字译音规则(ZBA79002—1990改为 CH/T 4012—1999);藏语(安多语)地名译音规则(ZBA79003—1990改为CH/T 4013—1999)、藏语(德格话)地名汉字译音规则(CH4001—1991)、黎语地名汉字译音规则(CH4002—1991)、凉山彝语地名汉字 译音规则(CH4003—1993)、德宏傣语地名汉字译音规则(CH4006—1998)、西双版纳傣语地名汉字译音规则(改为CH4014— 1999)。此外还有一些标准也涉及了少数民族语地名标准问题,如《中华人民共和国国家地图及英文版地名拼写规则》,就规定了汉语、少数民族语地名的拼写规则等。这些地名标准极大地提高了我国少数民族语地名标准化水平,促进了我国民族语地名的规范化。

国家语委2004年发布的《民族语言文字规范标准建设与信息化课题指南》中,对少数民族人名、地名汉字音译和拉丁化转写、术语规范等给予了重点资助,资助项目包括《少数民族人名拉丁字母转写规范》、《少数民族人名汉字音译转写规范》、《少数民族地名拉丁字母转写规范》、《民族语术语标准化工作的一般原则和方法》、《民族语术语缩略语书写的一般原则与方法》。其中《少数民族人名汉字音译转写规范》涉及维吾尔、哈萨 克、藏、蒙古、彝、傣等族的人名规范。从资助项目看,少数民族语术语标准呈现出两个倾向,一是注重一般原则与方法的规范标准建设,仅在宏观层面上为各种具体语言标准的制定提供指导;二是注意与以前规范标准的互补和衔接,过去大多是地名标准,这一次主要是人名、教材术语以及其他术语的标准建设。这些标准研制出来后,我国少数民族语的术语标准将形成一个相对完整的体系。在长期实践和大量工作的基础上,对一些民族语还发布了地方标准或具有地方标准性质的规定,以促进规范化和标准化建设,如关于蒙古语相继发布《关于蒙古语语文标点符号的规定》、《关于试行蒙古语文缩写和略写法的通知》、《确立蒙古语术语标准化工作的一般原则与方法》、《确立蒙古语辞书编纂的一般原则与方 法》、《确立蒙古语缩略语书写的一般原则与方法》等;关于维吾尔语发布了《维吾尔人名汉字音译转写规则》;关于朝鲜语审核制定了《朝鲜语规范原则》、《汉朝自然科学名词术语统一案》、《朝鲜语术语数据库的一般原则与方法》和《朝鲜语术语标准化工作原则与方法》等。

此外,还有一些通用标准也涉及少数民族语标准化,如《中国各民族名称的罗马字母拼写法和代码》、《中华人民共和国国家地图及英文版地名拼写规则》。这些地名标准极大地提高了我国少数民族语地名标准化水平,促进了我国民族语地名的规范化。《中国人名汉语拼音字母拼写法》也规定了少数民族人名的汉语字母拼音写法等。

(二)面向信息处理的少数民族语文标准

我国民族文字编码标准的研制始于20世纪80年代,迄今已有多种传统通用民族文字编码字符集、字形、键盘国际 标准、国家标准和地方标准。1987年,原国家技术监督局发布了内蒙古民语委、内蒙古计算中心等单位联合制定的《信息处理交换用蒙古文七位和八位编码图形字符集》(GB8045—87),这是我国第一个民族文字编码标准。此后又制定了《信息处理交换用蒙古文字符集键盘字母区的布局》(GB8046— 1987)、《信息交换用蒙古文16×12、16×8、16×4点阵字模集》(GB7422.1—1987)、《信息交换用蒙古文16×12、16×8、 16×4点阵数据集》(GB7422.2—1987)、《信息处理用蒙古文24点阵字模集及数据集》(GB12051—1989)等标准。这些成果在当时 的技术和设备环境下,为研发、应用工作做出了突出的贡献,先后获得了省部级科技进步奖。1994年我国开始制定ISO/IEO 10646多文种平面上的蒙古文国际编码标准。经过专家多次论证,提出了一套以蒙古文字母为基础的《蒙文编码方案》,包括蒙古文、托忒蒙古文、满文、锡伯 文统一的编码方案。这套方案2000年得到了国际标准化组织的通过和Unix技术委员会的认可。2003年发布的Unix4.0中收入蒙古文、托忒蒙古 文、满文名义字符和控制符号155个,编码空间为U1800—18AF。此外《蒙古文拉丁文转写方案》国际标准也正在研制之中。2006年6月,全国信息 技术标准化委员会成立了蒙古文信息技术国家标准工作组,这标志着我国蒙古文信息技术国家标准的制定有了自己的平台。

维吾尔、哈萨克、柯尔克孜三种文字都是以阿拉伯文为基础的拼音文字,大部分字母是共同的,所以在计算机处理这些文字时大都统一做在一个系统上,使系统具有同时处理这三种文字的功能。1989年,原国家技术监督局发布了新疆大学和新疆语委牵头制定的国家标准《信息处理-信息交换用维吾尔文编码图形字符集》(GB12050—1989)。20世纪90年代初,新疆语委牵头组织有关单位的专家起草和制定了计算机信息处 理维吾尔、哈萨克、柯尔克孜、锡伯等文种的三项国家标准,成为各类相关民族语文软件开发共同遵循的标准。2005年4月,新疆质量技术监督局、区信息化办 公室发布了《信息交换用维吾尔文、哈萨克文、柯尔克孜文编码字符集、基本集与扩展集》、《信息交换用维吾尔文、哈萨克文、柯尔克孜文字体字形》、《信息交 换用维吾尔文界面信息常用术语》等三项地方标准。这三项标准的发布对解决维吾尔、哈萨克、柯尔克孜文计算机编码不全、字体字形标准不一致、不统一,界面术 语翻译不准确、不规范,软件之间互不兼容、互不支持等问题起到很大的作用,还将有效地解决当前新疆民族语文信息处理技术应用、推广、发展及实现产业化的问 题。

1989年原国家技术监督局发布了延边电子信息中心起草的《信息交换用朝鲜文字编码字符集》(GB12052 —1989)国家标准,共收入朝鲜文字符5300个。为实现朝鲜语信息处理国际化目标,该中心积极同朝鲜的计算机中心、韩国国语信息学会、延边朝鲜语研究 所联合,完成了三国通用的《国际标准信息技术用语词典(1-25)》编译工作。现已在朝鲜语字母排序、键盘排序安排等方面取得了突破性进展。

1991年,原国家技术监督局发布了四川省民委、语委组织西南民族学院等单位根据规范彝文研制的《信息交换用彝文编码字符集》(GB1314—1991)、《信息交换用彝文15×16点阵字模集及数据集》(GB13135—1991)两个国家标准。1995年又 发布了《信息交换用彝文24×24点阵字模集及数据集》标准。1993年,四川省民委、民语委和西南民族大学完成了《通用多八位彝文编码字符集》国际标准方案,并向国际标准化组织提交了关于将彝文编码到ISO/IEC 10646的提案,经过6年的积极争取,1997年第33次ISO/IEC JTCI/SC2/WG2会议决定接受中国彝文方案中的1165个彝文字符和57个彝文部首的字形及名称,编码空间为UA000—A48F和UA490— A4C8。1999年12月,国际标准化组织终于批准了将彝文及其部首编码到ISO/IEC 10646 BMP的提案,并被收入该国际标准2000年版。

藏文信息技术标准化工作始于1993年,“以我为主”地开展了信息交换用藏文编码字符集国际标准的研制工作。 在国家有关部门的组织协调下,经过藏文专家和计算机专家、信息标准专家们的共同努力,完成了制定藏文编码国际标准的最终方案。1997年7月在第33届 WG2会议及SC2会议上正式获得通过,共包括藏文及梵文字母、标点符号、天文历算符号193个编码字符(俗称小字符集),编码空间为U0F00— 0FFF。这个标准的通过使藏文成为我国少数民族文字中第一个具有国际标准的文字。与此同时,国家公布了《信息技术信息交换用藏文编码字符集基本集》 (GB16959-1997)和《信息技术藏文编码字符集(基本集)点阵字形第一部分:白体》(GB/T 16960.1-1997)两项国家标准。但由于技术原因,国内外至今还没有利用小字符集通过动态叠加组合方式实现藏文信息处理的成功案例。2002年以来,我国两次向ISO/IEC JTCI/SC2/WG2提出了“大丁藏文编码字符集”方案,但遭到拒绝。2004年3月,国家标准管理委员会决定成立藏文信息技术标准工作组。2005 年8月,由西藏自治区藏语文工作委员会和西藏大学联合国内有关单位共同研制的藏文国家标准《信息技术信息交换用藏文编码字符集扩充集A》、《信息技术信息 交换用藏文编码字符集扩充集B》通过了专家鉴定。前者包括藏文垂直预组合字符962个,后者包括5702个字符。编码位置在GB13000的专用平面0F 平面,其排序遵循基本集的排序。与此同时,还通过了《信息技术藏文编码字符集键盘字母数字区的布局》标准,键盘布局按字元频度设计,结构合理,输入速度 快,不易出错,也初步解决了藏文键盘布局不统一的问题。

傣文信息化起步较晚,它一开始走的就是国际编码标准的道路。2001年,德宏傣文编码国际标准获得通过,共收 入35个字符,编码空间为U1950—197F;2004年,西双版纳新傣文编码国际标准获得通过,共收入80个字符,编码空间为U1980—9DF,西 双版纳老傣文的国际编码标准目前也正在制定中。

此外,八思巴文编码方案经过多年的修改,现在已送WG2和UTC成员复审。2005年,教育部、国家语委向云 南省语委下达了《纳西东巴象形文字编码字符集国际标准》的研发任务,纳西东巴文的国际标准有望在不久的将来问世。其他一些古文字,如西夏文、契丹文、贵州古彝文的编码标准也在研究和制定中。

我国各传统通用的少数民族语言都制定了一些语言文字标准和信息编码标准。但由于民族语言规范化程度不够,有些民族语言方言分歧较大,再加上民族语言字形各种各样,非常复杂,目前的标准体系还是比较粗疏的,民族语文的标准还跟不上时代的需求。目前标准体系建设只搭了一个架子,内部许多标准还有待制定:字符集不全或不合适,严重影响了标准的科学性和实用性;有些文字的编码标准虽然确定下来了,但在技术上还存在很多困难,实现信息处理标准的国际标准化步履维艰;由于少数民族语文一些标准是“事实标准”,本身还存在很多缺陷,标准的修订还没有提上日程。

二 少数民族语文操作平台的研制和发展状况

建设稳定的操作平台是实现少数民族语文信息化的一大基础工程。为了建立一个稳定的操作平台,各民族语文研究专家和计算机专家联手合作,分别在DOS、WINDOWS以及LINUS系统下开发了各种信息处理系统,促进了少数民族语文信息化的发展。

我国民族语言信息处理是从蒙古文开始的,20世纪80年代初就在计算机上完成了蒙古文信息处理系统的设计,1983年,内蒙古大学和内蒙古计算中心建立了《蒙古秘史》拉丁转写计算机检索系统。1989年,内蒙古大学蒙古语文研究所和北京大学计算所、北京大学信息技术公司联合研制了在DOS环境下运行的北大华光蒙古文排版系统(后改为北大方正排版6.0)多文种系统。该系统不仅能够处理蒙古文,同时还能处理托忒蒙古文、满文、八思巴文、阿里嘎里文、卡尔梅克文、布里亚特文、新蒙古文以及汉、英、俄、日文和国际音标。另外还可以根据需要添加一些特殊字符,可横排也可竖排。有大小26种字体,可以设置一些艺术字。还根据需要设置了一些专门系统,如蒙古文辞典编纂系统、蒙古作家用语风格分析系统、蒙古文图书管理系 统、蒙古医诊查系统、电视节目安排系统等。

随着计算机技术的发展和应用水平的提高,原来的蒙古文排版软件在各个方面已经不能满足实际需求,需要更新换代。2001年北大方正集团与内蒙古大学蒙古学院合作,开发了在WINDOWS环境下运行的基于蒙古文编码国际标准的蒙古文书版9.1排版软件。该版软件 同时具备兼容原蒙文书版生成的小样文件和稳定性高的特点,可以支持蒙古文、托忒文、汉文、俄文、英文和日文的排版。目前在LINUS操作平台下实现蒙古文 信息化成为蒙古文操作平台研制的目标。

藏文软件系统研制开始于20世纪80年代初,如中国社科院民族所张连生在1981年尝试用计算机进行藏文词汇排序工作。1983年又在美国伊利诺依大学利用PLATO计算上的一个应用软件TUTOR,实现了藏文字符输入、显示和输出的藏文字处理系统。1984年 上海教育学院物理系俞乐等人在VICTOR9000微机上利用BISIC语言实现了一个具有输入、显示和打印功能的藏文字处理系统,并用BISIC编写了 藏文报表软件;在此前后,甘肃省计算中心以及航天部710所也各自开发了一套藏文字处理系统。但这些系统都是利用其他软件在应用软件层面实现的,而不是在操作系统层面实现的藏文字信息处理,而且都是单一文种处理系统,无法与汉文或英文兼容。1986年,青海省药品检验所、青海师范大学、青海民族学院与北京 有线电厂合作,在CCDOS2.13下开发了与汉英文兼容的藏文操作系统TCDOS。此后,青海民族学院、西北民族学院合作开发了可挂接在WPS下的藏文轻印刷系统——兰海藏文系统;四川大学、南京新技术研究所、西藏大学也各自开发了一个汉英藏兼容的信息处理系统。这些成果促成了国内藏文信息处理领域的具有划时代意义和产生了深远影响的、两个与汉英全兼容的、实用化的藏文操作系统的诞生。1988年,中国藏学中心和航天部710所推出了藏文字处理激光编辑排版印刷系统,该系统后来与潍坊华光合作开发出了书林藏文排版和激光照排系统。1990年,中国计算机软件与技术服务公司等单位联合推出了北大方正藏文书报版系统。这两个系统在国内外有着广泛的客户群,成为藏文信息处理研究领域的基本平台,占据着藏区90%以上的书版和报版印刷市场。20世纪90年代中期 以来,随着软硬件技术的发展,WINDOWS成为微机操作系统的主流,在新的操作系统下实现藏文信息处理成为必须解决的任务,围绕WINDOWS操作系统 实现藏文字处理成为藏文系统开发的目标。1997年,北大方正集团推出了基于WIN31藏文维思彩色印刷系统;同年青海师范大学开发班智达藏文系 统;2000年西北民族大学开发同元藏文系统,并有网络字库;2001年,西藏大学也开发了藏文软件——“火狐”藏文处理系统;2003年,清华大学与西 北民族大学合作开发藏文多字体印刷藏文(混排汉文、英文)文档识别系统。2004年,中国社会科学院民族所与北京理工大学合作研制出藏文识别实验系统。 2005年中科院软件所与西藏大学、西北民族大学,联合开发基于LINUX的跨平台藏文信息处理系统和办公套件。

新疆少数民族文字软件处理系统,主要使用的软件有基于DOS或WIN32环境的北大方正排版系统 (1991),博格达维吾尔、哈萨克、柯尔克孜文排版系统(新疆民语委研制,1991),潍坊华光排版系统(1992),三立书版排版系统(1994), 锡伯文、满文文字处理和轻印刷系统(新疆民语委研制,1996),“新疆2000”多文种图文排版系统(新疆民语委研制,2000),阿拉伯文及多文种排 版系统(新疆民语委研制,2000)等。北大方正和潍坊华光排版系统始终以“半分天下”的优势占据着新疆民族语文印刷市场,拥有广大用户。2002年,潍 坊北大青鸟华光科技股份有限公司开发出基于WINDOWS2000/XP操作系统的“书林”维吾尔、哈萨克、柯尔克孜、蒙古文公文版、书刊版和报版软件, 适合于办公、印刷、出版单位和个人使用。新疆多文种操作系统的开发也取得了很大进展,主要有WINDOWS3X维哈柯文系统(1996)、多文种 WINDOWS95平台“民文视窗”、WINDOWS9X维哈柯文系统(1998)、WINDOWS2000维哈柯文系统(2000)等。此外还开发了一 些专门系统,如维哈柯文广播文稿系统、屏幕动态信息翻译系统、学校管理和排课等系统。

朝鲜文操作系统由于其组字拼写方式的特殊性,已实现的朝鲜文处理系统种类很多。归纳起来,可分为组合式和整字式。组合式直接在英文操作系统上实现;整字式以汉字操作系统为基础,用软件插接兼容,通过改造操作系统在系统级上实现朝鲜文、汉字、英文兼容。中央民族大 学和航天部在整字式朝文系统上开发了朝、汉、英语音兼容系统。

彝文操作系统的开发也始于20世纪80年代,1982年至今,研制开发了PGYW彝文计算机、微型计算机彝文 处理系统YWCL、计算机激光彝文/汉字编辑排版系统、计算机彝文/汉字/西文系统、CMPT大键盘彝文系统、华光彝文、汉字、西文计算机激光照排系统、 北大方正彝文激光照排系统、YWPS彝文桌面办公系统、YWDS彝文系统,实现了在网上浏览彝文信息。

广西计算中心开发了古壮文计算机处理系统,并于1993年用该系统出版了《壮族民歌古籍集成》第一卷《嘹歌》,全书150万字,使壮民族古籍的整理出版进入了计算机处理的新时代。

傣文操作系统的研发起步比较晚。2003年,西双版纳报社和北大青鸟华光照排有限公司开发了“西双版纳新老傣 文计算机排版系统”。该系统首先运用于傣文古籍整理,现已出版了傣文贝叶经十三卷。但这个系统仅限于计算机排版,还不能应用在新闻采编、电子政务、远程教 育、广播电视稿等方面。

2006年,大连民族学院郭海、赵晶莹在辽宁省自然科学基金的资助下开发了一个纳西象形文字信息处理平台,通过对纳西象形文字轮廓字体的制作、编码映射、输入开发以及植入技术,基本完成了纳西象形文计算机化处理平台的搭建,实现了中、英、纳西象形文的混合编排。

少数民族语文虽建立了各种各样的操作平台,但还存在一些问题:第一,大多数是通过挂接实现的,只具备一般处理功能;第二,少数民族语文还缺乏统一的操作系统平台,因此造成了每一次系统平台的更换,都会产生一次阵痛;第三,各民族语言之间软件研制各自为政,兼容度差,妨碍了信息的交换和共享。综上所述,开发符合国际化/本地化标准的通用系统平台成为一个重要的任务。