国家手语和盲文研究

国家手语和盲文研究中心
当前位置:首页 > 信息公告 > 图片新闻 >

汉语盲文语料库建设取得重大进展

时间:2017-01-17 07:20:51 来源: 作者: 点击:0

    2013年国家社科基金重大项目开创了汉语盲文语料库建设研究的先河,体现了国家对盲人文字的高度重视。汉语盲文语料库将填补我国汉语语料库的一项空白,在国际上也是首创。
    汉语盲文语料库是抽样收集、有代表性、计算机可读、经过加工的汉语盲文语料的集合。汉语盲文语料库在盲文研究中具有基础性、资源性地位,具有原创性、集成性的特点,对盲文研究的理论和方法具有长远性的影响。
    一、汉语盲文需要语料库
现行盲文在词汇层面与汉语拼音有显著差别,它的技术方案(分词连写和标调)与汉语拼音有本质的不同,现行盲文还具有了流通性和法定性,按照周有光先生的观点,现行盲文应该说是一种(拼音)文字。汉语盲文需要专门的语料库。
    像英语盲文等不具有独立文字的盲文,可以直接使用明眼文语料库(触觉属性除外)进行盲文研究,它们的信息化也非常简单,对专门的盲文语料库需求不迫切。
    二、汉语盲文语料库的意义
    1. 促进盲人语言文字权益平等
    汉语盲文语料库建设事关盲人语言文字权益,能够极大地促进盲人文化的发展。盲文语料库建设能够促进面向盲文的语言科技进步,为盲文信息无障碍打下基础,造福千万盲人。
    盲文语料库能够反映汉语盲文正式出版物的情况,全方位呈现现行盲文方案颁行60年来我国大陆盲人语言生活状况,语料库呈现的客观数据比主观想象更有说服力。比如:平均词长、空方率、字均方数、平均标调率、分词连写一致性、“一形多词”、“一词多形”程度、缺陷符号出现率等。没有盲文语料库,这些重要的基础数据就永远处在未知状态。 
    通过对以往实际盲文语料的全方位研究,可以考察《中国盲文》国家标准的执行力,为调整盲文相关的语言政策提供参考。
    2. 为盲文信息化提供重要基础资源
    盲文语料库能够为盲文信息化的研究提供高质量的盲文-拼音-汉字多行对齐的训练数据和测试数据,由于这是体现了盲文特殊性的真实数据,训练出的盲文信息化工具就具备了处理盲文的实际能力。如果训练数据不包括“支持过了”这样的盲文连写单位,汉语翻译为盲文时就不会将其连写。在盲文翻译为汉语时,对连写的“支持过了”束手无策。
    盲文语料库的对照数据能够为盲文信息化处理的深度机器学习提供基础。可以避免诸如“即未/雨/绸缪”、“做/到处/变/不惊”的分词错误。
    3. 为盲文教材编写和词典编纂提供真实素材
有了盲文语料库,低年级语文盲文教材编写和盲文词典编纂就有了不竭的源泉,能够避免照抄翻译普通教材、词典的尴尬。现行盲文的生词、疑难字词辨析等非常不同于明眼文。它的一个分词单位不同于汉语的一个词,汉语的同一个词又有不同的写法。通过盲文语料库能够发现许多被隐匿的分词连写、标调、同音词分化等特殊知识点。
    4. 掌握国际盲文触觉评价话语权
    因为Braille 6点盲文符号的基本结构是国际通用的,汉语不同版本的盲文、法语、英语等盲文都使用相同的6点盲文符号。因此,研究不涉及盲文字符含义的触觉信息时,盲文语料库的功能是可以跨语言通用的。
    5. 占领国际盲文研究的制高点
    在国际上,汉语盲文语料库首先将语料库方法引入到盲文研究。通过对拼音语料的全标调加工,可以生成准确的字字标调盲文语料,形成字字标调的三行对照语料,可以按规则无差错地转为国家通用盲文,能够按照指定格式生成盲文-汉语对照词库。为盲文标调规范化、国家通用盲文推广搭建坚实的平台。
    已经建成的小规模语料库先行发挥了重要作用,为国家通用盲文标准修订提供可靠的标调数据,有力地支持了汉语盲文规范化、标准化建设。
    截至到201611月,已按计划高标准完成了960个语篇(约460万方)的对齐标注。经过多层次评估发现,拼音标注准确率能够达到99.95%,汉字标注准确率达到了99.9%
    盲文语料库将满足盲文相关专业人员、盲人、社会大众(盲生家长等)等不同方面的需要。在教学科研、信息化研发、词典教材编写等方面发挥十分重要的作用。
    盲文语料库支持按盲文、汉字、汉语拼音、标注符号等不同方式的检索,检索结果支持盲文、有声、汉字及拼音输出,盲人可以独立无障碍地进行检索,用户可以快速准确的得到自己所需的信息。盲文语料库系统将置于公益网站之中,除商业开发外,公益使用。

推荐内容

More

热点内容

More