论文:忆汉字输入法的研究,谈汉字输入法的发展

王华 王晋豪 杨妙玲


  汉字是世界上使用人口最多的文字,是中国人民宝贵的文化遗产,也是联合国的工作语言之一。在信息化时代里,随着科学技术的发展,计算机技术的不断普及应用,如何使汉字迅速准确地输入计算机;如何使人们都能得心应手地输汉字,这是每个汉字输入法创造者日思夜想的问题,我们也不例外。
  1995年,我们发明了“无重码高速汉字输入法及其键盘系列”,简称:“玲玲码”,是针对人们反映“五笔字型输入法”的一系列缺点所作。并申请了发明专利。通过多学科的研究,对大量汉字、字元进行分析,利用了电脑的记忆力、逻辑性强的神奇功能和人脑的创造才能,历经数亿万次的拆分、排列、组合、统计、比较而创造出来的纯形体拼字方法。选用185个字元(当时五笔字型输入法是200个字元),根据它们之间的相容性、使用频度、指法规则、输入效率高、读音及形象相似等因素分组在对应的26个英文字母键上;利用汉字的书写顺序,取大优先,依形拼字,直接拼写成汉字。用无重码输入功能达到无重码输入。而且规则简单、明了、统一、码长只有“五笔字型”的0.8,记忆量不到一半,不区分字型、结构,不用交叉识别码,字词兼容、各方面都胜过“五笔字型输入法”。也是最早实现无重码的汉字输入法。得到了国家语委的关注。
  因为我们缺少钱做广告,但还是有许多报纸杂志刊登介绍,电台也在广播。
  1997年1月15日中央人民广播电台的内参还打抱不平似的刊登了标题为:“高速汉字输入法”推广何以如此艰难的文章,并且说:希望国家有关部门管一管这件事。我们决不认为“无重码高速汉字输入法”(玲玲码)比“五笔字”差,后来看到王永明的介绍,“五笔字”是美国人预装机才推广的,也就平了这口气。
  1999年,为了发展我国信息产业技术,推动汉字终端向数字化、小型化方
面发展,中国中文信息学会汉字编码专委会等单位在信息产业部信息化推进司的大力支持下,联合召开“全国汉字数字码在通信中应用”专题研讨会,希望我们作“玲玲码在手机上应用的报告”,随后,我们设计了“玲玲码在手机上应用的软件”,写了“玲玲码在手机上应用的论文”。
  在杭州的一次“全国中文信息学术交流暨工作会议”上,有位专家在他的论文中提出这样的看法,(大意是)美国的士兵,他们的通讯设备很先进,而中国的士兵通讯设备同样可以很先进,但问题卡在汉字输入上,谁能将汉字用2-3笔输入,那就神了。这就说汉字数字化输入迫在眉捷了。强烈的责任感又使我们投入到汉字输入的研究中去了。
  我们阅读了一些文章,如清华大学计算机系智能技术与系统国家实验室的“智能型数字码汉字输入技术”,感到不直观,还是要人们去记忆一些特殊的规则。我们想只有用笔划输入最理想,按照国家语委的笔顺规范输汉字,这是最基本的规则了,不应该再有什么附加规定,这样,人们不用去记忆一些繁杂规则,可以克服输汉字的瓶颈问题,但是单纯的笔划码,需输笔划太多,如何做到2-3笔就能输汉字呢?我们运用独特的智能处理技术,达到了这个目标。
  2001年2月,我们发明的“智能笔划汉字输入法”申请了发明专利。该输入法有七个部分构成。智能笔划有三大突出优点:一、简单规范,二、全新的智能处理使得每个汉字平均只需输开头1至3笔。三、超强的学习能力,能快速适应输入者的语言风格,并且越用越快。它最适合于手机、个人数字助理、信息家电等小型终端中使用.。经模拟测试,性能超过了摩托罗拉和爱立新手机上的汉字输入。又因为计算机的功能远比手机强,我们还可以增加许多新功能。
  经过万“码”奔腾的年代,看过了很多的输入法,也参加了不少的输入法研讨会,印象最深的就是谁都说自己的“码”如何好,甚至是“最好的”,但最终谁也说服不了谁。我们不禁在想:既然人人都认为自己设计的“最好”,那如果让每个人都能按自己习惯设计键盘和编码,不就人人都能拥有一个满意的或者说是“最好”的输入法了吗?但这一想法实现起来是相当困难的,因为按传统方式设计一个键盘编码方案非常的费时费力,除非有办法让编码设计简化到普通用户都能轻松掌握的程度,否则这种想法只能是一个美好的愿望而已。
  我们研制成功智能笔划汉字输入法之后,收到不少用户的反馈意见,经过不断地积累、创新、发展,终于逐步探索出了一条可行之路。
  我们开始设计智能笔划输入法的时候,就考虑到不同用户的习惯不尽相同,设计了多种键盘表,用户可以随时切换选择。(在“智能笔划输入法的研制和应用”一文中已有介绍,已收录于2002年的汉字编码研讨会论文集)但随着用户面的扩大,我们预设的几种键盘表已经不能满足各种用户的需要,不少用户提出了如:某某部件能不能改放在某某位置等要求。如果我们继续增加预设键盘表,虽然可暂时缓解这个问题,但发展下去终究还是众口难调,并非治本之法。所以,我们经过反复试验,设计了一个操作简便的用户“自定义键盘”方案。用户只要在一张表格中打入笔划和选择键的位置,即可构成一个自定义键盘方案,每一个笔划或选择键都可设定1个到3个键位,设完就可同时使用,若再有不满意的地方还可以随时修改。例如,下图所示就是一个自定义的键盘方案:

  其中,笔划 “一”(横)放了3个位置,字母键H,数字键1,和小键盘的数字7都可以表示笔划 “一”(横)。其他的笔划和选择键类似。如果您对上面的键盘表并不怎么满意,没关系那只是我们举的一个例子,您完全可以按照自己的思路,化几分钟时间另排一份。这就是自定义键盘的好处。每个人都可以拥有自己满意的键盘表,不必花时间争论谁的更好,只要自己满意、输入方便就行了。
  不过,发展到这一步,只能说是一个有自定义键盘的“笔划输入法”,离我们的目标——“用户自己设计汉字输入法”还有相当的距离。因为汉字键盘输入法,可以划分为音码、形码、音形码、笔划码四大类,笔划码只是其中一类,且为数较少。另外几类中,音码的数量也很少,基本上就是全拼、双拼、简拼3种,而形码的数量最多,成千上万的“码”中绝大部分都属于形码。音形码是音码与形码的结合,由于这个“音” 一般只是取了汉字拼音的第一个字母,主体部分还是形码,所以音形码也可以看作是形码的一个变形或衍生。由此可见,接下来的最为重要的一步是如何溶入形码。
  我们先简单分析一下形码的编码过程和特点。形码的编码过程:基本上都是先把汉字拆分为组字部件(有字根、字元等多种叫法),再把组字部件对应到键盘的某个字母、数字或符号键上,从而得出汉字的编码。形码最大的优点是:重码率低。一般打3、4个键都能确定唯一的一个字,即使有重,也不大会出现翻页的情况;而这点是音码、笔划码无法做到的。(注意:虽然运用智能处理可以提高音码、笔划码的输入效率,但智能处理并没有减少重码,只是电脑根据某种方法来推测你要的字,把它提前显示出来了。如果遇到比较古怪的文句或随意打几个字,智能处理也很难帮得上忙。)不过,形码也有个共同的缺点就是难学难记,多数还不规范,比起音码、笔划码要难学得多。原因之一,形码中用到的组字部件基本上都在一百个以上。把这么多的部件排到键盘上,构成的一张键盘表,要背下来确实不容易。难怪我们遇到不少用户,第一句话就问:这个输入法要不要背码表的?若要背码表就byebye了。原因之二,把汉字拆分为组字部件,也有不少的规则要学,有些不能包含在规则内的特例还要硬记,否则就算码表背得烂熟,字拆错了,一样“打不进去”。
  我们想溶入形码,利用它重码率低的优点,但不想要它难学、难记、不规范的缺点。有人说:“你想得挺美的,不可能……”。但是,我们已经做到了,当然做得很不错。
  首先我们提出了一个“柔性部件”的概念,她不同于形码部件的概念,她的形象可以存在你的脑子里,也可以你认为是一个什么成字字元,定在什么键位上。一般形码都有:取大优先;拆分不拆连;拆连不拆交等规定,象“五笔字型输入法”,还要区分字型结构,用交叉识别码来减少重码。更有些无理的拆分还要硬性记住,末笔又不是真正的末笔。又如:一个“象”字的第六笔,一撇,还要被锯成两半。所以大家都认为他很不规范,带来了很严重的文字污染。但是有什么办法呢?你要反,反不了,至今他还是中、外有名的汉字输入法。他还是久盛不衰的汉字输入法。现在还有不少人在学他,这真是我们国家的憾事,也是搞输入法 “专家” 的无能。我们很早就希望能搞出一系列规范、实用的汉字输入法来替代五笔字型输入法。这当然需要我们顽强地努力,也需要国家和大家的帮助。
  我们提出的“柔性部件”就是各种各样的成字部件。他可以任你放在你认为好记的键位上;你想象中的部件,只要你不违反笔顺,怎么打都可以。可以先打一笔,先打二笔,……直至多笔。只要按照笔顺,不打错笔划,一个字怎么打都可以出来。(就是说可以灵活地选用笔划和部件来拼字。)但是,你最好能做到,打最少的键就有你要的字;当你拼完一个字,打了结束键就一定能出来您需要的字。所谓的“柔性部件”还有个概念就是只考虑笔划、笔顺;不考虑笔划的位置和笔划的长短。例如:一撇一点,可以是:人、入、八等,一折一横一折,可以是:己、已、巳、弓。同类部件你可以只设一个代表,也可以多设,一切由自己定。您不用学习形码的那套拆字规则了,您可以自己选择需要的部件,放在自己喜欢的好记的键位上。键盘上部件一时记不全也无妨,记得几个就用几个,不用部件,用笔划也能输入。这不仅减轻了记忆码表的负担,而且实现了笔划码和形码间的自然衔接和过渡。当您记得的拼字部件多了,能用的多了您自然越打越快。同时您还会体会到一个字有多种方法可输,码长只有一、二个键,有更多的输入技巧。
  在此基础上,继续添加汉字的拼音信息,就成了一个用户可以自定义的音、形、笔划综合智能汉字输入平台。使用这个平台用户就可以轻松、自由地设计自己满意的“最好的”汉字输入方法了。因为我们已经做到了,您可以随时改,随时用,直到您满意为止。
  这就是我们汉字输入法的发展方向和计划。
  我们现在虽然已经完成了这个平台的基本功能,但还有一些细节要继续优化和完善,使大家增减部件更方便更直观。
  如果您对这个综合智能汉字输入平台有兴趣,有什么想法或建议可发电子邮件来。