您当前的位置:网站首页---动态
《汉字,不需要拼音化》视频教材之四(有习题)
发布时间:2016-05-26    浏览量:


第四讲、汉字的编码方法


各位朋友:大家好!

今天,我们讲汉字的编码方法。这一讲实用色彩最浓,重操作,也最解渴。听完这一讲,您就可以使用坐标码软件输入汉字了。

怎样为汉字编码呢?英文键盘有26个字母键。用一个字母编码,码长是1,26个英文字母只有26个编码;用2个字母编码,码长是2,有26*26=676个编码;用3个字母编码,码长为3,有26*26*26=17576个编码,用4个字母编码,码长为4,有456976个编码。

国标GB13000.1大字符集收字20902个,常用词库收词也有1到2万,可见码长小于4时,编码空间不够,码长为4时正好,既够用又不累赘,所以,形码的码长是4,同样,我们仍然延续这一模式。我们将4码称为全码;码长小于4的编码,称为简码

汉字编码实践了几十年,归纳出一个指导性结论:“字为基础,词为主导,智能处理”,非常好地阐述了字、词、软件三者之间的关系。

“字为基础”有两层含义。第一,在文本输入中,单字输入约占10%的比重,其地位和重要性不能忽视,也无法替代;第二,单字编码是词组编码的基础。所以,单字编码是汉字输入的重要基础。

(一)单字编码规则

按照汉字的部件数量,我们将汉字分为单部件字、双部件字、三部件字和多部件字四类,分别制定编码规则。

1、单部件字(偏旁)

单部件字类似于过去的“独体字”,对于小字符集,共有333组,数量不大,所以只取3码,以空格键结束。

首码:部件的“拼音首字母”;

次码:部件的“首/次”笔画;

三码:部件的“三/末”笔画。

最后,补一空格键,表示输入结束。

即:“音”+“首/次”+“三/末”+空格。

“当笔画数少于4笔时,将循环取笔画”,这是单字输入需要注意的地方。

例如:(Y)

部件   音     /次     /末      输入码

里      L      /乙(M)  /一(G)   LMG

干      G      /一(G)  /一(H)   GGH

亻      O      丿/丨(R)  丿/丨(R)   ORR

一      Y      /一(G)  /一(G)   YGG

2、双部件字(P)

第一、二码按笔顺提取第一、二部件“音”或“首/次”笔;第三、四码分别提取第一、二部件的“首/末”笔。

例如(Y)

汉字  构成部件     首码     次码     三码(键位)     四码(键位)     输入码

国     囗、玉        F                   Y                /一(H)         /丶(S)        FYHS

第     、组合      Z                /一      丿/丶(W)         /丿(C)        ZBWC

取     耳、又        E                   Y               /一(G)          /丶(X)        EYGX

安     宀、女        B                   N              /乙(P)          /一(B)        BNPB


3、三部件字(P)

第一、二、三码按笔顺提取第一、二、三部件的“音”或“首/次”笔;第四码补整字的“首/末”笔。

例如:(Y)

汉字     构成部件     首码     次码     三码     四码     (键位输入码

整        束攵正          S               W                Z               /一(G)     SWZG

型        开刂土          K               D                 T               /一(G)     KDTG

瑞        王山而          W              S                 E                /丨(F)     WSEF

语        讠五口          Y               W                 K               /一(Y)     YWKY


4、多部件字(P)

按笔顺提取第一、二、三、末部件“音”或“首/次”笔。

例如:(Y)

座-广、人、人、土  GRRT

编-纟、户、冂、艹  LHTA

缀-纟、又、又、又  LYYY

可以看出来,部件越多、字越复杂,编码信息越多,取码反而越容易,输入越快,这是一个有趣的现象。

对于小字符集而言,本输入法的单字输入静态重码率是2.4(千分之二点四),静态指将所有的字都只打一遍,而实际操作中的动态重码率更低,只有万分之几,非常先进。

5、简码的应用

汉字全码是4,敲4个键才能输入一个字,太慢了,使用简码是提高单字输入速度的一个有效方法。

一级简码只有26个,二级简码有676个,三级简码有17576个,主要提供给常用和次常用汉字。二、三级简码不用记忆,也记不住,如果你觉得输入的汉字常用,在输入该字的前2码或3码时看一下提示栏,如果它出现在提示栏的第一位,补空格键便完成输入。

这里着重介绍一级简码。一级简码只有26个,被用于26个高频字。这26个高频字所在键位与它全码的首码无关,约占日常文本录入的19 % ,有很强的实用性,同时,它们也有标准的全码。

为帮助记忆,我们将这26个字组成了5句话:

这个是中国,大人上工地;

我们不在了,有的为过年;

要主动,一对和(胡,麻将语)。

这26个高频字,有22个排在汉字频度表的前26名,只有“我对过年”4个字是从后面选的。其中,“我”排名27,“对”排名35,“过”排名58,“年”排名41,选这4个字的原因,就是为了能组成5句话,方便记忆,而且,这4个字的使用频率也很高。

一级简码是单字输入最快的模式了,两键一字,但是,还是没有词组输入快,要不怎么说“词为主导”呢!


(二)词组编码规则

“词为主导”点明了词组输入的重要性,词组输入是现代文本输入的主要形式,约占90%的比重,而且,它的输入速度远比单字输入快。

词组编码只有3种情况:多字词编码、三字词编码、双字词编码。它与单字编码最大的不同,就是采用了整字的拼音首字母。单字编码不使用整字拼音,否则就不能输入不认识的汉字。词组编码就没有这样的顾虑,因为你使用一个词汇时,一定知道它的读音。这样作有两大好处:一是汉字取码和人们的思维更加贴近;二来就是拼音信息大幅增加,笔画信息基本上被过滤掉了。笔画信息对应到键位的过程,人的大脑毕竟要多处理一次,会带来负担和疲劳,笔画信息的大幅减少,汉字输入才会出现“行云流水”的效果。

1、多字词编码(P)

码长为4。

顺序提取第一、二、三、末整字拼音的首字母。

如:(Y)

经济特区-JJTQ   

艰苦奋斗-JKFD

柳暗花明-LAHM 

中国人民解放军-ZGRJ

字平均击键数≤1

2、三字词编码(P)

码长为4。

第一、二、三码,取第一、二、三整字拼音的首字母;

第四码,取最后一个字的首码。如:

自行车-ZXCC

工程师-GCSK

共和国-GHGF

字平均击键数=1.33

3、双字词编码(P)

码长为4。每个字取其前两码。如:

坐标-RRVY

中国-ZMFY

人民-RWMB

伟大-OWDD

字平均击键数=2,输入速度和一级简码一样。

前面介绍过,词组输入约占文本输入的90%,而双字词又占词组输入的约80%,所以,双字词编码对输入法性能影响很大。

双字词每字取前两码,是形码的传统编码方式,优点是字词取码一体化,重码率低。然而,音码主导汉字输入近十年了,人们输入双字词有了一个新的习惯:先打两个字的拼音首字母,如果是近期常用的词,智能软件有高频先见功能,可以实现快速输入,而且,这样输入符合思维习惯。有鉴于此,我们今后将提供如下第二种双词字编码方法。(P)

码长为4。

第一、二码,取第一、二整字拼音的首字母;

第三、四码,取第二字的首、次码。

前两码和思维一致,后两码与第二字编码一致,重码率远低于音码。只是这一功能要在新版本中才能提供。

总结一下。

新的汉字输入方法在学习方面,以汉字常识为基础,没有记忆负担;在技术方面,单字输入媲美形码,词组输入拥有并超越音码优点;因而,总体兼有音码和形码的优点,证明汉字在信息时代是先进的。


(三)降低重码率的方法

重码率是汉字输入的一个重要技术指标,为降低汉字输入的重码率,对下述2种情况制定了相应规定。

1、微调六个高频部件编码规则

查字典我们都不陌生,“巛”部只有3个字“甾、巢、邕”,而“氵、扌、艹、木、亻、口(“月”换成了“口”)”部多达三、四百字,如此不平衡的分布,对重码率有很大的影响。

(P)按照单字编码规则,若首部件相同,双部件字的第三码(首部件的首/末笔)、3部件字的第四码(整字的首/末笔)的首笔,完全一致,没有离散汉字的功能。为了降低重码率,首部件为“氵、扌、艹、木、亻、口”时,调整编码规则:补笔画信息时,去掉首部件,用字的余部取码(单部件和多部件字不受影响)。(P)

(1)双部件字

第一、二码,不变;

第三、四码,用第二部件的“首/次”+“三/末”。

因为余部是单部件,所以如此取码。

(2)三部件字

第一、二、三码,不变;

第四码,用余部的“首/末”笔。

不举例子了。


2、组合部件

为了降低重码率,我们引入组合部件,类似于字典中的合体字部首。

组合字部件

石、田、鱼、虫、麻”,一共五个

记忆方法:“石田”里,“鱼虫”多得“麻”人。

使用方法:组字时,不拆分;自身输入时,拆分。

例如:

渔——“氵、鱼”; 

鱼——“田、一”;  

田——“囗、十”;

碧——“王、白、石”;

石——“、口”;

累——“田、幺、小”。

组合偏旁

“疒、”,一共两个。

使用方法:组字时,不拆分。

例如:

疵——“疒,止,匕”;

跑——“,勹,巳”。


(四)四个规定

1、部件的归并

汉字是方框字,出于结构的需要,一些汉字在组成新的汉字的时候,有些笔画会产生一些变形,这对准确提取笔画码是有一定影响的。例如:

“木”与树字中的木,“捺”变成了“点”;

“半”在叛中,“竖“变成了“竖撇”;

“毛”在撬中,“竖折钩”变成了“竖钩”。

部件的归并,就是将形状相近的部件用一个部件来代表,主要依据来自字典。它们的“拼音信息”相同,但是“笔画码”不同,因为笔画形状有变化。(P)

部件归并表

序号

部件

归并

例字

序号

部件

归并

例字

序号

部件

归并

例字

1

2

3

4

5

6

7

8

9

10

西

11

12

13

14

15

16

17

18

录彝

例如:

看(、目),SMEH;手的首末笔由R(丿/丨)变成了E(丿/丿)。

叛(半、反),BFIW。半的首末笔由U(丶/丨)变成了I(丶/丿)。

2、汉字中部件的顺序

部件的排列顺序,以部件“首笔”出现的顺序为标准。

如:国-口、玉;咸-戊、一、口; 载-十、戈、车

3、多音字的拼音信息

对于多音字,目前的版本选取常用音做为多音字部件的音,以后将采用兼容模式。例如:

长-chang (长征)

乐-le(乐器)

重-zhong (重庆)

4、“竖、折”的拼音信息

“竖、折”在汉字中作部件时,考虑到人们的习惯,规定它们有“拼音信息”。也就是说,在编码输入时,它们与字部件是一样的,第一次取拼音首字母,第二次取笔画码。

<p styl

版权所有:沈阳平宇科技有限公司   备案号:辽ICP备16006081号
电话:18302457806 邮箱:ypzbm@vip.163.com
网站建设:恒昊互联网络