您当前的位置:网站首页---动态
《汉字,不需要拼音化》视频教材之一(有习题)
发布时间:2016-05-25    浏览量:


汉字不需要拼音化


各位朋友:大家好!

我们这个视频的内容是:汉字,不需要拼音化

2006年智能音码超越形码至今,基本上统治了汉字输入市场,随着时间的推移,不可避免地,汉字拼音化成了汉字挥之不去的阴影,人们心头萦绕的烦恼,今天,我们就来彻底地解决这个问题,永除后患。

论据呢,有两个:

第一,形码的设计方法,大名鼎鼎的“字根集”是错误的,形码不能代表汉字输入水平;第二,汉字输入兼有音码形码优点,性能卓越,智能音码只能是汉字输入的辅助手段。

否定形码、规范音码,是谁有如此的能量呢?是规律,“汉字规律”!规律才是认识的顶峰,规律才是科学。

事实上,音码和形码各有所长,彼此的优点恰恰是对方的缺点,就象神话里的“千里眼”和“顺风耳”,各有所长又彼此互补,那么,汉字输入会不会兼有两者的优点呢?音码和形码对此无能为力,“不识庐山真面目,只缘身在此山中”,理论高度不够。

实践证明,只有“汉字规律”才能洞悉和揭示汉字的卓越性能。本视频就是要介绍“汉字规律”,传播汉字的先进性,让人们“共享汉字文化,同证汉字荣光”!

一、汉字输入面临的困难

在介绍汉字规律之前,我们先来讲一讲汉字输入面临的困难。有句成语说得好,“有的放矢”,如果靶子(也就是现实中的问题)在哪里都不知道,放再多的箭,投入再多,又有什么用呢!所以,令人们攻关几十年,逼迫汉字面临拼音化险境的困难,我们一定要了解它,它就是“汉字部件记忆问题”

它难在什么地方呢?我们来作个对比。

英文仅由26个字母构成,所以,英文输入很方便。

汉字则不然。汉字由部件构成,部件之多令人生畏。1988年上海交通大学汉字编码组、上海汉语拼音文字研究组编著的《汉字信息字典》,收字7785个(含GB2312-80小字符集),构字部件623个,是26的23.96倍。其中,字部件(本身是汉字)和常用偏旁有367个,数量大、结构毫无特征,记忆它们已经非常困难;更可怕的是,还有256个笔画部件,它们既不是汉字,也不是常用偏旁,无发音、无意义、生僻罕见,根本就是天书,没法记忆!汉字部件不能记忆,导致汉字结构无法拆分、编码信息无法提取、汉字无法输入,“三无”。这就是“汉字部件记忆问题”,一个世界级的难题。

2000年推出的大字符集GB13000.1,收字20902个,构字部件560个,汉字多了13117个,构字部件却少了63个,其中必有艰巨的工作,但于事无补哇。

我们想解决问题,想看得更远,怎么办呢?第一步,必需站在前人的肩膀上。那么,面对汉字部件记忆问题,形码和音码是怎么做的呢?

先来看看形码。

1、形码的方法

形码的方法就是大名鼎鼎的“字根集”。即依据某种规则,也就是设计者的方法,把那些不符合规则的汉字部件去掉,大幅度地降低记忆难度,从而实现汉字结构的近似拆分,达成编码和输入的目的。“降低记忆难度”是它的出发点。

形码曾经辉煌过,是什么原因让它几十年徘徊不前呢。

(1)字根集成立的条件

我们知道汉字是积木结构,560个汉字部件就好比是560个积木块。字根集大的有2到3百个字根,小的仅有几十个字根,丢掉很多积木块,它是如何保证所有的汉字都能拆分呢?方法倒也简单,依靠“五个基本笔画”,因为,汉字最终是由五个基本笔画构成的,所以,“五个基本笔画”作字根,是字根集成立的基本条件。

(2)字根集模型

由字根集成立的条件,可以得出两个结论:

第一,五个基本笔画是最小的字根集。从这个角度出发,把汉字拆分成笔画的笔画码,可以认为是字根集形码特例。

第二,以五个基本笔画为基础,随意加入汉字部件,理论上都可以构成字根集。所以字根集的模型是:

字根集=五个基本笔画+部分部件

理论上,一个字根集对应一个形码方案。字根集有多少呢?560的一半是280,字根数为280的字根集,就远远大于2的280次方,一个惊人的天文数字。那么,在这么多的字根集中,会不会存在理想的字根集呢?总不能一个一个去试吧!换一个角度,可以很清楚地回答这个问题。

(3)字根集的矛盾

答案是“不存在”!因为,字根集存在一个无法解决的矛盾,这也是形码徘徊30多年无法前进的原因。什么矛盾呢?字根集的字根越多,汉字拆分就越合理,但是,记忆负担就会越严重;字根越少,记忆负担就越轻,但是,汉字拆分就越失真,人们就越抵触。字根集的“易记性”与汉字拆分的“合理性”构成了一个不可调和的矛盾,人们只能有所选择,有所舍弃,兼顾两者的道路是不存在的。

(4)理想字根集

从字根集的矛盾出发,可以对理想字根集进行描绘。

第一,字根集最大。也就是字根集等于部件集,这样汉字拆分最合理;第二,字根集最大时没有记忆负担。这实际上就是汉字部件记忆问题不存在,果真如此,字根集就没有存在的意义了,理想字根集就是没有字根集,有点禅的味道。对字根集来说这是天方夜谭,不可能;但对汉字规律而言,两字,成立!

2、音码的方法

那么,音码是怎么做的呢?很简单,什么也没作,完全回避汉字部件记忆问题,只用汉字拼音。上世纪80年代末、90年代初,个人电脑受硬件和软件的限制,音码输入汉字慢得惊人,几乎没有实用性。即便如此,音码设计者也愿意面对“重码率”高、“定位”错误的责难,汉字部件记忆问题真是令人心塞呀。

如今,“无的放矢”的音码借软件之力居然长时间地统治了汉字输入市场,它会没有代价吗?不可能!代价巨大,它绑架了方块汉字。有句话不是这么说的吗,“要么改变环境,要么改变自己”。我们知道小字符集GB2312-80收字6763个,大字符集GB13000.1收字20902个,而汉字发音只有417个(不算四声),所以,同音字多是汉字的特性,音码重码率高的不足是天生的,它改变不了自己;因此,当音码长期统治汉字输入市场时,必然地会释放改变环境的意愿,就是拼音化汉字,这是不以人的意志为转移的,是不可控的。威胁方块汉字,就是音码最大的不足,至于技术上的不足就不在这啰嗦了,我们讲一讲“语音输入”与音码的关系,有很多人对“语音输入”深感兴趣。

语音输入主要是存在语音识别问题。技术在进步,所有的问题都会解决的,当语音识别率达到100%时,电脑接收的又是什么呢?大家想想看,不过是音码而已,只是输入手段不同,一个是键盘,一个是语音,本质是相同的。况且,人们可以长时间打字,像播音员似的读文章,又能读多久呢,所以,语音输入不适宜文本材料录入,更适合家电操作、汽车控制、作战指挥等指令性输入情况。所以说,语音输入是音码的另一种形式,技术含量非常高,丰富了音码的输入手段和产品种类,但在汉字输入发展上没有实质性贡献,更不可能取代键盘输入。

前面,简要地介绍了汉字输入面临的困难及输入法现状,铺垫了这么多,主角该出场了。


二、汉字的文字性特性

在科技日新月异的今天,规律的重要性谁都知道,问题的关键是它在哪里?

从内容上看首先,汉字有统计规律,这是肯定的,凡事都有统计规律,比如描述每个字使用频率的“字频”;其次,汉字属于人文范畴,人们的文字习惯之中一定有规律存在。这是寻找汉字规律的两个方向。

从认识论看“由浅入深、由简到繁、由此及彼、由表及里”是认识的普遍规律。

“由浅入深,由简到繁”就是要从最简单、最不起眼的地方入手,打好基础,努力发现汉字规律的蛛丝马迹。

“由此及彼,由表及里”是告诉我们,在认识过程中要善于逻辑推理,规律往往隐藏在表象的后面。这是寻找汉字规律的思维方法。

下面的内容将围绕这两条主线展开,也是当年研究工作的一次再现。

1、笔画与五个公理

我们知道汉字结构有3个层次“笔画、部件、整字”,笔画构成部件,部件构成整字。笔画是汉字结构的原材料,不能再简单了,因此,它是认识汉字规律的第一个平台。

汉字是积木式结构,研究汉字就要拆分汉字结构。拆分汉字一定是拆分到一个极限,因此,人们常说的汉字部件,通常是指最小汉字部件”。那么,什么是极限情况,什么是“最小汉字部件”呢?

笔画“横(提)、竖、撇、捺(点)、折”是汉字结构的最小单元,好比化学中的“元素”、英文中的字母,把汉字完全拆分成笔画是不适宜的,一是破坏了汉字结构,二是最大限度地丢失了汉字的结构信息,即编码信息,因此,从笔画的角度出发,应该限制汉字拆分行为,保护汉字结构。

笔画的角度出发,从人们的文字习惯中,可以归纳出5个限制拆分的公理(公理,是指不需要论证的最基本道理)。

公理1 单笔画不能断成两截

如:串,不能拆成“中、中”。

理由:笔画是汉字的基本元素,好比英文字母,不能再拆分。

公理2 两笔构成的汉字和常用偏旁不拆

如:人、入、八、厂、丁、匕、卜、九、十、了、又、儿、几、刀、刁、力、乜,亻、亠、勹、冫、讠、阝、冖、廴等。

理由:笔画是原材料,汉字和常用偏旁是有生命的,拆分两笔构成的汉字和常用偏旁违反逻辑。

公理3 端连的笔画不拆

如:凸、口、弓、了、几、冂、凵、匚、等。

笔画再复杂都有落笔和收笔两个端点,笔画连于端点的连接形式,称为“端连”。

理由:拆分端连的笔画串,没有任何意义。

公理4 交叉的笔画不拆

如:丰、十、扌、丈、又、九等。

理由:笔画有“离散、粘连、交叉”三种组合方式,“交叉”是最紧密的连接方式。

公理5 被隔离的,对称且被包容的两个单笔画,不拆。

如:平,不能拆成“干和丷”;木,不能拆成“十和八”。

理由:汉字是平面的积木式结构,它放不进去。

公理是认识的第一步,总想多找一些,把认识的基础做大一些,方便今后的研究工作,找来找去就五个。五个公理规范了汉字拆分行为,也有保护汉字结构的作用,但这远远不够,我们要通过它找出隐藏的汉字规律,为此,五个公理是用了心的,都是“量化”的结论,“单笔、两笔、交叉、端连”都是量化的,量化的目的就是为了逻辑推理。经过几个月的苦苦思考,其中内容就不介绍了,终于推理出一个重要结论。

推论:

满足五个公理的汉字和常用偏旁,是最小汉字部件。

GB2312-80小字符集共有98个:(P)

廿乂   丷

(举几个例子:八、凹、丰、由、耒)

最小汉字部件终于浮出水面,从概念变成了现实,这是认识上的一个突破,也证明五个公理是有价值的。为什么这么说呢?以往啊,我们也知道“笔画构成部件,部件构成整字”,但这只是定性认识,具体到什么是汉字部件就说不清楚了,因为没有量化汉字结构的工具,理论就更谈不上了!认识的3个阶段是:定性认识,以概念为主;定量认识,出现量化关系;最后升华为理论。由此展开,没有理论的支撑,“汉字部件无法记忆”结论正确吗?音码和形码能代表汉字水平吗?正是这一反思,令我恍然大悟,汉字输入研究的靶子原来是“汉字规律”,是基础理论研究,“汉字部件记忆问题”不过是表面现象而已。而且,研究结果证明:人们攻关几十年的“汉字部件记忆问题”是一个不存在的假象,一个永远也射不中的假靶子!汉字输入问题真是太复杂了,扑朔迷离呀,不依靠汉字规律,我们将永远被假象所蒙蔽。

五个公理就是量化汉字结构的工具,它不是数学量化,是行为量化,是从人们文字习惯中提炼出来的“规矩”。五个公理抓住了汉字部件的本质特征“不可拆分”,为量化汉字结构、寻找汉字规律奠定了基础。现在私家车很多,拿驾照都要过理考,道路交通法规的内容很多,但是,它们都建立在一个最最简单的行为规则之上,那就是“红灯停,绿灯行”。五个公理就好比是汉字输入中的“红灯停,绿灯行”,至简而重要。

最小汉字部件除了“不可拆分”的结构特征,还有一个科学特征,就是它的“客观性”,它只取决于公理,与人为因素无关。字根无论是560个还是623个,都有人的因素在里面。

当然,我们不能光说好听的,它的不足也是明显的:第一,它虽然给出了汉字部件的结构特征,却找不全最小汉字部件;第二,操作性太差,数笔画数、看笔画间的关系,效率低,不具备实用性。

总之,我们看到了汉字规律的曙光,下一讲它将喷薄而出,大放异彩。

我们下一讲再见。

谢谢大家!


版权所有:沈阳平宇科技有限公司   备案号:辽ICP备16006081号
电话:18302457806 邮箱:ypzbm@vip.163.com
网站建设:恒昊互联网络