1. 首页
  2. 时事

皓首穷经终有成 吴之林与笔顺码字典的故事 九的音序和部首

皓首穷经终有成 吴之林与笔顺码字典的故事

笔顺码字典崇文版前言

(本网讯 记者 洪成 通讯员 志宏)笔顺码这本字典是在2008年《汉字新序》的基础上编撰的。目前,无论国内还是国际,学习汉语的热情都空前高涨。因此把《汉字新序》扩充为一本真正实用的字典,就有了必要。

字典有以下几个特色。1)查字速度快。在掌握了笔顺码的条件下,检字的速度与拼音检字的速度相当或更快。不需要知道该字的读音,更不需要求助于部首检字,也不设难检字表。而且,某字是否已被字典收入一查便知,比拼音检字需要前后翻找快捷得多。对于笔顺码的记忆,建议直接开始对照编码表查字,查上若干个汉字后就自然记住了。理解编码结构图对于记忆笔顺码是很有帮助的,另有记忆口诀可供参考。2)每个汉字在字头里只出现一次,它的所有的读音和释义都集中在一块,给读者带来方便。3)简化汉字已在中国大陆应用多年,但世界上还有许多地区仍然在使用繁体字。本字典对于简繁体的对照,对于简繁体各自的应用范围给予了特别的注意,希望读者不会再犯“皇後大道”、“干隆皇帝”这样的错误。4)设音序索引,一时尚未掌握笔顺码的读者也能据此查到简繁体并列的汉字。5)收字规范,涵盖了《通用规范汉字表》中一级、二级字表里的全部及三级字表里的少部分汉字。对于中小学生及学习汉语的外国学生,应当是够用了。6)编者们都是资深的理科人士,他们的汉文字的修养以及对于字典的理解自然比专业的文科人士相差甚远。好在经过出版社的把关和大刀阔斧的修订,字典的质量应当已经满足出版的标准和现实的需要。

笔顺码可以完全取代部首检字,但这本字典却不是为了取代其他权威的字典,它只是抛砖引玉,希望读者们能够体验笔顺码的快捷和查字的快乐,从而引起有关部门的重视,利用笔顺码来构建更有权威的字典。有朋友质疑说现在用电脑或手机来查字更为快捷,但是只要纸质书还有存在的理由,这本小小的字典就可以而且应该成为我们的朋友;只要部首检字还存在,它就将面临着笔顺码的挑战。当我们的读者把查字典看做一件乐事,并因此不畏惧多读一些不需要考试的书,又从而横知天下纵明古今,我们会感到满心的喜悦。

参与编写本字典的全是武汉大学物理系64级的老学生。他们当中有中国光纤通讯的先驱,有大学的教授,有中学的校长,有部门的主管和国家干部,有大公司的总工程师,也有普通的劳动者。他们不顾年老体弱,怀着极大的热情,怀着帮助大家查字典共同学习的谦卑之心,查阅和参考了汉典网、百度网、辞海、现代汉语词典、新华字典、康熙字典、说文解字、澄衷蒙学堂字课图说等多种现代的和古代的典籍,加以比较和鉴别,同时也加进去自己对汉字的理解,慎重地诠释着一个个汉字。编者们希望,尽管这本字典可能还有许多不足,但它是亲切的、有趣的,是和读者们一起,在体会着汉字的神奇和奥妙。如果读者们发现字典里存在错误和缺点,请指出,我们会在适当的时候加以改正。借此机会,谨向上述典籍的作者和编者们致以崇高的敬意和衷心的感谢。我还要衷心感谢参与编写和为字典的出版和宣传作出巨大贡献的全体同学,其中的易河清同学在光纤通讯领域赫赫有名,却在字典编撰期间不幸逝世。我要特别感谢我的妻子王晓川女士,她是一位优秀的科学工作者和企业家,在她重病期间仍然鼓励我努力工作。不幸,她也没能看到字典的出版。 吴之林于2018年5月

笔顺码字典的故事

上世纪九十年代,晓川从犹他大学做完博士后,在加州圣迭戈找到了工作。那是块宝地,冬暖夏凉,一年至少300个蓝天,可不是上海武汉天空那种灰蒙蒙的蓝,而是清澈、透明,真可与西藏媲美的湛蓝。那时候我在芝加哥陪孩子读书,我自己混到一个计算机硕士后,不求上进,向老婆靠拢,就也到了圣迭戈,几经周折,当了一名程序员。或者说得好听点,程序工程师。

活儿很简单,周而复始,写一些小程序来处理资料。跟我在芝加哥大学物理系当访问学者时帮费米实验室一位教授写的程序比,小儿科了。那个程序曾令好几位博士挠头,我苦思苦想走火入魔半个多月,老觉得空中有一根蜘蛛丝飘来荡去抓它不住。忽然有一天,我茅塞顿开,想出了一个巧妙的算法,才算是未辱使命。从那时候起,我深深体会到算法才是一个程序的灵魂。

什么是算法?你有了初始条件,知道自己站在哪里,你又知道要到哪里去,所谓算法就是要找到一条路,或者架设一座桥,避开陷阱,避开漩涡,以最低的成本最快的速度到达你的目的地。你可以有很好的交通工具,例如高速度的计算机,非常有效的计算机语言,可是万一道路选错了,也是枉然。

加州的工作很轻松,别人八小时的工作,我六小时可以完成,多余的时间就东张西望。上网读中文,是我上班时间最喜欢的业余活动。读得多了,总会碰到一些没见过的字或词。周围全是老外,只好自己想办法查字典。查着查着,就觉着中文字典和英语字典比,查起来怎么那么费劲?

程序员有一个职业习惯,老是爱挑毛病。这是因为,写好的程序往往存在一些漏洞,它在某种条件下会导致程序的崩溃。所以一定需要debug,捉虫,尽量把漏洞消灭在程序的正式使用之前。即使这样,还往往有虫子漏网。君不见视窗系统每推出来一个,就要不断给它打补丁。中文字典查起来为什么慢?可以改进吗?换一种思考,英语字典查起来为什么快?它与中文的区别在哪里呢?

我反复考察、比较两种文字,终于发现,英语单词是严格有序的,它的每一个单词在字典里的位置都是固定的,无论你采用哪一本字典。而汉字只是半有序,它的序列不严格,采用不同的字典,汉字的位置很可能排得不一样。这是因为,汉字排序的规则从一开始就不严密。

计算机有两大基本任务,一是排序,二是搜寻。假如有N个杂乱无章的数,你要想查找某一个特定的数字,看它在不在这一堆数字里面。如果你运气不好,例如这堆数字里没有这个数,你得把N个数字读完,才能确认你要找的数不在里面。如果先把这N个数从小到大排列起来,我们可以将N个数拦腰砍断,将你的数与N/2处的数相比较。如果你的数大,前面一半数字你可以不予理会,然后把后一半数字再拦腰砍断,以此类推,我们会很快得到结果。因此,搜寻速度的快慢,关键在排序。

汉字的排序与拼音文字比较,先天上就有困难。拼音文字总共二三十个字母(缅甸文字好像有44个字母),给它们规定一个顺序很容易。汉字成千上万,如果硬性给它们排一个顺序,相信没人记得住。好在中国人对数的敏感度世界第一,先把汉字按笔画多少分成若干组,再想办法把相同笔画数的汉字排起序来,这比给全部汉字排序要容易些了。在笔画数相同的组里,又再怎么给汉字分组呢?老祖宗发现汉字书写时的笔画各不相同,于是把笔画分为横竖撇捺折5大类,就按此顺序确定其排序的优先度,逐笔比较。这样,我们有了两个容易掌握的参数:汉字的笔画数及笔画的排序优先度。这就是所谓的数笔画法,通用规范汉字表及其草案就是这样给汉字排序的。

规则很简单,但是有漏洞。证据是,我找到至少两个汉字在规范汉字表及其草案中的相对位置发生了漂移。其次,例如紃(打不出其简化字)和驯的第一笔形状不同,却都属于折,其优先度相同。于是,我们看到纟旁和马旁的字在字表中交替出现,似乎不大自然,对学生理解汉字是不利的。而且,这两个字我们到底应该把谁排在前面?

大概是为了改进这种状况,许慎先生发明了部首检字。他先把汉字按部首归类,再来数笔画。

部首把杂乱无章的汉字先梳理一遍,不同部首的字不再混合编队,看起来舒服多了,从此中国人用三个参量来为汉字排序。汉字的序列现在看起来是这个样子:把汉字想象成一批人,先把他们按衣服颜色(部首)排成若干纵队,每队再按个子高矮(数笔画)排列,同样身高的则按年龄大小(笔画顺序)排列。

部首检字被中国人用了两千多年,确实是有道理的,但是检字的速度偏慢。原因之一,是有时候颜色(部首)不好确定,好像蓝色,又好像绿色,到哪一队去找人呢?年龄精确到年份,导致同年份扎堆,又怎么区分呢?原因之二,是参量偏多各有其标准,我们很难给某一个汉字迅速定位。随便给你两个汉字,例如我和你,在部首检字中哪个在前面?我们很难一口报出答案。花一分钟甚至更长时间找一个汉字出来是常有的事。甚至十分钟找不出来,不得不请教难检字表,而难检字表也不能给你提供任何保证。理想的排序方法是,将汉字排成单列,根据排序的规则,序列中的任意两个字,我们能立即说出哪个字的位置靠前。或者换一个说法,打开字典的任何一页,我们立即知道要找的字是在这一页之前,还是这一页之后。如果序列中没有这个字,我们也能立即知道这个字在序列中不存在,而不必费心再去试试难检字表。汉字的拼音排序朝着这个目标跨了一大步。

把汉字用26个英语字母注音,由于字母有序,不同读音的两个汉字谁更靠前,可以立即给出答案。问题在于同音汉字太多,这些同音汉字又如何排序呢?更加糟糕的是,汉字往往有多个读音,“行”字到底该排在“米”字之前还是之后?我们只能说忽焉在前,忽焉在后。须知“行”有三个读音,它的每个读音都必须在音序排列中登台亮相,一个汉字占几个位置,是否贪婪了些?这还是汉字的单纯序列吗?尤为糟糕的是,汉字的读音是汉字的隐函数,通常碰到不会读的字才会去查字典,从字面上看不出读音,我们只好又回到部首。此所以任何汉字音序字典都必须附有部首检字表,音序排列在这一刻前功尽弃。

找出了毛病,或“bug",事情就完成了一半。任何一位负责任的程序员,必须还要完成另一半:给出替代方案。

我必须承认,就排序和检测的结果而言,英语字典是完美的。在这一点上,汉字要向英语学习。它的优点在哪里?

26个字母是英语单词的基本元素。字母本身没有含义,a 和 i 例外。从a到z的顺序是如何确立的,我不知道。不过不要紧,区区26,把顺序背下来就是。接下来,把字母拼成单词,它就有了含义,也跟着字母有了顺序。要查一个英语单词,随便翻到某页,如果没找到,你知道该往前翻还是该往后翻,不会漫无目标瞎翻一气。这就是为什么英语单词查起来快。我们当然还记得怎样从已经排好顺序的数列里查找某一个特定的数,二者的思路完全相同。与英语相比较,一个个汉字本身就是单词,也有组成汉字的基本元素吗?当然有。这就是汉字的笔画。我们也能利用汉字的基本元素给汉字排序吗?这回有点疑问。

疑点之一,汉字有多少种笔画?不知道有没有人认真统计过。传统上将汉字笔画归为横竖撇捺折五种。简单是简单了,但是太粗,不足以精确地给汉字排序,它只能作为数笔画后的辅助手段。其结果我们已经看到了,这里有bug。疑点之二,英语单词是一维的,顺序报出字母,单词就已确定。而汉字是二维的,顺序报出笔画,有时候并不足以确定某一个汉字,因为我们还要知道笔画间的相对位置乃至于笔画本身的长短。例如人与八,士与土。疑点之三,各人写汉字,笔画顺序不统一。“万”字的最后两笔,是先写那个弯弯还是先写那一撇?

前面两个疑点,通过我自己的努力,或许还能找到答案。第三个疑点,我如果给汉字规定一个笔顺,会有人遵从吗?这个问题不解决,我只能放弃。

曙光是在1997年出现的。这一年,国家出台了汉字常用字笔顺规范。有了规范,就有了权威,就有了依据。但是,这个规范我是在2003年回国后又过了很长时间才知道的,它给了我极大的鼓舞,把一个已经打入冷宫的程序起死回生,注入了新的活力。在此之前,我又发现一个有趣的现象,希望也能做点事情,看看会有什么结果。

汉字本身就是词,但如果不与其他汉字搭配造出新词,中国的词语就没有生命力了。而一旦搭配起来,汉语的新词就层出不穷。其中,两个字的搭配占了绝大多数,而两个字的词,有一个显著的特点:它们大半是偏正结构,并且重心在后面。这是因为,两个字(甚至三、四个字)构成的名词,前一个字往往作为定语而存在,例如“文风”;两个字构成的动词,前一个字往往作为状语而存在,例如“拥挤”。这就是说,前一个字只是对后一个字的形容或限制,关键是后面那个字。少林拳、八卦拳、螳螂拳,关键是”拳“。我们平常查一个词的时候查的是前一个字,如果换一个思路,倒查,从后一个字查起如何?所有的拳种岂非都在”拳“字项下?这会给读者带来极大的方便。这种想法折磨着我,不试出个结果来我不会安心。没有技术手段,我用的是最笨最原始的办法:买来两本现代汉语词典,把词条一一剪下重新粘贴,在我终于厌烦了这项工作之前,我居然有了一个有趣的发现。

英国有一本朗曼词典(langman dictionary of contemporary english),它假定读者只掌握了大约2000个英语单词(基本词集),因此词典中所有的解释都由这选定的2000个单词承担。这2000个单词当然也含在词典里,由其他基本词来解释。这就可能由A来定义B,由B来定义C,再由C来定义A,形成所谓循环定义。读者只要掌握了定义环当中的任何一个词,就可以理解全环了。这个环越大越好,因为环越大,读者理解其中某个单词的可能越大。中文词典存在类似的问题吗?在我考察现代汉语词典的过程中,我突然发现了一个例子。

现代汉语词典是一本权威著作,没有查阅过它的学生恐怕极少。有一个词叫“衔接”,对它的解释是“事物相连接”。那么“连接”是什么意思?对它的解释是“事物相衔接”。又有个解释是“见联接”。查“联接”,解释是“同连接“。“衔接”和“连接”组成了循环定义,连接和联接也组成了循环定义。而这两个圈子实在是太小了,如果读者恰好不懂衔接,又不懂连接,还不懂联接,他如何理解这几个词呢?用程序员的术语,这是个bug,它陷入了死循环。我的解决办法是:另开一扇门,画图,用图画做辅助手段来定义词汇,因为图画可以让人一目了然。

我的剪贴工作实在做不下去了。它几乎是原始人的工作,又笨又慢,工作量巨大,错误百出,并且没有前途。它从一开始就注定不能出版,注定要失败,因为除了编排,其他全是来自原版现代汉语词典,如果说它还有什么存在价值,那就只剩下自娱自乐。

再见了,笔顺字典。再见了,倒查词典。

公元2003年3月底,我们从美国搬回国内,落脚上海。晓川是某制药公司请回来的,自然有工作在等着她。我就麻烦了:工资开低了,我不屑一顾,要价高了,人家何不雇佣一位年轻人?于是干脆呆在家里管后勤。

一个偶然的机会,我在书店看到一本‘常用字笔顺字典’,北京工业大学出版社2002年出版。字典收字3000个,每个字都画出其笔顺。我有些纳闷:这些笔顺有依据吗?这可是困扰我多年的问题。翻到字典的尾端,有一个汉字笔顺规则表,里面赫然注明:本书笔顺依据国家语言文字工作委员会、国家新闻出版署1997年4月联合发布的《现代汉语通用字笔顺规范》中的次序。醍醐灌顶!原来国家已经有了规范,有了标准!那就好了,我不必再担心别人的质疑,大家统一在国家规范之下。笔顺码字典柳暗花明起死回生!

我开始重新出发。常用字笔顺字典的一大优点是将折细分为22种不同的笔画,这是其他字典上没有看到过的。但它的划分漏掉了“凸”字和“乃”字的右上角那一笔和“〇”字(字典里能查到),未免又是个bug。我要做的则是另起炉灶,将折拆分为20种不同笔画,连同横竖撇捺提点,共26种以便于编码,并且需要覆盖所有常用汉字。需要解决的问题是:折在细分后如何排序?有些笔画似是而非,如何将它与其他笔画区分开来?哪些折可以合并以保证只有不多不少20种折?我没有人可以商量,这是缺点,但是凡事我自己就可以决定免得争论不休,这又是个优点。

给笔画编码是一件很细腻的工作,有相当的难度。我不能采用手写体或行书,因为它们不规范。我自己就爱把“林”字的最后一笔写成一长点,它其实应当是一捺。好在我们查字典的时候查的是宋体字(好像是秦桧的发明,因为他是宋朝的奸臣,不说秦体,而说宋体),而宋体字的笔画形状国家有统一标准,我无须考察其他字体。在宋体字里,一点分为左点、右点和长点,例如竖心旁那一竖两边的点就是一向左一向右,我们将其区分后查起来较为容易。长点的例子是“达”,不必与右点分开了。王字的末一横,在王字变为左偏旁时变成了提,对此我们也必须有所反映。不仅是“王”,其他汉字在做左偏旁的时候最下面的那一横也都变形为提,例如“土”、“车”、“马”。如此等等,给笔画编码的时候都要小心。终于,除了少数例外,每个汉字都有了它自己独特的编码。例外的汉字,即不能通过编码区分的汉字,占汉字总数的不到1%。它们不但笔画形状相同,书写顺序也一样。例如“工”、“士”、“土”。好在它们并不对检索速度产生任何影响,因为一组编码相同的汉字,字数最多的只有4个字,并且只有一组。要考虑的是这些编码相同的汉字如何排序?客观的标准是现成的:利用其拼音。在这样的规则下,汉字排成了单列,每字一位,没有重复。

八千多汉字的笔顺码最终编成了。它有效吗?我利用它来检索汉字,实践表明,八千多汉字中的任何一个,我都可以在10秒钟内找到。我又想起我的倒查词典,它早就夭折了。用它来检验笔顺码的有效性,可能是一个好主意。于是从冬到夏又从夏到冬,我忙着把现代汉语词典中的词一个个输入到计算机里,每个词后面跟着它的拼音,然后是它最后一个字的笔顺码。词输进去了,再以笔顺码为第一优先,拼音为第二优先给它们排序。一秒钟不到,倒查排序完成,手动作了些许调整,其结果被我放在“汉字新序”一书中。看着计算机上的结果,想起我的手工粘贴,恍如隔世。

“汉字新序”出版了,但它并不是一部字典,它只是证明笔顺码系统是有效的。我请人帮忙把新华字典按照笔顺码的顺序输入到计算机,现在它可以实用了。但它并不能出版,因为新华字典有版权保护,况且新华字典的内容我也不尽满意,它落后于时代很多了。我们有可能打造出一部前所未有的字典吗?

任重而道远。 吴之林于2015-12-22

编写后记

终于收工了,如释重负。

这本字典,是2015年初开工的。在此之前,它的源头,是 吴之林2008年出版的《汉字新序》一书。在那一本书里,我第一次证明了,笔顺码可以为汉字排序,而检索汉字的效率超过了现存的任何人工检索方法。但这本书并没有正式进入市场,所以也没有产生多大影响。

一个好办法,如果不去拿来应用,它就毫无价值。新的汉字检索方法,当然是用来做字典的。我自认没有做字典的能力,跑了若干名校的中文系,想看看有没有专家愿意用它编一本字典,结果统统铩羽而归。自己做不了字典,抄一本如何?把新华字典嫁接到笔顺码上如何?我请人把新华字典输进电脑,用笔顺码排序,果然好用!但是可惜,这本书不能出版,因为它侵犯了新华字典的版权。

只有自己另编一本字典了。我不可能独自去编一本高质量的字典,无论从哪个角度去思考,这事都不可行。我想起了我的老兄弟们:同年入校的武汉大学物理系64级的同学们。把这事一说,居然群起响应!

编字典的道路是艰辛的。我们不是专家,可以居高临下地审视每一个汉字,教导读者如何去理解它们。我们自己就是读者,我们得一个字一个字去查,去向各个权威的字典、文献去寻找、去理解每一个汉字的含义,再用一种我们自以为是的解释将它们呈献给字典的读者。在那一段艰难的时间里,可真是“路漫漫其修远兮,吾将上下而求索”。

两年多以来,我们的副主编易河清先生去世,去世的前一个晚上还对妻子提及笔顺码。全力支持我的我的妻子王晓川女士去世。十几位编委中,有的正在审查文稿时突发脑梗被紧急送往医院;有的不但要编字典,还要为网站建设尽心尽力,在此期间患慢阻肺住院;有的肺癌手术刚愈就参加了字典的编撰工作;有的因房颤、呼吸暂停症不得不住院治疗;还有的患有多年的糖尿病,克服着家庭内外的种种困难。我们是在和时间赛跑,没有假日,没有工资,没有报酬。我们愿意做铺路的石子,让所有热爱汉字需要汉字的朋友们踩在我们身上,尽快到达成功的彼岸。

老骥伏枥难赋闲,群贤毕至造新篇。千难万险浑不惧,我以我血荐轩辕。

尽管字典还存在着许多缺点和错误,希望这本字典对大家有用。欢迎各位读者朋友和专家们的任何批评和建议。吴之林 2017年11月(完)

原创文章,作者:非佛网,如若转载,请注明出处:https://www.radiospt.com/87/293848.html