数字生命-格子里的夜晚-科幻未来-撸书斋

第8章 8．质疑

吕振羽可没有想到自己会被如此高地评价。之后的几天里，他都一直忙着钻研语言学。
一直到10月12日，一个陌生的电话打到了他的手机上。
“你好。请问是吕振羽吗？”又是一个陌生的男性中年的声音。
“对。您是？”
“我是复旦大学中文系的方治强。我女儿的同学跟我说，你有一些语言学方面的问题需要解答。”
“是的。您是方悠均的父亲？”
“对，你也别您啊您的了，叫我一声伯父吧。”
“好的，伯父，我想和你当面谈谈，你什么时候方便？”
“现在我就在你们学校里，你到心中书社边上的那个茶室，我在那里等你。路音和均儿一会也会过来。”
“好的。”挂上了电话，吕振羽连忙出门了。
吕振羽赶到茶室的时候，路音和均儿都已经到了，一个头发有点花白的中年人带着一副式样极其古老的黑框眼镜。两个年轻女子和一个很有学术气质的中年人坐在一起，样子颇为奇怪。
“伯父，你好。路音，均儿，你们好。”问候之后，吕振羽坐了下来。
方治强没有多客套，直接问道：“这所大学的中文系也很强，为什么你不去找学校方面帮忙呢？”
吕振羽说：“首先，我只是个大一的学生，这个项目就算我上报给学校，没有任何人会相信我有能力做好这个项目。如果上报了，不知道有多少人会觉得我不自量力，是个疯子。但是，我自己知道，我有机会做好这个项目，虽然不是百分之百的把握，但我同样不是贸然提出这个项目的。其次，就算学校觉得这个项目不错，我也没有把握学校一定会让我来主导这个项目的走向，中文系的老师们姑且不论，就算我自己的系里，学院里，多少专家要指手画脚？而关键在于，他们越是指手画脚，这个项目失败的可能性就越大。最后一个原因，我自己已经有了核心技术，我没有为他人作嫁衣的打算。”
吕振羽说得很自信。方治强点了点头，问：“你所说的核心技术是什么呢？”
“人工智能。现在开发这样一个引擎，很关键的一个地方就在于智能判断，我手里有自己开发的人工智能核心，问题是我不知道怎么将这个核心用在关键的地方。”
“人工智能？你独立开发的？能让我看看吗？”方治强虽然是研究语言学的，但看得出来他的兴趣颇为广泛。而吕振羽的言辞，也已经引起了均儿和路音的兴趣。
吕振羽看到均儿脚边的笔记本包，问：“能用一下你的笔记本吗？”
均儿点了点头，在父亲的面前她显得无比乖巧，一点也没有在高中的时候，闻名遐迩的“小魔女”的样子了。她开机之后，将笔记本推到了吕振羽面前。
吕振羽从口袋里拿出优盘，将一段程序拷贝到了电脑上，输入了密码之后，运行起了程序，他解释道：“这是我这一阶段的成果，将智能核心和我能理解的一部分中文语法结合起来，编了个造句的程序。界面是临时写的，因为是自己的测试，也就没太在乎，在上面那个框输入要用来造句的词汇，下面的框里就会显示完整的句子，因为造句是个不可预期的随机过程，我在边上设了个按钮，对句子不满意可以更换。句型方面，目前只有陈述句，一般疑问句，特殊疑问句，祈使句和反问句我还没写进去。”
吕振羽的这段程序，其核心是从小羽的主程序中分离出来的一小段代码。这一小段代码的作用，比起现在已经有60g空间的小羽主体来说，具有的能力几乎可以忽略不计，但用在这样一个简单的智能程序里，却已经有杀鸡用牛刀的感觉了，仅仅这段代码，已经超越人工智能的国际领先水平很多了。这个被命名为“三年级”的小程序，造句的能力上差不多是能和三年级的小学生相比，只是不具备常识判断的能力，虽然造出的句子在语法上都没有任何问题，但有时候含义却很搞笑。这种造句，很想有些人喜欢玩的一个游戏，几个人，每人写一个句子的一个部分，然后随机组合起来，变成一堆搞笑材料之类的。
但是，方治强和路音，还有均儿则兴致勃勃地一遍又一遍地输入各种词汇，看下面的框里变幻出非常有趣的句子。
“这个东西要使真的让小学生拿到手，那就麻烦了，糊弄语文老师应该是没问题了。”方治强评论道。
“这个小程序的作用仅仅是检验一下我的阶段性成果而已，不会再有副本了。”
“其实，你能做到这个地步，已经是非常厉害了，你觉得我在什么地方能帮上你的忙？”
“伯父，市面上也有不少语音输入和语言输出的软件。语音输出就不提了，基本上是按照每个字的发音，连续生成而已，比较好的软件或许还有虚词的轻读，但语气语调方面都没有什么变化。而语音输入的问题更加复杂，一方面是对于语音的识别率，目前最好的还是几年前开发的viavoice，而且对于输入装置的要求也不低，而且，语音输入后，即时字词方面都没问题，断句，标点也都一塌糊涂，基本上，语音输入之后，还要靠人工改写一遍，效率比手打还要差。原来我觉得，通过了解一些语言学，可以找到解决这个问题的办法，但是，语言学实在是个很怪的学说，看的资料越多，反而越不知道该怎么下手了。”吕振羽说。
“这样说吧，从语言学的角度要解决这个识别的问题，这个大家都明白，我也参与过一个叫‘言语的产生、识别与编码’的项目。目前，所有的机器识别，都是基于字词和语音的，语法是一个从属的地位，因为汉语的语法和其他语种区别太大了，规律性并不明显，虽然按照西方的语法范式，能够总结出现代汉语使用的大部分规律，但是这并不足够。字词的语音识别，产生的素材，被语法模块排列组合起来。而标点符号，机器自己是无法添加的，因为没有断句的功能。这也就是基于语音的机器语言学。”
“那又没有什么解决方法呢？”吕振羽问。
“索绪尔在《普通语言学教程》里有一句话，声音脱离了书写符号，就只是一些模模糊糊的概念。但又有另外一句话，文字越是不表示它所应该表现的语言，人们把它当作基础的倾向就越是增强。……这两句话有同一个核心，那就是文字，而位于文字两边的则是语音和语义。我想，现在主要的瓶颈在于，语言的识别智能停留在语音到文字的阶段，而从文字到语义，则需要一个人自己去进行操作。语义是一个很复杂的东西，凭着你现在掌握的这个人工智能，你肯定可以做出能比较好的理解语义，从而对文本进行修正的软件，你刚才也说了，你的这个造句程序，缺乏的就是常识层面的东西。如果加上这一块，对于语音辨识的判读是不是就完整了呢？也不是，因为这个常识本身就是有弹性的东西，很多不合乎常识的表达方式平时我们一直在用，你说那是修辞手法也可以，但我们平时都是能理解的，为什么？因为我们使用语言，无论文字形式还是语音形式，都是基于一个基本的使用环境，也就是所谓的语用。在语用的前提下，语义才会完整。”方治强的说法已经非常非常浅显，大部分的概念都没有解释，但中文的强大适应性也从这些名词上体现了出来，不需要解释，相信吕振羽也能够理解大致的含义，而在这个局面下，大致理解也就足够了。
吕振羽回味着方治强的话，反反复复地想着，突然说：“那是不是说，如果这样一个引擎能基于语义学和语用学来进行开发，然后结合语音识别现有的成果，就能够比较完善了？”
方治强赞赏地说：“说得对，只要你能做到。这并不容易。但只要你能将语用和语义的层面形成程序，语音方面的问题就是小问题了，什么语音流变什么的根本不用太当回事。”