七五书吧

字:
关灯 护眼
七五书吧 > 人类高质量生活 > 六二章:【牙牙学语】

六二章:【牙牙学语】

六二章:【牙牙学语】 (第2/2页)

我不是穿越到未来了吧?
  
  被崔璋一打岔,姜南笙意识到旁边还有人在等着。
  
  也不瞎折腾了,开始跟崔璋一起,专心设计东木头市的古建图纸。
  
  然而,这次设计简直不要太简单。
  
  一个超级工具人在旁边,你只要提出要求,立刻就会得到答案。
  
  崔璋感觉,对面仿佛真有一个博学多才的建筑学智者,只要你有一点要求,就能立刻调动出无数张设计方案,来供你选择。
  
  还给你罗列出优势和劣势数据。
  
  设计效率,成90度直线往上升。
  
  “你问问它,为什么懂得这么多建筑设计?”崔璋说了出来。
  
  姜南笙依言输入文字。
  
  “我已经看过网络上超过50%的建筑学书籍。虽然有许多地方依然不太了解,但我还在快速学习中。”
  
  姜、崔二人瞪大眼睛,“厉害!”
  
  ……
  
  徐福这边进了项目组。
  
  孙翔、余敏,以及汉语言学家颜同教授等人,正在测试语音引擎。
  
  这间面积不大的办公室里,搭建起了一个小小录音棚,用于制作音频片段。
  
  一套由入门到专业的录音设备器材备上,从录音到混音一应俱全。
  
  颜同教授道:“对于学习汉语的人来说,最主要的障碍莫过于掌握大量汉字。
  
  “尤其是在文言中,单音节词占绝大部分,也因此中国古人真的是会为了指示不同的客体而专门创造出一个字的。比如针对马的毛色不同,身高不同,乃至岁数不同,就能弄出几十上百个汉字来进行命名。
  
  “比如駥(rong),代表八尺高的马。駽(xuan),代表青黑色的马。騑(fei),代指三岁的马。
  
  “也因此,从先秦上古到十一世纪,汉字的数量一直在增长。
  
  “你们选择让人工智能优先学习汉语,其实难度要比学习英语复杂的多。”
  
  徐福不解道:“颜同教授,不是应该学习汉语更简单吗?
  
  “我们只要认识六七百个字,就已基本读写无碍了。而牛津词典却每年都在增加,现在都已经十几册牛津词典了。
  
  “简直就是个臃肿的怪胎。”
  
  颜同笑道:“你有这个想法,并不奇怪。我们汉语比英语,使用起来的确更加简洁明了。但是要让智能程序说话,它就不能满足与普通人的对话的水平,它需要通晓每个字的读音、用意,甚至假音、假意。
  
  “这无疑是个庞大的工程。”
  
  徐福道:“我一直有个疑问,汉字到底有多少个?”
  
  颜同摇摇头道:“具体多少个,其实没有定论的。
  
  “比如目前发现和整理的甲骨文字数量有4055个;到了东汉《说文解字》中,汉字数量增长到9353个;三国时《广雅》收字18150个;一直到北宋《类编》收录的汉字,高达33190个;之后汉字增量放缓,直到清朝《康熙字典》共收字46933个,是古代收录汉字数量最多的字书。
  
  “不过汉字的数量并非只有这么多,现代字书如《汉语大字典》更是收字60370个,其中《难检字表》还录入了不少读音不详的汉字。
  
  “而将佛经、道经和石刻资料中发现的异体字也包含在内的《中华字海》,收字更是高达85568个。
  
  “除了中国以外,受汉字影响的其他国家字书中也有大量汉字收录,比如RB《大汉和词典》收字五万个左右,韩国《汉韩大辞典》收字53667个。
  
  “RB《今昔文字镜》收字更是高达16万,其中还包含了越南旧时曾使用的以汉字为原型孳乳仿造的喃字。
  
  “虽然汉字数量众多,甚至还有衍生字形,真要统计一个准确数字是一件困难的事情。但从商朝至今,使用最频繁、字义稳定不变的核心汉字不超过300个。
  
  “这些核心汉字在任意一篇文本中,占用字数量的70%,余下29%则有2000个汉字,而那孤独的1%则属于其他几万个汉字,其中大多数属于在文献中出现过一次或几次,或只在特定情况下才使用的‘一次性’的汉字。
  
  “即便是27部先秦主要文献中,1076个汉字也占全部用字的95%,而这些先秦典籍使用的汉字数量其实并没有想象中那么丰富。
  
  “比如《诗经》用字2831个,《周易》用字1358个,《老子》用字824个,而《孙子兵法》用字更是仅有760个。
  
  “所谓微言大义,可见一斑。
  
  “而《现代汉语常用字表》则是有3500个汉字,能够覆盖现代主流文本的99.48%的篇幅。
  
  “所以我们国家的九年义务教育的语文课标里要求认识常用汉字3500个左右这个标准,可以说是十分有依据。
  
  “不过认识汉字的数量足够多,并不代表一个人的汉语水平一定很高,因为还涉及到构词和造句的问题。
  
  “毕竟仅有760字的《孙子兵法》不是所有人都读得懂,当这些单语素的字组成千上万不同的词和短语,要是还包含典故的话,就是那种‘既熟悉又陌生’的感觉了。
  
  “这也是许多老外在学习汉字时最头疼的一件事——认识几千个汉字,但仍然读不懂一篇文章。”
  
  听到这一席话,众人已经觉得有点棘手了。
  
  这无疑是让一个初学者,做到顶尖语言学家的水准。
  
  就这些,还不包括各种方言、乡音的语调学习。
  
  至少碰到一个口音比较重的天津人,人家张口闭口“介介”,你得知道那有可能是自称“我”,或者在表达尊称“您”的意思。
  
  想想都能让人崩溃。
  
  至于少数民族的文字,外语,那些都是以后的事情了。
  
  徐福倒没那么大负担,“你们想的太复杂了,别忘了,我们现在就拥有二十多万用户可以帮助人工智能学习进步。以后还会有几百万,上千万甚至上亿的人帮我们丰富数据库。只要开通用户语音指导功能,就能让用户们帮助我们,教导人工智能管家学习说话。
  
  “这便能很快拥有极其庞大的数据库可以参考。
  
  “所以当务之急,便是做出最基本的读音音频,做好底层数据逻辑架构。”
  
  余敏等人一听,瞬间眉头解开。
  
  余敏恍然道:“对啊,这可是个捷径。你当初将人工智能放出来,用作智能小管家,就是想到要让更多人帮助人工智能学习进步的,是吗?”
  
  徐福笑道:“是有这方面的考虑。
  
  “每天都有无数人,在热情的教导自己的智能小管家学习各种知识。甚至还有小学生在教它学习数学,让它帮做数学作业。
  
  “所以浊的智商,才成长的这么快。”
  
  余敏表示佩服,“你可真是个机灵鬼。”
  
  徐福脸色一板,“有你这么跟老板说话吗。扣你工资。”
  
  “随便你扣,反正我还欠几百万呢。”
  
  这可真是光脚的不怕穿鞋的。
  
  颜同有些听不懂他们说什么,疑惑道:“你是说,这个人工智能可以自己学习总结?不是从庞大的数据库里抽掉出应对答案?那不是跟人一样吗?”
  
  “对不起颜教授,这涉及到我们公司的核心机密,恕我不能如实相告。您只需要知道,浊的智商超过250就够了。”
  
  “智商250?有这么离谱吗。”
  
  他明显不信,却已经开始帮助录制语音频率数据库。
  
  孙翔道:“徐总,所以我们的第一个应用软件,就是语音平台对吗?”
  
  徐福道:“在‘浊’的智能判断核心程序创建后,我就一直在想该怎么将这个核心用在具体的应用软件里。
  
  “后来在不断的试验接触中,发现必须得先让它能听得懂人说话。
  
  “就如同一个婴儿诞生,第一步必然是父母在襁褓里就一遍又一遍的教他说着‘爸爸、妈妈’。牙牙学语,也便是迈向成熟的第一步。
  
  “语音平台我们可以很快就上线。
  
  “今天录完底层音频架构,甚至凌晨就能上线。
  
  “我选择了语音平台,也不仅仅是从语音到文本的判断,还包括从文本到语音的诵读。
  
  “你们的下一步工作方向,就是诵读环节。
  
  “让‘浊’开口说话,通过耳机和耳麦,与所有用户沟通对话,收集更多的素材。
  
  “哪怕一开始频频出错也不要紧,毕竟小孩子学说话本来就是件麻烦事。
  
  “而诵读这个环节,还需要找几个厉害的声优或者播音员过来,让‘浊’能作到声情并茂。
  
  “所以说,你们的工作任务还很重啊。”
  
  孙翔、余敏却听得很入神,毕竟他们从交大少年班进入人工智能实验室,学习的就是这个。而现在却比实验室里提前迈出了一大步,如何能不兴奋。
『加入书签,方便阅读』
热门推荐
在木叶打造虫群科技树 情圣结局后我穿越了 修神外传仙界篇 韩娱之崛起 穿越者纵横动漫世界 不死武皇 妖龙古帝 残魄御天 宠妃难为:皇上,娘娘今晚不侍寝 杀手弃妃毒逆天