王小川:搜狗的AI创新之路

10月9日,由《哈佛商业评论》主办的“甦盛典·新商业TALK2018”在北京五棵松M空间举办,《哈佛商业评论》主编何刚与场景实验室创始人吴声对“长期主义”进行了全面的阐述,而搜狗CEO王小川对强人工智能到来的预言则把会场气氛引向高潮,他认为,“语言是人工智能皇冠上的明珠,当语言真正被机器掌握的时候,强的人工智能时代就到来了。”

在嘉宾介绍环节,作为主持人的吴声称王小川是“人工智能领域深耕者,却也有着朴素的生物智慧。”此次演讲中,王小川分享了“搜狗在人工智能、新物种模式下做的思考和探索”。

王小川致辞实录

大家好,我今天想和大家分享的主题是“搜狗的AI创新之路”。

从智能手机到音箱、机器人、同传、翻译、无人驾驶、无人超市等,人工智能逐渐成为一个新物种。

和语言相关的人工智能,一方面是最新的音箱。不管是亚马逊,还是谷歌、苹果、微软都推出了相关产品。

谷歌2018发布会上展示了一个非常惊艳的助理,有打电话、订餐等服务系统;另外是一些前沿技术。

一、语言是人工智能里最难的领域

近两年,机器开始像人一样听你说话,甚至模仿人帮你对外交流。这里有一个重大的概念,提到了语言这个词。

掌握一种语言等于掌握了一种灵魂。人和动物最大的区别是人会说话,动物可以懂得几百个叫声,但很难建立语言概念,用语言描述这个世界,描述华夏文明、长期主义这样的词。

人类历史上有七千种不同的语言,语言是非常独特、有意义的一件事情。

另外,从计算机以及人工智能角度来看,语言是人工智能里最难、最深刻的一个领域。

声音是声波,图像是点帧。自然语言处理是人工智能时代大家最关心的尖端话题。

机器真正掌握语言的时候,强的人工智能就到来了。

二、人类历史上的翻译运动

语言里有很多历史故事,可以帮助人类更好地研究语言技术。

比如,阿拉伯世界的百年翻译运动。机器翻译的时候很认真地学习了这段历史。

公元八世纪,阿拉伯占领了亚洲、非洲和欧洲很大的一块领土。为了统治需要,当时的政权组织官方力量做翻译,帮助民众学习当地的语言和文化。

他们花了两百多年时间,把当时的希腊、埃及,甚至波斯和印度文献翻译成阿拉伯文,政权的稳定性得到了很大巩固。

当地的百姓们有机会阅读,从而带来了前后五百年的盛世,这是跨语言带来文化交流的意义。

后来,欧洲文化没落了,希腊文明也开始衰落。又有学者把阿拉伯文的技术文献和内容重新翻译为欧洲原有的希腊文字,文艺复兴诞生了。

中国也出现过四次翻译高峰。

东汉末年,唐玄奘西天取经,带回经书。

中国用了19年,将梵文经书中的75部翻译成了汉语,带来了佛教文化在中国的昌盛。这是翻译和文明之间的跨越意义。

明末清初,第二次科技翻译。当时最著名的是圣经,还有当时传入中国,仅次于圣经,非常重要的一本书,叫《几何元本》。

五四运动之间有大量的翻译,如共产主义宣言等,解放后也有很多翻译。

由于语言不同,不同文明之间存在隔阂,但一旦两个文明碰撞在一起便带来了新的高度。

三、人工智能使翻译平民化

在人工智能里,我很重视翻译的意义。

以前是人工翻译,有少数精英可以获得这样的服务,不能满足大众的需求。但如果翻译变成平民化,大家都用这样的技术,即使没有顶尖的人翻译的好,仍有巨大的意义。

随着人工智能的发展,机器翻译已经取代或扩展了每个人的外部能力。就像发明电一样,机器翻译可以推动世界文明的发展。

近两年,随着深度学习的发展,翻译取得了质的突破。

一方面,机器做语音文字撰写,规则变成神经元网络的翻译。

三年前的翻译系统,翻译的句子非常不流畅。今天的翻译系统,语言非常流畅,甚至很难从句子上区分是人的翻译还是机器。

四、翻译推动文明进步

今年,国际、国内发布了大量的翻译作品。

搜狗在里面非常努力,我们做这个事的时候,首先想的不是怎么赚钱,而是有机会参与到人类文明里。

我们像做输入法一样,在做翻译。

美国人对翻译的重视程度没有我们高。

我们现在有61国语言的翻译。在去年全球最权威的翻译比赛中,我们和清华研究院合作,汉译英、英译汉双向获得第一名。

在翻译方面,谷歌是最好的。谷歌虽然不是翻译的提出者,但它有很强的工作能力,把基础的论文做的很好。

人工智能需要落地的场景以及大量数据的积累,在这方面,中国公司远比谷歌或其他公司做的更好。我们做了很多产品植入,我们的输入法和搜索,都有翻译能力。

搜狗搜索是全球唯一输入中文时,可以搜索全球语言信息的搜索引擎。

在这样一个体系里,我们推出了输入法翻译。使搜狗搜索从打字工具、检索工具,扩展到全球信息的索引和沟通。这使我们原来的使命表达、获取信息变得更加简单。

翻译是跨国表达,我们的产品对推动文明的进步有很大的意义。

我们不仅做这件事,我们也做新物种、AI,以及知识计算工作,包括对话、问答,以及人机交互、语音和图像等。

五、搜索引擎的下一步是问答引擎

我们的搜索引擎,用一个关键词或几个关键词去搜索网页,但机器不懂你的内容。

现在我们讲,人表达一个问题,问搜索引擎。

搜索引擎会变成一个问答引擎,根据你的问题,它不仅理解问什么,而且能在页面中了解你后面段落中的一个具体知识点。

所以给十个结果的页面,基于你的问题给你答案,或者一个短句。

我们去年参加的一个比赛,这里有顶尖的人类问答选手。起初我们担心机器没有人强大,但后来,我们发现,在这样一个实时类问题面前,机器远远比人好。

数据检索做了两个工作:一是理解你的问题,二是从海量网页中寻找你问题的答案。

我们看到,搜索引擎在逐步升级。

输入法除了做语音输入外,未来将部分取代你的人脑。像你的助理一样,帮助你做沟通。

我们去年上市的时候,我一天收到了三千条祝福微信。我用语音或者文字回答非常难,需要机器主动帮助你回复。

输入法慢慢成为助理,帮助你回答这个问题,我们在客服里做了很多这样的应用。

六、人机自然交互

我刚才讲了知识计算、翻译、对话、问答。另外一个讲自然交互,机器除了做计算外,很大的使命需要和人做沟通。

说话的时候,机器能把语音转化成对应的文字。

为了让人机更好地交流,国际上做了很多探讨。

搜狗是中国最大的在线语音识别的技术提供者和产品提供者,每天有超过四亿次语音识别的请求。

为了做到技术新高度,搜狗不仅做语音识别,还尝试做唇语识别,这个技术大概做到了60%的准确度,张嘴去说,不需要声音,就知道你要什么样的文字。

此外,还有一个很重要的工作是语音合成。

今天大家听到的声音很多是机器的,这里面没有抑扬顿挫的音调,我们这里做了人机结合,给大家谈一下。

今天的机器用14分钟的数据做一个采样,然后把这两个系统叠加到一起,看到了第三个系统。

当时那首歌不是我唱的,把我的音色放在其中,让机器和人的音色作融合。

我们内部有一个系统,我说一段话后,就变成了凯叔讲故事。如果大家是做父母亲的,声音录进去,就变成了爸爸妈妈给孩子讲故事,凯叔会作为一个范本放到一边站。

后面还有人脸迁移技术。

接下来,结合问答技术、人脸识别,看一下虚拟主播。

从语音合成、唇语合成,这样的技术最终可能走向一个目标,虚拟的个人助理。

一方面是人机交互,作为你的替身,更好地完成服务,这是我们现在使命的延伸。借今天这个场合,谈一谈我们的理想和长期的理想,谢谢!

场景实验室是国内领先的场景创新服务平台,以“场景、超级IP、新物种”原创商业方法论为核心,提供商业模式设计、顶层战略升级、超级IP加速等服务。

《哈佛商业评论》中文版是哈佛商学院的标志性杂志。致力于给全世界的专业人士提供缜密的管理见解和最好的管理实践。

相关领域
商业