思必驰副总裁雷雄国：语音技术应用推动力，最终来源于市场刚性需求

2017年5月4日，庆科携手思必驰共同举办的“万物有声”智能语音方案发布会在深圳隆重举行，与阿里AI、喜马拉雅FM、得邦照明、火火兔等合作伙伴一起，探讨人工智能技术的应用与发展。

活动上，庆科信息与思必驰合作推出了VBS7100语音AI模块。庆科CEO王永虹指出，人工智能技术的应用朝着多种交互技术快速融合的方向发展，语音使设备能够听见，图像使设备能够看见，这终将为我们的生活带来变革。在活动上，多位嘉宾就语音技术在IOT领域的应用发表了演讲，并进行了圆桌讨论。

思必驰副总裁雷雄国也发表了演讲，从行业的角度阐述思必驰对语音技术落地应用，以及语音智能硬件领域的理解。

思必驰，雷雄国,思必驰,雷雄国,智能硬件,庆科信息,语音识别,自然语言理解,人工智能

演讲全文如下（有删减）。

思必驰目前专注在语音硬件领域，因此非常高兴和大家探讨，我们今天整个行业在什么样的进展过程中，以及我们在未来的发展过程中怎么去加速产品化以及产业化的进程。这个方向上我今天和大家分享一下，从行业的角度阐述我们对技术的理解，以及产业的理解。

语音识别的真正刚需在哪里？

语音识别已然经过了六七十年的发展，而真正快速进入法速发展的快车道是近十年来核心产业的推动。推动力在哪里？一个是大数据，一个是移动互联网能给我们带来更多获取大数据的边界性。第二个，我们有更大量的计算资源，能做深度学习的算法。大数据和深度学习能推动整个语音识别技术的快速发展。

语音识别进入消费领域，很多人接触到它是因为Siri的出现，但是到目前为止，Siri并没有真正带动整个交互领域的变革。真正的原因在哪？事实上在手机里，语音教育的刚需是不强的。

从我们现在来看，目前在语音真正有痛点需求，我们能够让语音发挥能力解决实际问题的地方和这些场景下的核心诉求，其实有这么几个。

第一个地方是车载，我们可以看到经过两三年的时间，车载智能设备上，语音的交互已经变成了标配。就是我们真正有核心诉求，有刚性需求的地方对语音的推动力是非陈强的，这是来自于消费者，来自于市场，来自于整个的渠道。

第二个就是，我们现在能够看到的，在家庭领域，家庭这个环境事实上我们认为核心的诉求在于人越来越懒，摇控器的发明，包括现在延展出的其他交互手段，实际上核心的需求都是：我一天工作非常累，回到家里面希望有一个非常舒适、追求懒惰的生活方式。这是语音技术应用在这个点上的核心诉求点。

今天我们觉得儿童故事机这个市场是一个有很大出货量的存在，通过儿童故事机孩子需要获取多样化的内容，这是它的核心诉求点。此外，网络上有了内容，孩子应该怎么去获取内容，也是一个核心诉求点。而在这里，交互部分是正在起着承上启下的作用。

在以上这三个领域，其实我们能够看到，在整个的行业链条上面，有各种各样的厂商，有发展公司，有合作伙伴，有供应链。整个供应链所有结点都有参与进来推动整个行业的发展，我觉得这个对我们来说是非常好的事情。

各个应用场景下还需要解决的问题

现在人工智能非常火，而在未来，我相信人工只能一定会变成一个基础设施，但是在我们现在的阶段，它需要走的路程非常远，还处在一个初级阶段。在这个阶段下面，在一些有刚性需求的行业，以及围绕这个行业快速驱动发展的行业中存在的问题，是我们一块需要去面对和解决的。

在车载方面，对于噪声问题的解决，是未来5年到10年作为专业的语音技术厂商需要解决的地方。另外一块就是本地的语音识别，今天我们跟庆科一块发布的产品，并没有把语音识别带上，但是我相信本地语音识别是作为联网化设备很有效的补充，这个技术在车载设备上面的体现是淋漓尽致的。大家可以看最新的CTC的算法，在脱离任何网络的情况下它能够做到连续的语音识别，这个是在整个产品化方面非常关键的一关。

聚焦到儿童故事机行业，这个行业是今两年法发展非常迅速的行业，包括它销售额以及利润。其实相比两年前，我们在2016年都有大幅增长，不仅仅是故事机，而是围绕儿童的千亿级市场。

在车载方面，我们能够清晰地看到语音技术已经作为标配，我们也希望在经过一到两年的时间，让智能的儿童故事机标配上人工智能语音交互的方式，这个是我们能看到的趋势。

对儿童故事机这个领域几个核心关键词，首先是内容，这个是儿童故事机领域的核心。第二个就是语音交互，对于语音交互而言，要做好的不仅仅是技术的问题，而是需要跟内容方深度整合。这些数据需要跟我们产业链上面的上下游的合作伙伴一块深度整合，做这种数据层面、系统层面的合作，才能够把语音交互的体验做出来，所以这里面需要大家一块去努力，把内容，把语音做深度的整合。

我们在这里面除了跟我们的合作伙伴把语音识别的性能提上去之外，另外我们把语义说法这一部分也做了深度的积累。以及我们针对与儿童交互，进行了语音的TTS合成，这块是非常关键的部分，这部分的云技术目前也取得了很多的进展。

未来的产品上，我们进行20—30分钟的录制之后，就能通过故事机用自己的声音来讲故事。我自己小孩刚两岁左右，就经常有这样的体会：每天晚上11：30到家，小孩会缠着你给他讲故事，其实你已经工作和很累了，如果能让你的声音和爱人的声音给小孩讲故事，这个对小孩来说很好，对我们父母更好。而这样的功能我们已经开发出来了。

自然语言理解（NLP）还有很长的路要走

在语义理解方面，到目前为止，没有任何一家公司，包括谷歌这样国际上的巨头也没有完全解决它的问题。这个从学术上来看，这事实上是“意思”的问题，而“意思”的问题是最难解决的问题。目前通用的问题都是通过大量的数据驱学习我们的说法以及词表，这个上面思必驰针对通用的领域做了一些技术的展示。

我相信未来我们要做故事机，要做内容，我们一定要需要跟内容方深度去配合，乃至于有可能我们的内容提供方需要去做自己的NLP（自然语言理解），因为内容本身的理解，在这方面内容提供方是比较专业的。思必驰也会在这方面提供语义提供平台，让我们的合作伙伴实现自己的ALP，这个对未来的推动也是很大的尝试。

在语义理解中还有一个问题是对话。我们希望，在故事机上面、机器人上面，都能做对话的交互，把上下文的场景，把很多传感器的信息做深度的考量，然后围绕当前输入的语义做一个对话管理的决策，这里面涉及一整套的算法，在这块从国际到国内大家都比较关注对话的交互。

今天的发布会，我们希望能够和庆科一起，给行业合作伙伴更多赋能，也是希望未来基于这个行业的切入在IOT更广的设备上，把语音交互的事情推动起来，与产业链中的伙伴一起，以开放的心态合作共赢。