阿里云三湾：人工智能发展带来语音、视觉和数据的智能时代

2016年11月30日，“开启未来之门丨阿里云人工智能沙龙”在深圳举办。这是阿里云深圳分公司联手合作伙伴草根天使会、赛格·种子期孵化器，呈现的一期以“人工智能+智能硬件”为主题的沙龙活动。

活动上，阿里云高级专家三湾做了主题为“阿里云人工智能领域实践”的精彩演讲。

三湾,阿里云,人工智能,机器视觉,语音识别,智慧城市

以下是阿里云高级专家三湾演讲实录：

我会和大家简单介绍一下，人工智能的发展，大规模机器学习、语音、视觉和数据智能时代。

在刚过去双11，龙岗大运城的场馆里，阿里云的ET做了一个魔术游戏，下面随机挑了五位美女切牌，ET可以判断出来对应的人拿的是什么牌。

这个扑克牌的魔术，再加上ET之前与胡晓明进行的对话，基本上涵盖了人工智能领域所有的基本能力。它之中包含的技术，包括ASR语音识别，TTS、NLP、OCR技术，包括图像视频分析，人脸的识别追踪，包括机器翻译、规则引擎、推荐引擎等等，基本上涵盖了人工智能几个关键的层次和领域。

人工智能的发展，从上世纪50年代就已经开始了，到2006年由加拿大多伦多大学的机器学习泰斗Geoffrey开始使用深度学习技术在工业界做出突破，那时深度学习使用才开始铺开，到了2011年Google大脑，在看视频时可以识别出哪些猫、哪些是人，而Google的Alpha Go战胜了李世石，则彻底掀起了人工智能的高潮。

我们在这里讲人工智能，其实有很大程度是由于Alpha Go战胜了李世石，成功吸引普通大众对人工智能的关注，因此2016年对人工智能来说是很重要的年份。

人工智能和大数据的关系

人工智能和大数据又有怎样的关系？我们可以看到现在数据越来越多，每年数据的增长都是指数化的增长趋势。从这个角度来看，数据越来越多的时候，更需要机器学习的能力，光靠人的大脑，机器学习不足以支撑我们对数据更快的反应、更好的理解及运用。

所以海量数据处理需要面对学习能力不足的问题，这也是大数据面临着、需要解决的问题。

在过去人工智能基本上是单机的模式来做，现在进入云计算的时代，从单机的样本到跨集群、跨机房、跨网络，进行高性能、海量的数据处理，大数据是为人工智能注入新的活力，让他有更强能力做更大数据计算以及更深层数据应用。

同时以大数据为基础的深度学习可以在各个领域得到突破性的进展。最关键的几个领域大家也有所耳闻，主要是在语音识别、图像识别、机器视觉。基本上是在听、看、说，当然还没有到更深的层次，这几个层次已经让人工智能在很多的领域里，可以帮助我们更好的提升。不管怎么样，数据量增多、数据种类增多，需要人工智能加速我们对数据的应用，挖掘数据的价值。

我们可以看到人工智能现在应用的领域其实有很多。它能帮助我们，替代我们人所不擅长工作，比如说长时间的疲劳劳动，长时间需要肉眼识别的工作，另外还包括手机的更多智能化、智能博弈、智能可穿戴设备、机器人、自动驾驶、智能医疗等等，在这些领域我们都需要人工智能帮助我们提高设备和机器的能力。

对于大数据推动的深度学习而言，首先要有一个大规模的机器学习平台。对于阿里而言，我们的数据智能整体的框架，包涵了计算引擎，开放的平台，和最关键的智能数据服务。

而在这个平台上还有很多应用可以做，例如智能交通、物联网、智能视频、智能推荐、移动分析等各种算法。

机器视觉应用

在视觉方面我们有非常强的视觉计算能力，用肉眼，机器人替代人眼。视觉包含了很多技术领域，包括视频、图像的分析、切割，视频的结构化，目标的检测，物体的检测、跟踪，另外视觉搜索等等。

我们可以看看阿里云在视觉上人做了哪些工作。

交通行业在人工智能和视觉这块用得特别广泛，因为有各种各样的摄象头，有各种各样的视频设备，可以检测到人、机动车、非机动车，进行对路面的分析、路牌的标识，停车场信息采集、比对，车辆特征提取的比对，这都是非常常见的交通行业机器视觉应用。

阿里给杭州市做的城市大脑，应用了交通行业里机器视觉的解决方案，可以实时的感知杭州市所有的交通卡口，路面上的所有车流、人流、交通、车牌、车型等所有的数据。阿里云用视频解决方案，可以感知在整个城市里，所有方方面面正在发生的点点滴滴，并把所有场景准确记录、实时理解分析。

这是另外一个场景，这是广州，广州一条大道来做实时红绿灯的调配，通过交通拥堵检测以后，对信号灯进行实时的检测和调整，这也是用了各种视频、流量、综合的设备，能在每个路口准确的判别交通流量的状况，交通路口的情况，以及左转、右转的流量分配以及排队的状况，通过人工智能更好的优化路口的配时、交通整体城市拥堵的调整和提升。

只要拍摄的视频足够清晰，能准确判断上栏、两分球、三分球、抢断和扣篮，就可以对任何一个人打篮球的动作进行分析，并且纠正。体育领域里数字化、大数据的分析对帮助分析科学训练、比赛赛事分析以及赛事转播都非常有帮助。

这里要做的事情很多，包括转播的自动化、远近景的获取等等。运动员一般会穿带编号的，让机器可以有轨迹的获取。

大家都说大数据帮助世界杯做了很多工作，其实无外乎是分析竞争对手，每个球员的跑位、运球的轨迹、发球的偏好，这个技术也比较成熟，很多客户都在使用。

还有一个领域是图像搜索。很多时候搜文字可以搜索，但搜图片还是很有难度的。图片的检索不像文字，文字已经完全可以把索引的技术做出来，但图片索引比文字搜索更难，他要从图片中识别出特征，如果是商品的话还要另行识别、进行特征的提取。

现在每个人装的淘宝、天猫APP，都有一个摄象头，点一下就可以拍任意一个东西，然后检索出来类似的商品。

很多客户在探索的是视频、图片广告的嵌入，让用户最终看到的图片是嵌入式广告的形式，上面有一个经过叠加进去的广告视频，但却不影响观看体验。这种方式可以针对每个用户，做用户划项，根据用户特性和偏好展示不同的广告，每个人看到是不一样的。

阿里的平台可以帮助实现刚才看到所有的机器视觉技术，我们有肉眼识别、人眼识别、图像识别、视频处理的能力，可以帮助各种各样智能硬件、智能设备提高能力，满足用户对视觉感知的诉求。

接下来是语音交互，语音交互大家接触得会更多，更常见一些，他的技术更为成熟，这也是云栖大会，我们在云栖大会，每个演讲者上去发言都会把他的语音翻译成文字，在上面做实时的转播，我不知道这边有没有做直播的同学，很多直播都在和我们合作，把网红通过文字呈现出来，这也是一种增强体验的能力。

人工智能已经比人类要好，这个不得不承认，现在在很多领域已经比人类要更成功，我们可以看到，我们在阿里的年会上，那边还是胡晓明，一边敲、一边通过语音识别，我们发现机器识别的准确率已经超越人，而且不是超过普通人，超越了世界亚军，这就跟围棋比赛一样，Alpha Go打败李世石是一样的道理。重复性、高强度人类不能支撑的领域，机器远比人类表现得更为优异、更好。我们做人工智能的目标是让机器在某些领域超越人类，我觉得是更好的为人类服务。

语音交互应用

在语音交互上，我们不但要让机器能听会说，还要让他能懂你。

语音交互理解，大家都在常用，每个智能手机上都有基本的能力，进行语音识别和语音合成，实际上我们需要更多的是它能理解我们。

目前我们做得很多的是知识库，通过后台的知识图谱，来完成整个机器人技术架构的问答，尤其是在机器人领域的交互。现在有的机器人能进行简单的对话，而有的当你说一句话还要理解很久。苹果的SIRI还没有达到和人类流畅的交流，进行上下文很好衔接。事实上，将上下文进行联系这个技术领域比语音识别更难一些。

基于这个领域的技术进行多轮对话，其实难度非常大的。通常分为狭义和广义的语音技术，比如说手机上用到的，以后互联网汽车上用到的，包括各种各样智能设备上用到的。在各种各样的智能场景中，语音技术都能帮助我们更好的理解和认知用户心理，提升用户的体验。

还有很多语音的场景，包括导购，包括应用直达、语音识别、功能提升，包括法院进行庭审的时候，可以把对应文字快速记录下来。

人工智能的综合应用

前面讲过了图像和语音，其实人工智能还可以综合各种因素做很多综合性的预测。

包括对城市交通的预测，例如ET可以通过现在路面状况，判断一小时以后路面会是什么样的。利用人工智能，我们可以站在技术的高地站得高、看得远、看得清，可以清楚的看出来一个城市的拥堵状况，并进行路况预测。

上半年阿里的小Ai和上一季《我是歌手》进行过歌王预测，通过对人群表现，舆情状况，现场观众反映，以及每个歌手的风格、受众等各种情况，利用算法判别、预测谁是冠军，最终我们成功预测李纹将是最终的冠军。

大家一直在应用人工智能，利用算法在改善和提升、优化，我们认为，今年人工智能真是到了爆发的一年。