阿里云三湾:人工智能发展带来语音、视觉和数据的智能时代

2016年11月30日,“开启未来之门丨阿里云人工智能沙龙”在深圳举办。这是阿里云深圳分公司联手合作伙伴草根天使会、赛格·种子期孵化器,呈现的一期以“人工智能+智能硬件”为主题的沙龙活动。

活动上,阿里云高级专家三湾做了主题为“阿里云人工智能领域实践”的精彩演讲。

三湾,阿里云,人工智能,机器视觉,语音识别,智慧城市

以下是阿里云高级专家三湾演讲实录:

我会和大家简单介绍一下,人工智能的发展,大规模机器学习、语音、视觉和数据智能时代。

在刚过去双11,龙岗大运城的场馆里,阿里云的ET做了一个魔术游戏,下面随机挑了五位美女切牌,ET可以判断出来对应的人拿的是什么牌。

这个扑克牌的魔术,再加上ET之前与胡晓明进行的对话,基本上涵盖了人工智能领域所有的基本能力。它之中包含的技术,包括ASR语音识别,TTS、NLP、OCR技术,包括图像视频分析,人脸的识别追踪,包括机器翻译、规则引擎、推荐引擎等等,基本上涵盖了人工智能几个关键的层次和领域。

人工智能的发展,从上世纪50年代就已经开始了,到2006年由加拿大多伦多大学的机器学习泰斗Geoffrey开始使用深度学习技术在工业界做出突破,那时深度学习使用才开始铺开,到了2011年Google大脑,在看视频时可以识别出哪些猫、哪些是人,而Google的Alpha Go战胜了李世石,则彻底掀起了人工智能的高潮。

我们在这里讲人工智能,其实有很大程度是由于Alpha Go战胜了李世石,成功吸引普通大众对人工智能的关注,因此2016年对人工智能来说是很重要的年份。

人工智能和大数据的关系

人工智能和大数据又有怎样的关系?我们可以看到现在数据越来越多,每年数据的增长都是指数化的增长趋势。从这个角度来看,数据越来越多的时候,更需要机器学习的能力,光靠人的大脑,机器学习不足以支撑我们对数据更快的反应、更好的理解及运用。

所以海量数据处理需要面对学习能力不足的问题,这也是大数据面临着、需要解决的问题。

    在过去人工智能基本上是单机的模式来做,现在进入云计算的时代,从单机的样本到跨集群、跨机房、跨网络,进行高性能、海量的数据处理,大数据是为人工智能注入新的活力,让他有更强能力做更大数据计算以及更深层数据应用。

    同时以大数据为基础的深度学习可以在各个领域得到突破性的进展。最关键的几个领域大家也有所耳闻,主要是在语音识别、图像识别、机器视觉。基本上是在听、看、说,当然还没有到更深的层次,这几个层次已经让人工智能在很多的领域里,可以帮助我们更好的提升。不管怎么样,数据量增多、数据种类增多,需要人工智能加速我们对数据的应用,挖掘数据的价值。

    我们可以看到人工智能现在应用的领域其实有很多。它能帮助我们,替代我们人所不擅长工作,比如说长时间的疲劳劳动,长时间需要肉眼识别的工作,另外还包括手机的更多智能化、智能博弈、智能可穿戴设备、机器人、自动驾驶、智能医疗等等,在这些领域我们都需要人工智能帮助我们提高设备和机器的能力。

对于大数据推动的深度学习而言,首先要有一个大规模的机器学习平台。对于阿里而言,我们的数据智能整体的框架,包涵了计算引擎,开放的平台,和最关键的智能数据服务。

而在这个平台上还有很多应用可以做,例如智能交通、物联网、智能视频、智能推荐、移动分析等各种算法。

机器视觉应用

在视觉方面我们有非常强的视觉计算能力,用肉眼,机器人替代人眼。视觉包含了很多技术领域,包括视频、图像的分析、切割,视频的结构化,目标的检测,物体的检测、跟踪,另外视觉搜索等等。

我们可以看看阿里云在视觉上人做了哪些工作。

交通行业在人工智能和视觉这块用得特别广泛,因为有各种各样的摄象头,有各种各样的视频设备,可以检测到人、机动车、非机动车,进行对路面的分析、路牌的标识,停车场信息采集、比对,车辆特征提取的比对,这都是非常常见的交通行业机器视觉应用。

阿里给杭州市做的城市大脑,应用了交通行业里机器视觉的解决方案,可以实时的感知杭州市所有的交通卡口,路面上的所有车流、人流、交通、车牌、车型等所有的数据。阿里云用视频解决方案,可以感知在整个城市里,所有方方面面正在发生的点点滴滴,并把所有场景准确记录、实时理解分析。

这是另外一个场景,这是广州,广州一条大道来做实时红绿灯的调配,通过交通拥堵检测以后,对信号灯进行实时的检测和调整,这也是用了各种视频、流量、综合的设备,能在每个路口准确的判别交通流量的状况,交通路口的情况,以及左转、右转的流量分配以及排队的状况,通过人工智能更好的优化路口的配时、交通整体城市拥堵的调整和提升。

只要拍摄的视频足够清晰,能准确判断上栏、两分球、三分球、抢断和扣篮,就可以对任何一个人打篮球的动作进行分析,并且纠正。体育领域里数字化、大数据的分析对帮助分析科学训练、比赛赛事分析以及赛事转播都非常有帮助。

这里要做的事情很多,包括转播的自动化、远近景的获取等等。运动员一般会穿带编号的,让机器可以有轨迹的获取。

大家都说大数据帮助世界杯做了很多工作,其实无外乎是分析竞争对手,每个球员的跑位、运球的轨迹、发球的偏好,这个技术也比较成熟,很多客户都在使用。

还有一个领域是图像搜索。很多时候搜文字可以搜索,但搜图片还是很有难度的。图片的检索不像文字,文字已经完全可以把索引的技术做出来,但图片索引比文字搜索更难,他要从图片中识别出特征,如果是商品的话还要另行识别、进行特征的提取。

现在每个人装的淘宝、天猫APP,都有一个摄象头,点一下就可以拍任意一个东西,然后检索出来类似的商品。

很多客户在探索的是视频、图片广告的嵌入,让用户最终看到的图片是嵌入式广告的形式,上面有一个经过叠加进去的广告视频,但却不影响观看体验。这种方式可以针对每个用户,做用户划项,根据用户特性和偏好展示不同的广告,每个人看到是不一样的。

阿里的平台可以帮助实现刚才看到所有的机器视觉技术,我们有肉眼识别、人眼识别、图像识别、视频处理的能力,可以帮助各种各样智能硬件、智能设备提高能力,满足用户对视觉感知的诉求。

接下来是语音交互,语音交互大家接触得会更多,更常见一些,他的技术更为成熟,这也是云栖大会,我们在云栖大会,每个演讲者上去发言都会把他的语音翻译成文字,在上面做实时的转播,我不知道这边有没有做直播的同学,很多直播都在和我们合作,把网红通过文字呈现出来,这也是一种增强体验的能力。

人工智能已经比人类要好,这个不得不承认,现在在很多领域已经比人类要更成功,我们可以看到,我们在阿里的年会上,那边还是胡晓明,一边敲、一边通过语音识别,我们发现机器识别的准确率已经超越人,而且不是超过普通人,超越了世界亚军,这就跟围棋比赛一样,Alpha Go打败李世石是一样的道理。重复性、高强度人类不能支撑的领域,机器远比人类表现得更为优异、更好。我们做人工智能的目标是让机器在某些领域超越人类,我觉得是更好的为人类服务。

语音交互应用

在语音交互上,我们不但要让机器能听会说,还要让他能懂你。

语音交互理解,大家都在常用,每个智能手机上都有基本的能力,进行语音识别和语音合成,实际上我们需要更多的是它能理解我们。

目前我们做得很多的是知识库,通过后台的知识图谱,来完成整个机器人技术架构的问答,尤其是在机器人领域的交互。现在有的机器人能进行简单的对话,而有的当你说一句话还要理解很久。苹果的SIRI还没有达到和人类流畅的交流,进行上下文很好衔接。事实上,将上下文进行联系这个技术领域比语音识别更难一些。

基于这个领域的技术进行多轮对话,其实难度非常大的。通常分为狭义和广义的语音技术,比如说手机上用到的,以后互联网汽车上用到的,包括各种各样智能设备上用到的。在各种各样的智能场景中,语音技术都能帮助我们更好的理解和认知用户心理,提升用户的体验。

还有很多语音的场景,包括导购,包括应用直达、语音识别、功能提升,包括法院进行庭审的时候,可以把对应文字快速记录下来。

人工智能的综合应用

前面讲过了图像和语音,其实人工智能还可以综合各种因素做很多综合性的预测。

包括对城市交通的预测,例如ET可以通过现在路面状况,判断一小时以后路面会是什么样的。利用人工智能,我们可以站在技术的高地站得高、看得远、看得清,可以清楚的看出来一个城市的拥堵状况,并进行路况预测。

上半年阿里的小Ai和上一季《我是歌手》进行过歌王预测,通过对人群表现,舆情状况,现场观众反映,以及每个歌手的风格、受众等各种情况,利用算法判别、预测谁是冠军,最终我们成功预测李纹将是最终的冠军。

大家一直在应用人工智能,利用算法在改善和提升、优化,我们认为,今年人工智能真是到了爆发的一年。

相关领域
商业