中文信息学会副理事长施水才:自然语言处理是AI皇冠上的明珠

2017年5月21日,由中国人工智能学会、中文信息学会主办,亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕,学术界、工业界、高校师生参与其中,5月22日下午为智能投资分论坛。厚生利用投资总裁栾凌、臻云创投合伙人英诺天使基金合伙人祝晓成、北京拓尔思信息技术股份有限公司副董事长兼总裁施水才、太库科技美国总经理唐亮出席了本次论坛,并围绕智能投资领域展开了演讲。

施水才,北京拓尔思信息技术股份有限公司副董事长、总裁、中文信息学会副理事长,在本次论坛上进行了以“从大数据到自然语言处理领域的投资机会”为主题的演讲。

中文信息学会副理事长施水才,人工智能,智能投资,自然语言处理

 

【施水才现场演讲实录(有删减)】

大家下午好!今天我演讲的题目是“从大数据到大知识——自然语言处理领域的投资机会”。

搞投资是件挺苦逼的事,我最近才开始学习,投资的活很专业,没有常人想象的那么风光。我今天讲的题目有四个方面,第一是对AI时代的看法,第二,NLP(自然语言处理)是AI皇冠上的明珠。第三,我们的AI之路及ABC融合的想法,第四,NLP领域的投资方向。

一、对AI时代的看法

我们不太愿意谈人工智能,但是不得不谈,毕竟大家都在谈。包括我们开复同学,前不久搞了一篇很高点击量的自媒体文章《我不是李开复,我是人工智能》。

从投资的方向上来看,2016年麦肯锡的报告指出,AI方面的投资到2025年会涨到一千多亿美金。大家也可以看到,现在大的巨头们在AI领域的优势是比较大的,但是,是不是有他们,我们就没事干了?

也不一定,这些巨头有数据,有人才,有云的基础设施,我们很难在通用人工智能的领域跟他们竞争。但是,还有别的很多地方和领域是可以做的。

AI为什么这么火爆?昨天大会上也谈到大数据,深度学习,高计算力等等,本次大会第一个巅峰论坛,6个嘉宾全是搞视觉的,没有搞自然语言的,是不是搞自然语言太难了?还是说搞自然语言的人不好意思上去?

大数据,深度学习,高的计算能力,导致了现在的很多突破,特别是在感知领域。但是不是说有足够的数据和计算能力就可以了?昨天有一个嘉宾说深度学习,让计算机达到5岁孩子的水平,这样的从大数据到大知识的实践怎么办?其实认知这一部分还是很难的。

二、NLP是AI皇冠上的明珠

为什么说NLP是人工智能皇冠上的明珠呢?我们国家在语言文字信息处理方面诞生了三家上市公司,从上市的顺序来说,最早是汉王,做模式识别,后来科大讯飞做语音识别,然后是拓而思的信息检索和文本挖掘。

最近5年和语音相关的投资是非常大的,除了科大讯飞以外,还有云知声等等,这两年视觉领域的投资非常热,但实际上我建议大家做投资要慎重,为什么这么说?现在技术的门槛已经变低了,这些东西已经基本成熟,关键是要找到应用场景。如果没有这个应用场景,变现就非常困难。而且这些公司基本上很贵,大家的目标都是独角兽,我们投资就要投资未来。

为什么说前沿的机会在NLP相关领域呢?我们看了一下国外的调研公司的数据,最值得关注的100家AI公司中,25%的项目和自然语言直接或者间接的相关。从另外一个角度,福布斯谈了TOP50的AI公司的融资视角,其中16.2%的资金投向了NLP直接或者相关的领域,看来这个领域大有可为。

我们投资很多时候是跟风的,喜欢跟着美国跑,这可以看出一些趋势。另外,从商业的视角来看,很多具有重要影响的技术与自然语言是直接或者间接相关的。为什么说是AI皇冠上的明珠呢?微软前不久提出一个口号是“自然语言是人工智能皇冠上的明珠”,现在我们中文信息处理界一致认为这个口号恰如其分。

从技术上来说,如何从识别到理解?自然语言主要是为了解决理解的问题,目前在这方面还是非常困难的。传统的NLP技术现在也在用深度学习,根据我们自己的实践,把传统的方法加上深度学习的技术以后,分类,聚类,热点词抽取等等,这些在实践中都是非常有用的。另外,深度学习很多方法,神经网络,循环神经网络,递归神经网络,卷积神经网络,都有自己的用途。

在NLP领域集大成应用的焦点,就是BOTS,它是人工智能的聊天机器人,或者虚拟助理。为什么这些大公司拼命在这个领域竞争呢?它是NLP技术的集大成之处。昨天微软的黄学东的演示,其中有几个例子是非常好的,表现出微软在这方面确实有自己领先的地方。谷歌,苹果,一直到微软小冰,Facebook等等,都是竞争的焦点。

如何提升人工智能的应用效果?这也有很多学问。昨天谈到强人工智能,我觉得强和弱的说法我不太赞同,强和弱是相对的,我们更加强调的是通用的还是垂直的。另外,在投资的角度来说,NLP支持认知计算围绕三大领域,一个是交流,第二是决策,第三是发现。从应用场景来说,可能是智能的搜索引擎,还有智能的投顾等等。从市场空间来说,当然是很大的。

我简单介绍下NLP领域的相关典型的项目。alphasense,里面大量使用了自然语言处理的技术。还有美国一家公司,Dataminr,分析社交媒体的数据,和其他数据进行结合,为投资者采取行动。

前几年我们有一个组织叫SMP,我们经常讨论未来用社交网络炒股行不行?我在五道口金融学院经常问老师,我说智能投顾能不能搞?他们说都是骗子,这是某个基金大佬讲的。我昨天又问马马卫华,他也不可置否。主要的问题是什么呢?

能不能搞,证券市场是无效还是有效?这个特别重要。我们也看了很多智能投顾的项目,我们其实特别想投资这些项目,但是非常谨慎。还有一个是KENSHO,也是跟智能投顾有关的应用,大家可以上网去查这些公司的资料。

三、AI之路及ABC融合

我从大学里出来创业,对学术和产业的认知感受颇多,创业其实挺难的。我们1993年的时候搞了一个全文检索,就是搜索引擎背后最重要的技术。后来成立公司,开始创业。

2000年的时候我们开始做自然语言处理方面的东西,大家觉得这个领域发展太慢,市场空间太小,认知度太低。我们对标的公司想买我们,是英国的一家公司,他后来120亿美金卖给惠普。他们当时要买我们,3000万美金,我当时觉得挺好了,心也动了一下,但是觉得卖了干嘛去呢?不知道该干什么,就没卖,自己搞,后来我们也在创业板上市了。

那个时候我们鼓吹大数据,其实不是鼓吹,我们做非结构化数据处理,其实就是大数据重要的组成部分。

现在人工智能时代来了,我们要为大数据加点东西,我们叫“大数据+AI”。我们做AI的时候,回顾历史,最早是1990年,1990年的时候我们学校和国防科工委成立了人工智能实验室,当时参会的人很多,我记得钱学森发言说“人工智能是人脑和手的延伸”。我们很兴奋,国防科工委给我们提供了很多基础设施,20部军线,免费使用,结果搞了三年以后失败了,那个时候还是规则和专家系统的思路,没有大数据,计算力也不行。

对于人工智能我有几点看法。

对产业界来说,单独谈人工智能,意义不是很大,因为它是属于赋能的。在现在实际的环境中,最近有一篇文章,讲到ABC的融合是必须的。对比一下IBM,虽然人工智能搞得很早,智慧地球的理念领先业界多年,但是为什么最近业绩不好呢?可以看谷歌,Facebook,亚马逊,他们有数据和云的基础设施的支撑,所以他们发展得更好。

人工智能的投资和前几年的大数据差不多,最近我们要发布一个“北京软件名人榜”,我现在还不能说,因为还要经过北京市相关领导的审批。

但有一点是可以说的,现在人工智能的热度已经上升为第二位,第一位还是大数据。我参加过太多大数据的论坛,我总结就是“钱多,人少,估值高,不挣钱”。我更加倾向于垂直的,行业性的,能互动的AI。

刚才有一位嘉宾说到智能客服,如果这个智能客服跟人工系统不能结合的话,这个智能客服一定是不好的,必须要有人在参与。核心是应用场景,对于某些应用领域,光有大数据还不行,还得有知识,甚至是大知识。

面向用户提供人工智能的服务能力,不仅在于AI技术的领先,还要有云和数据的支撑。我们这么多年里,在文本挖掘和知识图谱领域也做了一些工作,也有相应的积累,我们推出了新一代的产品,叫TRS DL-CKM,现在已经用到很多领域。

比如专利自动审查,国家专利局是我们最大的客户,中国已经被称为“专利大国”,但是我们的专利很水,通过我们的智能审查系统,可以发现哪些是冒牌专利。像数据新闻,机器人写作,我们跟很多新闻单位合作用机器人来写文章,目前已经实现了,很多地方已经在用,还有互联网作品的保护等等。

还有一个例子是金融的风险预警监控,大量的用到了AI技术。我们提出了“冒烟指数”,就是森林要着火了,才冒烟,这个系统在今年对于打击互联网金融非法集资起到了很好的作用。

四、NLP领域的投资方向

最后谈一下投资的建议。

第一,垂直,或者是行业的。

第二,一定要有应用场景。

第三,跟大数据和云服务结合。

第四,关注NLP和知识图谱的投资。

相关领域
商业