清华大学经济管理学院教授朱英姿:机器学习拟合多厉害不重要,重要的是如何控制过拟合

2017年5月21日,由中国人工智能学会、中文信息学会主办,亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕,学术界、工业界、高校师生参与其中。

5月22日上午为智能金融分论坛。主讲嘉宾包括华泰证券信息技术部联席负责人-王玲、哥伦比亚大学刘氏家族讲座教授、FDT智能资产管理中心主任-周迅宇、平安科技公司数据平台部首席总监-肖京、蚂蚁金服集团人工智能商业决策总监-盛子夏等。

清华大学经济管理学院教授朱英姿做了主题为“机器学习与量化投资”的演讲,本文为其演讲速记整理。

朱英姿观点提炼:

1、策略本身不重要,机器学习是非常强的拟合搜索的引擎,但是这个不重要,重要的是怎么样控制过拟合;

2、深度学习有些领域确实可以不在乎,但在量化投资领域我们非常在乎;

3、量化投资的商业模式有三种:Smart beta、Alpha factory和Data Science;

4、相对于人脑的计算能力,计算机做得更快,人要做的就是控制计算机做的事情,你告诉它要做什么,在事后要告诉它结论是否正确。

朱英姿,机器学习,人工智能,量化投资

【朱英姿现场演讲实录(有删减)】

我那天和柳博士在星巴克聊得很嗨,聊的就是策略,上次我们是3月份,现在是5月份,两个月过去了,我的想法有很大的改变。为什么现在我不嗨了,那次我们聊的时候正好我们在做一个机器学习的量化策略。

当时东西刚出来我特别兴奋,弄出来的Sharpe Ratio我很兴奋,但是回过来我发现很多策略、很多机器学习的方法、很多学生每天在实验室里泡着,每天看着图像给一个例子,如果得到的图像不尽人意的话,他会在朋友圈里抱怨一下,凌晨十二点出来一个好图像,其他同学就给他欢呼,这就是现在在学校里做机器学习的一种倾向。

后来我反思,这样做出来的东西我如何控制,我敢不敢用,这就是我两个月的思考,现在冷静下来了,我现在发觉策略本身不重要,机器学习是非常强的拟合搜索的引擎,非常强大,给任何的数据可以拟合出非常漂亮的曲线,但是这个不重要,重要的是怎么样控制过拟合,这就是今天我要讲的。

刚才柳博士说深度学习,有些领域确实可以不在乎,在量化投资领域我们非常在乎,因为金融数据里信噪比是非常低的。当你在金融里做一个回归的时候如果能得到R2=2%、1%就非常高兴了,性噪比只有50-100。

我从另一个角度看看别人怎么做的,美国人怎么做的,现在行业里的标准在怎么做,我还想看看这样的问题不光是量化投资里,物理学、生物学、药学里同样存在非常大的问题,我想看行业里到底怎么做,给我们量化投资未来在这个行业在这个方向有一些启示,这也就是我今天要讲的。

我搜索了一下量化投资的商业模式,大概可以分这三种,我不说非常传统的从共同基金,我们就说从现在机器学习发展开始,引入量化投资以及量化投资飞速增长的这几年来看,我们到底有哪些模式。

第一种模式,Smart beta,这个模式涵盖了所有过去传统的投资,包括基金、指数投资。Smart beta现在变得更加smarter,得益于机器学习,但是它如何控制它的过拟合,这是个行业的问题。现在所用的Smart beta有两个典型的公司,大家都知道,叫DFA和AQR,这两个公司是美国第一第二大基金,除了纯指数,这两个是基于主动和被动之间。他们大概的规模是几千亿美金。

第二种模式是Alpha factory,典型的代表公司,清华任何一个工科同学,对量化感兴趣的都知道。Alpha本身并不是一个新概念,如果你认为市场有钱赚,市场是非有效的,通过发现非有效性就可以去挖掘超额收益,Alpha就是超额收益。为什么会有factory,这就得益于机器学习。

最后一个是Data Science,就是王总公司所做的非常超前的领域,这是一种非常新的模式,但其还未成形,从数据手机到产生策略、进行组合到投入应用还有很长的路要走。

我们首先讲讲Smart Beta,也叫聪明Beta,它是在传统指数投资的基础上,采用系统性方法,对选股策略进行优化,达到跑赢传统指数投资目的的策略。

从Smart Beta的市场来说,这是一种被动投资,其优势就是管理费用低、信息透明度高,普通人在投资前不需要告知要做什么,这一点非常透明。以美国的经验来看,此类投资将会是主流。现在绝大部分的散户的钱,因为监管的原因,基本会投资在此类型产品中。

但是如果我们重新定义Smart Beta,所有这些称之为指数型投资、Smart Beta型投资或者小股票型的投资,其本质特点是什么?规则事前已确定,在招股说明书中也已确定投资人。从小股票指数开始,所有内容都写在了学术文件中,可随时查询,所有人都知道他在做什么,市场上谁做得最好,谁的规模最大。

我们所讨论的机器学习方法,也是在选择一种规则,这种规则要在投资前就确定好,要将各样策略的测试呈现给投资人,投资人根据策略测试的结果进行投资。目前这个行业最大的问题,即如何判断策略测试的结果是否有效。

Smart Beta是金融资产定价理论的直接产物,这是一种采用因子模型的直接的机器学习。量化流程便可通过机器计量方法进行各种优化组合。当我刚开始接触机器学习的方法,我特别兴奋,因为它就是金融计量方法的延伸,可以从线性模型到非线性模型,低维度到高维度,运算速度非常快。可采用的工具很多,但所有的问题的核心仍然是数据。

美国的可靠数据是从1929年开始收集的,而中国可靠的数据却是从1995年开始收集的,更可靠的股权分置改革以后的数据的收集时间就就更短了,仅仅只有10多年。因为我们的数据非常稀缺,我们非常珍惜数据。

机器学习总的来说在Type I和Type II之间,我们希望尾巴越短越好,T越高越好,当T越高,就可能失去了很多机会。从长期的非高频的角度来看,太高的Sharpe需重新审视。对样本外数据进行检验的统计方法,是行业中最热门的方法,如何设计各种检验方法,尽可能提升结论的可靠性的研究,一直在持续进行。

讲一下Alpha factory,这个模式很新。其典型代表是这位光头先生Spinoff,他是个白俄罗斯人,是Millenium的交易员,看上去就非常强势。他太优秀了,想要要自己干,公司说不行,你还留在我这吧,我给你机会,现在他还是Millenium的大股东。

这个模型怎么样,从资管的角度来看他规模很小,但是其很有代表性。它是个Alpha factory,在全世界招最好的学生,也在印度等一些欠发达国家招募,这些学生招来后就在本地就有办公室,给他一个笔记本就能干活,他提供数据及各种回测的方式,这些学生或研究者在世界各个角落均可使用,我认为较低水平的Alpha信号都在他的数据库中,他说将来要搜集到100万的Alpha信号,他们抓取所有的信号,放到他的流水线上,这都是信号。他有一套方法能够把信号变成策略,把策略变成组合,然后把组合变成产品,这就是整个的一条流水线。

他的成功有两点。第一,他把世界上所有最好的头脑进行整合,他的人力资源分布在世界各地。我们的学者使用成本很低,印度的更低,他们把所有好的想法都召集起来,这些想法是海量的,但质量并不高。等会儿我说背后的逻辑是什么,这个逻辑和我们刚才的逻辑完全相反。他这样做得很成功,最关键的是他需要有一个很好的风险控制能力,做到在后台识别这个信号是真是假,这是他的商业模式里最秘密的部分,是不公开的。所有这些Alpha大家都知道,我们同学只要有一个同学做了,那么清华的所有工科生都会知道。

他的逻辑是什么?他的逻辑就是主动管理的法则。我若想达到期望的投资回报,一方面可以改进预测的手段、提升预测精度,这就是所有的理论、实验所要达到的目的。另一方面我不需要很高的IC,可以招很多人,做各种各样的实验。若方向正确,则只需要扩大广度,在全世界范围内找人来做,在他的平台上就可以实现这一点,因此平台集成是非常重要的。

最后一个是我最不了解的也是现在非常热门的一个。阿里、百度、腾讯都在这方面下工夫,他们有这样的优势。

在此引用Bridgewater CEO的话,它可以加速你的决策过程,但是如果大家只看到几个模型,他最终要走到产品这个模式还有很长一段路要走。我很兴奋我能在这个时点在这个领域里有一些工作,我认为当产品是公众产品时,其行业标准会更高,更加透明的标准会写在CFA的章程里。

相对于人脑的计算能力,计算机做得更快,人要做的就是控制计算机做的事情,你告诉它要做什么,在事后要告诉它结论是否正确。当然这个过程还在做研究,研究完成后也可以自动进行。人要做的永远是那部分最难的工作,当它做完以后就可以自动化交给机器。

在市场上,赚钱越来越难。清华里有很多搞机器学习的实验室、教授,他们对金融数据都特别感兴趣,他们认为金融数据好像是一个另类,和其他数据都不一样,这是他们的感受,我们大家都一起学习,谢谢大家。

相关领域
商业