清华大学经济管理学院教授朱英姿：机器学习拟合多厉害不重要，重要的是如何控制过拟合

2017年5月21日，由中国人工智能学会、中文信息学会主办，亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕，学术界、工业界、高校师生参与其中。

5月22日上午为智能金融分论坛。主讲嘉宾包括华泰证券信息技术部联席负责人-王玲、哥伦比亚大学刘氏家族讲座教授、FDT智能资产管理中心主任-周迅宇、平安科技公司数据平台部首席总监-肖京、蚂蚁金服集团人工智能商业决策总监-盛子夏等。

清华大学经济管理学院教授朱英姿做了主题为“机器学习与量化投资”的演讲，本文为其演讲速记整理。

朱英姿观点提炼：

1、策略本身不重要，机器学习是非常强的拟合搜索的引擎，但是这个不重要，重要的是怎么样控制过拟合；

2、深度学习有些领域确实可以不在乎，但在量化投资领域我们非常在乎；

3、量化投资的商业模式有三种：Smart beta、Alpha factory和Data Science；

4、相对于人脑的计算能力，计算机做得更快，人要做的就是控制计算机做的事情，你告诉它要做什么，在事后要告诉它结论是否正确。

朱英姿,机器学习,人工智能,量化投资

【朱英姿现场演讲实录（有删减）】

我那天和柳博士在星巴克聊得很嗨，聊的就是策略，上次我们是3月份，现在是5月份，两个月过去了，我的想法有很大的改变。为什么现在我不嗨了，那次我们聊的时候正好我们在做一个机器学习的量化策略。

当时东西刚出来我特别兴奋，弄出来的Sharpe Ratio我很兴奋，但是回过来我发现很多策略、很多机器学习的方法、很多学生每天在实验室里泡着，每天看着图像给一个例子，如果得到的图像不尽人意的话，他会在朋友圈里抱怨一下，凌晨十二点出来一个好图像，其他同学就给他欢呼，这就是现在在学校里做机器学习的一种倾向。

后来我反思，这样做出来的东西我如何控制，我敢不敢用，这就是我两个月的思考，现在冷静下来了，我现在发觉策略本身不重要，机器学习是非常强的拟合搜索的引擎，非常强大，给任何的数据可以拟合出非常漂亮的曲线，但是这个不重要，重要的是怎么样控制过拟合，这就是今天我要讲的。

刚才柳博士说深度学习，有些领域确实可以不在乎，在量化投资领域我们非常在乎，因为金融数据里信噪比是非常低的。当你在金融里做一个回归的时候如果能得到R2=2%、1%就非常高兴了，性噪比只有50-100。

我从另一个角度看看别人怎么做的，美国人怎么做的，现在行业里的标准在怎么做，我还想看看这样的问题不光是量化投资里，物理学、生物学、药学里同样存在非常大的问题，我想看行业里到底怎么做，给我们量化投资未来在这个行业在这个方向有一些启示，这也就是我今天要讲的。

我搜索了一下量化投资的商业模式，大概可以分这三种，我不说非常传统的从共同基金，我们就说从现在机器学习发展开始，引入量化投资以及量化投资飞速增长的这几年来看，我们到底有哪些模式。

第一种模式，Smart beta，这个模式涵盖了所有过去传统的投资，包括基金、指数投资。Smart beta现在变得更加smarter，得益于机器学习，但是它如何控制它的过拟合，这是个行业的问题。现在所用的Smart beta有两个典型的公司，大家都知道，叫DFA和AQR，这两个公司是美国第一第二大基金，除了纯指数，这两个是基于主动和被动之间。他们大概的规模是几千亿美金。

第二种模式是Alpha factory，典型的代表公司，清华任何一个工科同学，对量化感兴趣的都知道。Alpha本身并不是一个新概念，如果你认为市场有钱赚，市场是非有效的，通过发现非有效性就可以去挖掘超额收益，Alpha就是超额收益。为什么会有factory，这就得益于机器学习。

最后一个是Data Science，就是王总公司所做的非常超前的领域，这是一种非常新的模式，但其还未成形，从数据手机到产生策略、进行组合到投入应用还有很长的路要走。

我们首先讲讲Smart Beta，也叫聪明Beta，它是在传统指数投资的基础上，采用系统性方法，对选股策略进行优化，达到跑赢传统指数投资目的的策略。

从Smart Beta的市场来说，这是一种被动投资，其优势就是管理费用低、信息透明度高，普通人在投资前不需要告知要做什么，这一点非常透明。以美国的经验来看，此类投资将会是主流。现在绝大部分的散户的钱，因为监管的原因，基本会投资在此类型产品中。

但是如果我们重新定义Smart Beta，所有这些称之为指数型投资、Smart Beta型投资或者小股票型的投资，其本质特点是什么？规则事前已确定，在招股说明书中也已确定投资人。从小股票指数开始，所有内容都写在了学术文件中，可随时查询，所有人都知道他在做什么，市场上谁做得最好，谁的规模最大。

我们所讨论的机器学习方法，也是在选择一种规则，这种规则要在投资前就确定好，要将各样策略的测试呈现给投资人，投资人根据策略测试的结果进行投资。目前这个行业最大的问题，即如何判断策略测试的结果是否有效。

Smart Beta是金融资产定价理论的直接产物，这是一种采用因子模型的直接的机器学习。量化流程便可通过机器计量方法进行各种优化组合。当我刚开始接触机器学习的方法，我特别兴奋，因为它就是金融计量方法的延伸，可以从线性模型到非线性模型，低维度到高维度，运算速度非常快。可采用的工具很多，但所有的问题的核心仍然是数据。

美国的可靠数据是从1929年开始收集的，而中国可靠的数据却是从1995年开始收集的，更可靠的股权分置改革以后的数据的收集时间就就更短了，仅仅只有10多年。因为我们的数据非常稀缺，我们非常珍惜数据。

机器学习总的来说在Type I和Type II之间，我们希望尾巴越短越好，T越高越好，当T越高，就可能失去了很多机会。从长期的非高频的角度来看，太高的Sharpe需重新审视。对样本外数据进行检验的统计方法，是行业中最热门的方法，如何设计各种检验方法，尽可能提升结论的可靠性的研究，一直在持续进行。

讲一下Alpha factory，这个模式很新。其典型代表是这位光头先生Spinoff，他是个白俄罗斯人，是Millenium的交易员，看上去就非常强势。他太优秀了，想要要自己干，公司说不行，你还留在我这吧，我给你机会，现在他还是Millenium的大股东。

这个模型怎么样，从资管的角度来看他规模很小，但是其很有代表性。它是个Alpha factory，在全世界招最好的学生，也在印度等一些欠发达国家招募，这些学生招来后就在本地就有办公室，给他一个笔记本就能干活，他提供数据及各种回测的方式，这些学生或研究者在世界各个角落均可使用，我认为较低水平的Alpha信号都在他的数据库中，他说将来要搜集到100万的Alpha信号，他们抓取所有的信号，放到他的流水线上，这都是信号。他有一套方法能够把信号变成策略，把策略变成组合，然后把组合变成产品，这就是整个的一条流水线。

他的成功有两点。第一，他把世界上所有最好的头脑进行整合，他的人力资源分布在世界各地。我们的学者使用成本很低，印度的更低，他们把所有好的想法都召集起来，这些想法是海量的，但质量并不高。等会儿我说背后的逻辑是什么，这个逻辑和我们刚才的逻辑完全相反。他这样做得很成功，最关键的是他需要有一个很好的风险控制能力，做到在后台识别这个信号是真是假，这是他的商业模式里最秘密的部分，是不公开的。所有这些Alpha大家都知道，我们同学只要有一个同学做了，那么清华的所有工科生都会知道。

他的逻辑是什么？他的逻辑就是主动管理的法则。我若想达到期望的投资回报，一方面可以改进预测的手段、提升预测精度，这就是所有的理论、实验所要达到的目的。另一方面我不需要很高的IC，可以招很多人，做各种各样的实验。若方向正确，则只需要扩大广度，在全世界范围内找人来做，在他的平台上就可以实现这一点，因此平台集成是非常重要的。

最后一个是我最不了解的也是现在非常热门的一个。阿里、百度、腾讯都在这方面下工夫，他们有这样的优势。

在此引用Bridgewater CEO的话，它可以加速你的决策过程，但是如果大家只看到几个模型，他最终要走到产品这个模式还有很长一段路要走。我很兴奋我能在这个时点在这个领域里有一些工作，我认为当产品是公众产品时，其行业标准会更高，更加透明的标准会写在CFA的章程里。

相对于人脑的计算能力，计算机做得更快，人要做的就是控制计算机做的事情，你告诉它要做什么，在事后要告诉它结论是否正确。当然这个过程还在做研究，研究完成后也可以自动进行。人要做的永远是那部分最难的工作，当它做完以后就可以自动化交给机器。

在市场上，赚钱越来越难。清华里有很多搞机器学习的实验室、教授，他们对金融数据都特别感兴趣，他们认为金融数据好像是一个另类，和其他数据都不一样，这是他们的感受，我们大家都一起学习，谢谢大家。