微软研究员周登勇：机器学习找“众包”当奶妈，大公司都这么干

2017年07月11日前后，CSDN采访了美国微软雷德蒙研究院首席研究员周登勇博士，就众包与机器学习融合中的一些问题进行了请教。

周登勇（Dengyong Zhou），美国微软雷德蒙研究院首席研究员。在加入微软研究院之前，周登勇博士曾任职于德国马普研究所智能系统分所（Max Planck Institute for Intelligent Systems），以及NEC美国研究院普林斯顿分部的机器学习部。他在中国科学院自动化所获得人工智能专业博士学位，并同时获得中国科学院院长奖学金。周登勇博士在微软工作期间曾获研究院金星奖，以及担任NIPS与其他若干国际会议的领域主席。

【周登勇接受采访现场对话实录】

CSDN：首先请与我们的读者分享一下您与团队目前正在专注的研究领域，以及取得了怎样的进展？

周登勇：在微软雷德蒙研究院，我与我的团队一直专注在如何提高众包数据的质量这个基本问题上。具体来说，我们主要集中在两个方面：一是如何从非专家标记的数据中提炼出高质量的标记，二是如何激励数据标记员工提供高质量的工作。针对这两方面问题我们进行了算法和理论基础的研究，一些技术发明已经应用在产品中。

CSDN：我们知道，众包是获取大量的带标签数据，供机器学习系统进行训练的一种方式，那么是什么促成了众包模式的出现，采用众包模式相比传统的数据收集方式具有什么优势？

周登勇：在建立基于机器学习的智能系统时，只要有大量的训练数据，一个朴素的机器学习模型往往可以完胜一个只是基于很少量数据训练出来的精心设计的高级模型。当你需要短时间内提高一个机器学习应用的性能时，大幅度增加训练数据应该是优先考虑的策略，而获得大量标记数据可以通过众包达到。

一个商业化的互联网众包平台可能有上百万分布在世界各地的数据标记员。他们能以低廉的价格在几天甚至几小时之内就产生大量的标记数据。相比之下，传统的基于专家的数据标记缓慢而又昂贵。

CSDN：通常认为，众包的工作流程是任务准备、任务执行、任务答案整合。在此基础上，微软雷德蒙研究院有哪些创新？效果如何？

周登勇：微软雷德蒙研究院的多个小组在众包不同方面的问题上展开了深入而又持久的研究。我们的研究工作往往与产品部门紧密配合。随着数据的类型以及数据收集流程的不同，众包的问题会很不一样。我与我的团队提出了一个叫极小极大熵原理的简洁的统计推断模型用于众包任务答案整合。

该原理可以适用于很多类型的数据，包括多类别的数据，分级数据，以及结构化的数据，也可以很容易融合先验知识。在任务执行上，我们从博弈论出发提出了一种叫翻倍或者归零的付钱机制，数据标记员可以选择不回答他没有把握的问题。采用这种付钱方式，我们观察到数据标记的错误率大幅度降低。而且，理论上我们还证明了这也是经济上最节省的付钱方式。

CSDN：在众包中，任务花费、质量和时间是重要的三个指标，但往往无法兼得。该如何平衡这三者的关系？

周登勇：这三个问题的平衡与具体的众包任务密切相关。一般来说，质量是更重要的指标，如果没有质量，再低的花费与再少的时间都是没有意义的。我与我的团队考虑过任务花费与质量的平衡。我们的目标是在一个给定的预算下获得最高质量的数据。

大致说来，我们考虑一种在线的众包模式。在每一步，我们需要做出两个决定：一是哪个数据需要标记，二是让谁来标记。我们为这个问题设计了一个基于马尔科夫决策理论的数学模型，并提出了一个称之为知识梯度的有效算法。

CSDN：通过众包会获取大量的数据，这些数据在应用于机器学习系统之前，可以通过哪些技术和操作，改善数据的质量？存在哪些误区？

周登勇：这些数据在应用于机器学习系统之前，我们要做数据整合，前面提到的极小极大熵原理的统计推断模型就是服务于此。有些人或许喜欢考虑将数据整合与机器学习的训练算法捆绑到一个单一的模型中，技术上很容易做到，但这个或许不是好的主意。

我倾向把数据整合与模型训练分开，这有两方面原因，迄今为止，我还没有观察到这种捆绑模型有哪些有意义的性能提升。更重要的是，在实际应用中，当机器学习系统出了问题，我们通常需要精确知道到底是哪个环节出了问题。捆绑模型模糊了整合与训练这两个环节的界限。

CSDN：众包中的统计推断背后涉及哪些关键技术？哪些对质量的影响最大？

周登勇：众包中的统计推断技术已经比较成熟，特别是针对多类别的数据。我们的极小极大熵原理的统计推断模型能用到很多不同的数据类型上，对不同的数据类型当然需要做一些适当的调整。但是，众包远不只是一个静态的数据处理问题，为改善众包数据质量，我们还需要考虑其他的环节。

比如说，在众包工人执行标记任务之前，执行资格考试，只有达到了一定的正确率，才有资格标记数据。否则，需要一定的职能训练直到达标。这样的一个环节通常会带来显著的数据质量改善。另外，我前面提到，付钱方式也会对数据质量产生很大的影响，有效的付钱方式会让众包工人愿意付出足够的努力把工作完成好。

CSDN：目前众包平台的激励机制有哪些缺陷，AI新技术能带来哪些不同？未来的困难会在何处（例如是否有可能作弊）？请举例说明。这些研究，除了“众包”还有可能应用在哪些领域？

周登勇：目前众包平台的激励机制一般都是一些经验方法。比如说，随机抽查一些结果，如果回答质量过得去的话，就付全款；否则，就不给钱。我们是把激励机制奠定在坚实的数学基础之上，并发展了实际上简单而又有效的付费机制。

目前，这方面还有诸多问题需要更仔细的考虑。比如说，抽查结果的工作量可能太大，我们需要设法减少对抽查的依赖，而一旦减少抽查会让作弊更容易。还有，一些比较困难的标记问题，比如说自然语言处理的标注，需要提供有吸引力的市场价格吸引足够多的众包工人去标注。

这些问题目前还只是有一些粗浅的经验方法，还有很长的路要走。对众包中激励机制的研究工作可以不只是用在众包中，可以放在更大的范围之内考虑，特别是在人机结合的智能系统中我们也需要考虑如何合理激励每位参与人员。

CSDN：拥有怎样特征的公司应该构建自己或者使用第三方众包平台，应该考量哪些要素？可否简单举例说明？

周登勇：大数据驱动占据核心位置的公司都需要考虑使用众包平台。如果数据的私密性很重要，需要构建自己的众包平台。否则，可以直接使用第三方平台。平台的易用性是一个重要考虑因素。不管是众包工人还是标记任务提供者都会喜欢容易使用的平台。平台的灵活性也很重要，特别是任务分发以及付钱机制上需要有足够的灵活性。还有，平台需要提供一些基本的质量控制功能包括检测作弊。

CSDN：您将在今年的CCAI大会上发表《众包中的统计推断与激励机制》主题演讲，希望此次演讲能够为听众带来怎样的启发，以帮助他们解决当前在人工智能领域哪些共性问题？

周登勇：通过做这个众包工作的报告，我希望大家看到人机结合的智能系统的潜力。在可以预见的将来，机器智能完全代替人的智能几乎没有任何可能。我们应该是让人与机器各施所长互相补充。数据标记是一个比较简单的人机系统，但是这里面包含的技术已经相当有挑战性。

如果我们要建立更复杂的人机智能系统解决更大的问题，会有更多的新的困难需要克服。另外，我们也通过报告展示出如何在一个看起来实际得不能再实际的问题上发展出坚实优雅的数学理论并产生有效的实用技术。这是基础研究的魅力，这需要足够的时间，耐心与环境支持。在我们的工作之前，众包领域的工作基本是处于非常初级的经验主导的阶段。