李京春：打破信息孤岛，大数据要和网络安全相融合

2017年05月25日，大数据安全技术创新与产业化论坛在贵阳举行。

国家信息技术安全研究中心常务副主任兼总工程师李京春以网络安全大数据发展探讨为题做了演讲。

网络安全,大数据,云计算,人工智能

以下为演讲速记整理：

李京春：各位同仁好！我首先讨论的大数据是网络安全大数据，这一块比较特殊，我认为大家很容易实现信息共享，大家对威胁比较憎恨，大家现在把这些数据集中起来，其他生产大数据，甚至流通大数据，里面可能有些比较敏感，威胁大数据应该首先做起来。

讲到大数据我想走三条线，大数据里首先看人工智能，我原来讲过计算机诞生的时候有科技计算可以自动控制，还包括通信安全，也包括人工智能，只不过那个时候时机不成熟，现在有了大数据的支撑，这部分会突飞猛进。我们可以看到在那个时候人要交给机器学习是一件非常难的事情，现在希望机器自己学习，人来指导它。

2016年云计算，大家都在开启建设的时候，我们发现大数据的瓶颈没有了，处理能力都解决了，可以看到在很多安全软件发展过程中，包括入侵检测，包括杀毒，包括防火墙，实际上都有专家系统的云服务。包括入侵检测，入侵检测是美国海军资助的，叫入侵检测专家系统，是一套规则，但现在这种专家系统比较low。现在有这样的支持，这些融合之后未来可以带给我们更多的应用。

目前网络安全和大数据真正融合我认为还没有实现，虽然有的企业做的不错，但是我觉得这里面有一些问题到现在还没有完全解决，包括看攻防这两端，一个是攻击博弈明显攀升，斗争非常激烈，手段花样翻新，传统专家系统面临知识工程评估；业内安全人士应接不暇，专业一线人员和跨学科科研人员存在缺口。可以看到在恶意代码攻防，有病毒，就有杀毒软件，攻击者又有免杀，包括在入侵方面也是这样，有攻击，有入侵检测，又有逃逸攻击，也有0-day漏洞利用，也有APT供给，在这种情况下传统确实难以应对，现在面临的形式，现在防没有什么好办法。

在攻击端攻击链已经形成，这种攻击链可以看到从探测、武器化、投放、利用、控制、执行、循环已经形成，但是在防护端没有形成资源整合，包括数据资源、情报资源的整合与共享，还没有做到，始终处于被动的局面。这次勒索病毒，实际上就是武器化投放利用，这些都是现成的，利用泄露，只做执行层面的代码，就开始攻击了。

大数据不等于大信息，大信息不等于打制石。我觉得在网络安全里显得比较突出，可以看到大数据有两类，一类叫流通大数据，一类叫生产大数据，在内网侧，内网侧更多是生产大数据，流通的是BAT做的很好，看网络安全的大数据是流通于互联网，但是内网也有，攻击的很多都是金融，甚至也有互联网的生产系统，它是全方位的。在大数据里首先是数据，数据要是不可读、不可懂、不可认识的话，这就没法用，必须有一个数据到信息的转换过程，信息只有到挖掘出信息，很多数据挖出几条有用的。

再把这个信息在机器学习、大数据关联，最后转化成知识，就可以辅助决策。在持续机读，人在持续地参与，在原始基础上再不断循环，提炼更多的信息，更多信息再进一步提升转化知识，这种机器学习的机制现在特别欠缺。数据到信息的挖掘大家做了很多，信息到知识的转化这个就没有了。

看生产大数据，这个领域现在发展非常快，包括医疗，机器学习通过12万张胶片跟专家比对，灵敏度高达91%，都是在大数据机器学习的状态下不断利用机器数据转化，转化成知识。还有大家很熟悉的阿尔法狗，这个就是很熟悉的。很多像自然语言、图象识别、自动驾驶，这些都和智能有很大的关系。

美国在2012年3月就强调大数据的研究和发展计划，强调三种，一是机器学习，二是云计算，三是众包。机器学习提供数据分析能力，云计算是提供数据处理能力，重包是提供数据标记能力。围绕信息共享美国出台了很多法案、红绿灯规则、成立情报中心。这是美国国土安全部联合对俄罗斯攻击美国大选，共享规则是哪些可以在社会公开，哪些可以在内部公开，哪些在一定范围公开，有一定的规则。大数据要做好规则，我们现在规则是确实的。

2013年美国APT-1报告针对5名军人，这里挖掘的是3000多个威胁指标，800多个DNS、40种恶意代码。

围绕大数据的可视化，然后不同的层面实现相关反欺诈能力、网络安全能力、国防安全能力。

他们的能力已经很强，美国研究机构包括大学、政府、企业都在深度研究机器学习在网络安全当中的应用，都强调机器学习。

我国的已有基础，随着信息化发，政府部门、行业数据初测能力得到增强。云计算、大数据技术发展，对数据的处理、手机、存储、传输、管理能力普遍得到了飞速提升。网络安全数据采集方面渗透、检测、逆向分析方面也有进展，特别是有些企业达到较高的水平。研究机构逐步重视威胁情报，整合自身的资源。

研究方向1：威胁情报与信息共享。威胁情报与信息共享是传统安全的设备，以及大数据分析平台产生机读的情报，包括人员的研判，再结合广域情报。信息共享的机种模式，包括分发式、自主式、辐射式，把信息共享融到一起，最后辅助决策。

研究方向2：态势感知与预警，解决知识广度的问题。在现在态势感知更多是风险感知，这个比较多，但实际上目标并不明确，风险太大，打的很厉害，全球都在打，你不知道它对的是谁，是国家的态势，还是某个地方，或者一个行业，或者一个企业的，到底它是什么？有什么关联关系？发现数据是全世界都有，真正对电网、真正对银行的关联是什么？一定要对准。还要有预警，才能知道我的系统是否出问题，没出问题的话说明防御能力强，攻击这边很厉害，这样的态势就是目的性必须清晰，能辅助决策。

研究方向3：基于机器学习对威胁分析，解决知识深度的问题。在这一块看传统没有监督学习，出了一份报告，有个排名，转化成信息。我们希望有监督学习，靠专业人员，安全专家，不断优化模型，人工说这是攻击、这是正常的、这是误报，经过学习以后形成模型，更加准确。这是希望机器学习具备的能力。

下面是一些案例，勒索病毒，有一个初步形成，知道防御的策略，指导怎么做，有三种方法，这三种方法也是现在大家普遍使用的。还有一个企业从舆情上进行数据挖掘，很多报警是从国外报警过来，国外报警是在12号晚上20点左右，我们是在第二天早晨凌晨4点才开始预警反应。到13号下午，这个时间有15个小时，要加强舆情的研判，到现在都没有了，可能是我们在微信里，没有在公开里谈论，这是从实际现象看的。从情绪上看，从12号到23号增长838倍。

总结与展望，在机制方面一定要依托规则，一定要打破信息孤岛，促进信息共享，大数据没有信息共享、没有数据我们怎么办？

网络安全大数据首先要解决。引入激励机制，提高企业共享数据的积极性，哪怕数据可以交换、可以交易、可以卖，促进数据的交易、交换。在技术方面要加强可视化技术，态感，特别是机器学习、众包模式，希望在标准上、在机器应用上能看到有这样的东西，目前在市场上看得不是太多。在保障方面希望安全大数据与大数据安全同步发展，强化专业型技术人员、复合型科研人员的人才队伍培养。