隐私在裸奔？一文读懂数据安全从0到1的“落地密码”

本文作者：梁程敏

编辑：梁程敏

2021-04-27 13:56

导语：“网络安全+数据安全”的技术可以赋能数据开放，更好地激活数据的价值。

数字化时代，如何赋能数据开放？如何激活数据价值？

近日，在“西湖论剑•网路安全大会”上，安恒信息高级副总裁、首席科学家刘博就数字化转型的实践与思考，做了一些分享。

刘博在本次大会谈道：安全的使命和价值已经发生了质的变化。之前大家理解的“安全”单纯地指保护和保障，到目前新一代安全概念跟业务发展息息相关。在业务的发展的第一天企业就考虑：怎样利用数据安全的技术更好地开展业务？

在刘博看来，一方面，网络安全是一个基础以保障我们的系统，保障我们的应用能稳定运行。另一方面，通过数据安全，作为一个助推器来帮助我们数字化改革更大胆地往前迈进，能让我们更放心地开放数据。

最后，刘博表示期望在“十四五”期间，通过“网络安全+数据安全”的技术可以赋能数据开放，更好地激活数据的价值。

隐私在裸奔？一文读懂数据安全从0到1的“落地密码”

安恒信息高级副总裁、首席科学家刘博

以下为刘博的演讲全文，雷锋网•鲸犀在不改变愿意的基础上做出了编辑：

非常荣幸今天能有机会给大家分享我们在数据安全所做的一些工作，主要话题是怎么赋能数据开放，怎样激活数据的价值。

我这里面主要想讨论两方面问题：（1）第一是网络安全；（2）第二是数据安全。

网络安全包括应用与系统，传统更多偏向于攻防的安全，漏洞类的安全。再到数据安全，很多时候是一个工具，不只是一个威胁检测等，因为我有了相应的数据安全的技术，不管是从最简单的脱敏也好，还是新一代的技术，刚才冯院士提到的同态加密或是密文搜索是为了更好地打造数字经济的生态和应用。

（一）“网络安全”保障系统和应用稳步前行

我先简单回顾一下，安恒信息从2016年做网络安全态势感知，或是叫网络安全大脑。大概五年的时间，我先简单回顾一下现在在关基保护或关基信息基础设施保护着方面我们取得的一些进展。

首先，IPDR能力建设。无论是监管还是企业，先要具备一些点上的能力，但其实很多信息化发展比较好的单位或是行业，IPDR的能力在建态势感知之前就有了。

企业已经买了很多设备，企业的能力挺完善，缺的是一个网络安全的大脑。在这里大脑分成两个基础的核心，一是数据中台，一个是能力中台。

数据中台是指有很多的第三方的设备。无论是基于流量还是终端的，还是应用日志，怎样将这些日至很好地整理起来，为建模服务？什么叫安全能力中台？因为我们要开展安全运营，包括响应、处置等，上百台到的安全设备操作，效率非常低，无法联动，所以安全能力中台非常关键，有了数据中台，有了能力中台，那我们就可以在这上面开发，不仅仅是一家厂商，多家厂商可以开发各种各样的我们称之为智能应用，无论是分析研判还是通报预警还是指挥调度，从不同的维度可以感知到网络安全的这样一个风险，无论是内网、外网、账号、漏洞等。

我们到目前为止应该服务于大概200多家的省市级监管单位以及2500家的重大型的政企单位，这里简单通过数字体现出我们现在建设的一些情况以及我们针对于关保所取得的目前已开发的模块。

进入到我们“十四五”期间，还是有很多，并不是说网络安全已经非常成熟了，所以从实战的角度来讲，从成熟度来讲，打10分的话，很多处于3分4分，好一点到6分，这是与好一点的美国企业相比。

“十四五”期间，我们的目的是实现智能化，更重要的是实战化，这里就包含了我们指挥协调系统以及全息档案，全息档案就是数据中台很核心的一部分，包括资产的核心档案以及系统的全息档案等，包括新业态的安全，因为现在各行各业都在拥抱我们的云、大数据、物联网、移动互联网、工控等新业态的安全，再到挂图作战，包括服务于我们的重大安保。

刚才讲的是监管，针对于企业，我们怎么来开展的情况，企业的系统越来越复杂，特别针对中大型企业，还有分支，现在简单的一张图来表示对于一个中大型的企业，首先我们是有监管单位的态势感知，无论是行业的，还是我们省级监管单位。再到行业的集团，我集团要有一个统一的安全中心，再到每个单位，也可以是一个区域性，也可以是一个单位的，某一个业务支撑部门要有自己的企业安全的大脑，所以我们往往会形成三级联动，纵深防御，协同联动的系统。

构建了这个系统，它能体现什么样的价值？如果我们有一个单位的企业大脑，再到行业或是集团，再到我们监管的单位，我们能体现什么样的价值？

我们来看一个具体的例子，这具体的例子就是我们在前天刚刚结束的在攻防演练过程当中所发现的一个实际例子。首先通过企业的，因为我们收集了全流量数据，我们发现0 Day攻击，怎么那么容易逮到？作为一个0 Day攻击，如果大家知道攻击链或ATT&CK或是攻击框架，0 Day，不可能每一步骤都利用0 Day，无论是攻击的三步、五步、十步不可能都是0 Day，总有一些步骤是常规性的步骤。

因为我们有了全流量的流量或日志类数据，这绝不是系统自动发现的，人与工具结合起来可以及时地发现其中的一个线索，然后通过我们右边大家看到的图谱分析，通过图谱分析关联到它利用0 Day的逻辑，因为我们有全流量的Payload，所以我们可以通过人工分析的方式来看0 Day的攻击逻辑，从而将IOC提炼这些，这是这一张图索要表达的含义，这是一个企业或单位的中心，如果有了0 Day的IOC之后，如果没有的话，这是纵深防御系统，IOC加到我这里就好了，如果我们有上下级的关系，我就可以将下级单位的威胁给会聚到上面这一层，将一些IP信息脱敏掉，上传到我们的威胁情报的中心，同时也可以从我们企业的云端威胁中心结合起来，形成一个商业的威胁知识库，这就相当于两级的情况。

有了行业的威胁知识库就可以做到知识共享，也就是第三步，就可以实现协同防御，其实整个过程，我们在前面15天的攻防演练过程当中发现了好几个案例，响应的时间在3小时之内可以提炼IOC，再上报，上报验证完再下发，策略同步下发到每一个下级单位，即使他没有发现0 Day，但提前具备了预防能力，这是构建一个无论是二级还是三级的纵深防御的企业的安全大脑。

同时，刚才提到了服务于目前全球2500家中大型客户，也取得了不错的成果。回到数据安全这一块，网络安全更多的是在保护Protect，数据安全是为了赋能，为了让一些业务场景从之前的不敢做到现在的敢做，之前网络安全是我有一个业务系统，我来挑毛病，大家一直在讲，网络安全的工作者，网络安全部门很多时候别人业务部门会称我们为挑毛病的部门，但数据安全是完全不同的。

因为数据安全的事件产生的风险太多了，我就不一一详细介绍了，无论是经济利益的损失还是对于个人的损失，还是对于一个行业或国家的损失都是巨大的。

全国也非常重视，包括我国在内，现在已经全球107个国家和地区已制定了数据安全及隐私保护的相应的法律法规。

数据安全包含三方面：一是数据安全保护，首先我们内部在使用数据过程当中要保护好它。

第二是数据安全的开放，能否开放给我们的第三方，我们的合作伙伴，甚至开放给不认识的第三方，就像现在的支付系统一样，我转钱，交易给完全不认识的人，但还是可信的。

第三是数据安全的监管，首先我们来看一下数据安全保护，我们结合着技术，现在也服务于多个省级及市级的大数据局，包括一些金融和教育，还有医疗的一些政企单位，首先要确立一个顶层设计，因为数据安全不能像网络安全一样添加很多，因为很多数据安全是一个串联的设备，不论是脱敏还是加密还是刚才提到的溯源产品，这都是一些串联产品。

第一，我们要确立一个顶层设计规划，第二，梳理安全风险，从而根据顶层规划来完善能力框。这里有很多简单的问题：包括组织有多少个数据？数据是如何分布的？什么是敏感数据？首先定义什么是重要数据，很多知识产权的数据不是敏感数据，但是是重要数据，谁有权访问这些数据，是否采用防护、监控以及告警措施等，我们采用CAEP框架来帮助我们梳理数据安全的能力，应覆盖到哪些方面。

系统化的东西非常多，我们简单地通过几个例子介绍一下我们认为数据安全的工作要怎样开展，这一张图看上去非常复杂，刚才冯院士也提到了，从数据的生产再到交换再到挖掘与销毁，这里边简单列了一个非常简化的数据库系统，或是数据应用系统，包含了有应用区，外部的应用，APP应用，再到数据共享、开放区，有些数据共享开放区与生产区是放在一起的。在生产区中还包含了我们的生产型数据库以及分析型数据库，也就是大数据数据库，非交易型，非关系型的数据库，再到数据共享开放区包含了测试，测试人员，第三方的开发人员，包含开放给我们第三方的单位或开发商，这里边针对于场景，我们提炼了一个不完全的数据安全的十大风险。

我们来看一下其中几个风险是怎样的情况以及怎样解决。

第一，大部分的数据共享不是通过数据库直接开放出来的，我觉得这至少是一个进步。随着我们业务应用越来越多，随着我们数据的交换越来越多，大部分的数据开放是通过API实现的，包括大数据局，基本上都有自己的API的目录系统，在这里边就会产生两个风险，第一，从数据到应用，中间会经历好多层，我们称之为纵向，比如我们外部的业务系统，它的数据中间已经经过了好几层的API或提炼。其实每一份数据不仅仅支撑一个应用，它要支持多个应用，所以同一份数据会有很多个API，所以我们现在往往发现的情况是API纵向的也很多，横向的也很多，导致这里边产生了很大的风险，我们授权，有些有授权，有些甚至没有授权，有授权的，要么是0，你没有这个权限，要么是1，你拥有API的所有权限，所以这里边就会产生很多风险，我们建议首先是要统一我们的身份安全防线，我们讲到了零信任，很关键的一部分，从最终的用户访问开始构建一个全局可信的数字身份体系。

第二是感知到他们访问的逻辑，因为我们知道他是谁了，我们就可以实时地发现他的访问行为，访问了哪些敏感数据等。

第三是数据安全能力的加持，我们需要具备脱敏、加密等水印技术来帮助我们预防数据的泄露情况。

再看第二个例子，关于脱敏的事情，脱敏我相信大家都非常熟悉，因为数据要开放出来，要给运维人员，要给业务人员，要给第三方公司，它的暴露面非常巨大，而且是不可控的。这里面我们就拿一个简单的例子，一个医疗单位的肿瘤样本信息交给第三方训练一个机器模型帮助他们诊断肿瘤的样本，辅助医疗人员来做。

我们怎样保证分析结果，相当于个人隐私的数据不暴露给大家，同时可以进行训练。等下我会提到新一代的技术，包括同态或是一些隐私保护的计算，来看一下用数据脱敏怎么来解决这个问题，所以这里面我们就做了特别针对于机器学习任务的脱敏算法，因为想到脱敏，大家肯定会想到我打一些叉，或是变成完全去标准化的过程，脱敏还有一些智能算法。

首先是使用一致性的关联算法，将来机器学习，发现了一个有问题之后，你还可以回溯到最原始的病例信息当中，但你在训练的过程当中不知道是谁，只有最终最原始的数据的业务人员才具备这样的信息，这是第一步，等下会有三步，我们适配了多个大数据的数据库，以及多种敏感数据的识别算法、脱敏算法，以及跟我们行业法规所结合起来的脱敏算法。

刚才提到了保持一致性关联，我们并不想去完全的标准化，我们还是想去回溯，只不过在训练的过程当中给第三方时，他不知道，他给你之后，我还是知道能追溯到他是谁。

第二步，我脱敏了之后并不是说想测试，测试只是很简单的一个场景，我还要利用它的价值，所以这里边我怎么来训练我的机器训练模型，首先我要保证其很多特征是保持不变的，比如最大值、最小值、均值、标准差、中位数等，当然这个脱敏的算法肯定不是一个通用性算法，我们要结合着相应的机器学习的算法选用一种脱敏算法，在这里边我们简单地描述一下其原始数据的分布，与我们脱敏之后的数据分布是一样的，包括一些分数字化的特征，比如诊断的一些结论，我们也会采用一些混淆性的脱敏算法，但保持着原来的特征分布方法来允许我们的机器学习训练，允许机器学习预测，同时能回溯到它原始的样本信息是谁，但第三方人不知道原始信息代表的含义及对应的病例是谁，这是我们第二个脱敏的案例。

第三，水印溯源，我们刚才提到了，还是有可能，无论是人为操作还是各种各样的原因，还是产生数据给出去之后泄露了。就像之前有报道，我A数据是脱敏的，B数据是脱敏的，A、B数据二者结合起来可能会产生敏感数据，有原来的数据重构出来。

在这里，我们做了大量的智能水印溯源的算法，我们通过植入一些不影响我们分析的方式，在数据泄露了之后，这里边包含了尾行、尾列，或是对于一些数据不影响使用的情况下做一些干扰，我们叫加一些“盐”（音）以保证智能水印的溯源，我们加入了一些算法，这在实战当中效果非常好，你的数据一旦被泄露，泄露不知道你在哪儿加盐，不知道哪个行，哪个列加盐，他知道的话就会提出掉，不知道的情况下，一旦提出就会干扰原始数据的价值，就无法在黑市上售卖数据，所以我们是通过智能水印的算法来帮助我们很快地回溯到数据的泄露源头，这是关于数据泄露的情况。

（二）“数据安全”助推企业加快数字化转型

我们再看一下数据安全，刚才讲有这么多数据如何保护好它，更多的是让上一代数据安全的技术更智能一些，怎么利用新一代的技术来实现我们国家所讲到的数据要素的市场，这里边我相信各位专家和领导非常熟悉，一个是政策面，已经有各种各样出彩的政策、行业及国家，再到实践面，有一些走得比较靠前的国家，省市或区县的一些单位都已在探索新一代的数据交易及数据价值的数据对外开放。

我们来看一下数据共享的难点与技术。刚才我们提到了，包括脱敏、溯源等，其本质还是要将数据给出去，我还是要将数据传输给你，无论是通过FTP的方式，数据库权限方式还是API方式，无论是不是脱敏，你还是要将数据给出去，它有一定的局限性。但它对于现有的系统是无干扰的，你还是可以利用现有的数据库及数据分析技术。

我们怎么在新一代的技术，新一代的技术怎么能更好地来服务于我们的数据共享或数据要素市场的战略，我们想实现的是数据不给出去，最终实现数据可用不可见，至少是数据可用不可拿走，可能他可以看到部分脱敏数据，但至少是不可拿走的，这是我们想要实现的目的。

首先我们看一下技术的方案，刚才与冯院士列到了新一代的技术有很多共通之处，但目前我们从技术上来讲，主要使用了一个技术是可信执行环境，可信执行环境，数据只有在最终的可信执行的过程当中是一个明文的状态，但你通过攻击的方法是无法获取的，全流程加密，全生命周期的加密，这个平台目前也支持隐私计算，包括联邦协定在内的一些算法，同时我们对于数据全生命周期的安全进行全流程的审计、审批及保护。

我们来看一个其中的技术点，可信大数据的执行环境，目前还没有一个绝对的行业标准，但这里边有一些公认的要实现的点，第一是执行环境的隔离，我们在调试环境和真正的环境中隔离，你在调试数据时看到的是脱敏数据或是一些测试类数据，只有在执行当中是真实数据。第二是身份验证，第三是数据加密，目前我们也是使用国密认证的算法在数据存储过程当中进行全流程的加密，第四是溯源，第五是可验证，所有的操作必须是验证过的，这里边我们也使用区块链的技术对所有的操作进行上链，避免风险的一些操作进行一个篡改的行为。

这里边主要应用场景是四个，第一是我们证书局赋能我们，除了我们赋能各个委办局之外还要赋能到各行各业，第二是公安数据，无论是对外开放，还是开放给委办局或政府其他单位，第三是大数据交易中心，作为一个中立性的平台来服务于社会上数据的流转，还有最后一个是数据服务公司，很多拥有大量数据的数据服务公司，可以利用数据安全岛的技术在保证安全的情况下赋能到更多的社会上的企业，这里边有一个简单的例子，这是我们在一个政务场景下做的例子，怎么在保护我们学生隐私的情况下规划学区和师资配备力量。在杭州是一个相对还是比较迫切的问题，外来人口特别多，人员流动特别大，我们怎么保证师资资源，我觉得是相互匹配的，其学区规划是合理的。这里边就需要教育局的数据、公安的数据、房管数据，多方数据计算起来。

我们可以通过一个安全岛的技术将各方数据汇聚起来放在岛内进行计算，计算的过程中其实都是密文存储的，每一方的数据在使用过程当中必须经过审批才能使用，通过这种方式，我们来保证各方的数据不被对方看到的情况下进行一个联合计算，计算完之后再及时地销毁，相当于一次性的任务，因为正好这个场景是无需实时计算的，所以通过在保护隐私的情况下实现安全的多方计算，最终的结果可以给到教育局，但原始的数据是完全看不到的。

最后讲一下数据安全监督。其实，数据安全监管非常简单，监管的任务现在责任很重大，我们有了相应的法律法规，或是我们有了相应的政策，无论是处罚的，还是同胞预警的，那我们从技术上要有一定的系统与抓手，怎样做数据安全的监管，其实我也没有想好，我也希望监管单位和我们一起带领下，我们能将数据安全监管这件事，就像美国在落实GDPR和CCPA时，近两年数据安全的公司雨后春笋，很多新一代的技术帮助监管机构实施数据安全监管战略，这里边有很多的细节，包括违规数据的收集，敏感数据的处理，你在生产库里的敏感数据是怎样进行保护与权限分配的，包括特权账号的监控，是否采取了必要的加密措施等。

我们怎样通过技术化的手段帮助监管机构实现对于数据安全的保护、开放及合规，我觉得是一个非常有挑战性的问题，也是一个必须要解决的问题。今天就分享到这里，谢谢大家！

雷锋网雷锋网雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

梁程敏

编辑

专注金融科技和数字化转型的原创报道丨微信：LCMfancyworld

扫描关注作者微信

发私信

当月热门文章