数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。
在亚马逊云科技大中华区产品部总经理陈晓建看来,数据已经是现代发明和创新之源。如何从数据本身既保证安全的前提下,同样促进数据安全的应用,这是摆在众多企业面前的难题。
数据牵涉到很多业务的价值,要绝对保证安全,同时也要去满足数据合规的要求。但是,安全和合规往往和数据应用是矛盾的关系。如何在保证数据的安全和合规的同时能最大限度地促进数据的流通和应用?
很多企业和用户通过IT信息化积累了非常多的数据,但很多数据都是处在孤岛的状态,并没有实现充分的跨组织和跨公司之间的流通,并没有有效地实现数据的协作。这是一对制约整个业务发展、价值最大化的关键的矛盾。到今天有越来越多的企业设立了CDO(Chief Data Officer)的职位,通过技术和流程促进数据的应用和进行业务最大化。
在主题为“安全无忧 释放数据价值”的分享会上,陈晓建将企业数据安全与应用面临的挑战归纳为四个方面,分别是业务数据的识别、可见、协作以及安全数据的可操作。
识别敏感数据 应对合规挑战
如何评估什么是个人数据、什么是个人敏感数据,这是每个企业必须要思考,必须要解决的重大的问题。企业要实现数据的安全合规需要人,流程,工具相互配合。
为用户的业务和计算负载提供最合适的工具,一直是亚马逊云科技投入的方向。在敏感数据的发现与识别也是一样,通过合适的工具产品与解决方案,与合作伙伴一起,为亚马逊云科技用户提供价值。
敏感数据保护解决方案(Sensitive Data Protection on Amazon Web Services, SDP)是亚马逊云科技转为敏感数据识别与保护这一场景量身定做的方案。这是一个开源的数据安全及数据隐私云原生解决方案,客户可以在自己账号内部署使用。
利用机器学习、模式匹配等方式自动识别敏感数据,允许客户创建数据目录、使用内置或定制数据识别规则定义敏感数据类型。该解决方案还提供中心化的管理平台,客户可通过网页应用程序对敏感数据资产进行可视化管理。通过敏感数据保护解决方案,客户可以加速实现业务数据合规,为下一步释放数据价值铺平道路。
特别适用于两种场景,一是存量数据多且分散,需要使用这个方案来发现四处分散的数据。二是对于数据类型不好判断的情况下,可以使用这个方案自动根据合规要求来识别,提高准确率。
数据可见 被安全有效地发现、共享和协作
数据可见指的是在一个公司内部有很多的业务数据,分别分布在不同的“烟囱”(silo)里,在不同用户的数据的“烟囱”里如何实现公司内部跨组织之间数据的可见并共享。
数据可见是企业内不同角色高效挖掘数据价值的前提,也是不同治理模式高效协同的基础。
每个企业的应用场景都是不同的,IT信息化做得也不同,数据的处理和分布也是不同的。在这个层面,往往会需要有多个角色和多个团队来进行协同的开发,譬如说,业务人员,业务人员背后的应用开发人员和数据分析的人员等等,在不同的阶段可能还会有许多数据分析和数据开发的团队。
数据在不同的业务场景下,也有很大的不同:
第一是数据本身结构不同。ERP的订单数据往往是结构化的数据,通常存在数据库里面,但是广告业务的数据往往都是一些非结构化的数据,包括文本,也可能包括图片、视频等。
第二是数据的使用要求不同,有的数据分析是定期汇总。但像类似广告这样的在线竞争营销系统,需要的数据,能够完成非常高的实时性,往往在毫秒级别就要完成快速的数据应用并且能输入结果。针对不同的数据需求,数据本身的类型和数据所处的环境,包括数据所使用的这些要求,整个数据团队需要应对不同的数据引擎,既要能处理来自于数据库的数据引擎,类似于ERP结构化的数据,还有要处理数据分析可能使用的数据仓库的一种非结构化数据引擎。还有可能有很多第三方的软件,包括可能像类似于Salesforce这样第三方常用的软件,从不同的数据源中汇聚形成数据。这是每个企业应对的挑战。
在数据团队和业务团队协作方式上,集中式和联邦式是比较常见的两种类型,
集中式:负责治理运营的人主要集中在数据团队并负责所有治理工作,集中式方式能够实现快速的决策和高效的执行。这种结构较为简单,易于实施和控制。更适合刚开始数据分析之旅和小型组织的客户。
联邦式:总的治理原则/政策有特定团队负责,但负责治理运营的人可以分散在各业务线,这样业务部门拥有自己的数据,并在组织的监督下做出决策,以满足其特定需求和目标。适合多BU的中大型企业或跨国企业。
两种类型的协作方式都需要多个角色高效协同,特别是联邦式治理更是对“数据可见”需求迫切。
在这个客户需求背景下,亚马逊云科技在去年推出一项全新的数据管理服务Amazon DataZone,让每个人都能看见数据,解锁数据。它可以让客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。
借助Amazon DataZone可以使用精细的控制工具管理和治理数据访问权限,确保数据访问发生在正确的权限和正确的情境之下。
Amazon DataZone使数据开发者、数据科学家、分析师和业务用户可以轻松访问整个组织的数据,从而发现、使用数据,通过数据进行协作来获得洞察。
多方协作:多方数据安全地共享和分析
多方数据协作为行业创新注入活力,企业之间需要产业上下游数据协作来快速创新,而企业需要在保障安全和创造价值之间寻求平衡。
在实际的场景中,数据协作的所有参与者都需要面对数据保护与业务价值安全之间的权衡。现在有一些企业实现数据协作的方式是向合作伙伴提供数据副本,并依赖合同协议防止滥用。但是,显而易见,这样的方式仍然发生了数据移动,依然存在数据误用和泄漏的风险。
亚马逊云科技推出了Amazon Clean Rooms,实现了匹配、分析和协作彼此的数据,而不需要移动或者暴露原始数据,安全地实现数据分析协作。
使用Amazon Clean Rooms,用户可以在几分钟内创建一个安全的数据Clean Room,通过创建协作项目,实现数据的多方协作。而对于数据提供方而言,不仅可以通过数据预加密来对数据进行保护,而且因为所有成员都是直接从自己的Amazon S3贡献数据,从而真正实现了只有数据查询和分析而没有数据移动。
值得强调的是,Amazon Clean Rooms提供了一个密态计算的环境,数据的提供方可以对数据进行预加密,从而在Clean Rooms 环境中的数据以加密的形态完成数据分析操作,并将分析结果解密并返回,从而在数据安全的到最大保护的同时充分在协作方之间开发了数据价值。
生成式AI时代,企业需要更多第三方的数据来协作创新。而第三方数据的获取却并非易事。Amazon Data Exchange可以大大简化获取第三方数据的过程
Amazon Data Exchange 使客户能够轻松在云上找到、订阅和使用第三方数据。
AWS Data Exchange已经可以提供超过3500种的第三方数据,数据来源包括金融,天气,地理空间,健康医疗等等非常多的行业和领域。
而通过Amazon Data Exchange获取数据非常简便,支持包括Amazon S3注入,查询表接口(query tables)以及API调用等多种的访问方式。 对于像生成式ai的模型训练这样的场景来说,用户只需要将下单的数据集注入到Amazon S3数据湖,就可以使用数据分析工具进行数据处理进而开始模型训练了。
所有数据在存储和传输时都是加密的。亚马逊云科技整合了身份和访问控制管理系统(IAM)来设定权限,以及来监控实际的访问过程。
实现数据可操作
在Gartner发布的2022年网络安全重点趋势里,安全供应商的整合排到第4位。企业在短时间内做到整合安全厂商是有挑战和难度的,亚马逊云科技的解决方法是建立一个安全数据湖,统一管理来自不同厂商的日志,并且让这些日志可被用来进行安全事件的分析。
Amazon Security Lake可以自动将来自多云、本地和第三方的安全数据集中到一个专门构建的数据湖中。主要特点如下:
自动搜集并存储亚马逊云科技安全产品(如Amazon GuardDuty, Amazon SecurityHub)的日志,以及第三方乃至线下安全设备的日志,并且使用OCSF统一格式
使用Amazon S3集中存储日志,可以充分利用Amazon S3的存储性能,将日志分层管理,提高性价比。
和其他亚马逊云科技提供的服务一样,这个数据湖本身的安全性由亚马逊云科技来保证,例如集成了亚马逊云科技的加密服务Amazon KMS,可以实现自动加密管理。
数据安全治理的全链路核心难点及解决之道
十年前,跨部门的数据打通及协作显得遥不可及。而到今天这一切已经变得非常容易。
亚马逊云科技除了安全责任共担模型之外,有一个端到端的数据战略,有几个基础要点:
一是要有面向未来的云原生的技术架构,给一个合适的负载,一个最合适的引擎去支撑它,
二是要有一个统一融合的分析,在很多跨部门的中间怎么打通这部分的数据交互。有几件事情要做。
第一要把一些比较复杂和繁冗的工作尽可能简化,同时在整个的效率上,在引擎上的能力和产品之间的能力上是有融合的。
第二是统一分析,很多客户在企业成立初期是一个大而全的数据平台,可以服务不同的部门,但是当企业逐渐长大,有非常多的部门,这些部门之间的数据流转自然而然就出现了问题,这个场景下,我们看到能把一个数据资产注册到一个平台上,然后让数据消费方可以及时发现它,这个是一个最主要的难点,就是怎么能让数据使用者(特别多的是业务团队的数据分析师)能发现它,这也是为什么亚马逊云科技推出Amazon DataZone去解决这部分的难点。
第三,需要把机器学习的能力和数据能力做结合,然后普惠化。要把整个的能力做一个打通,同时底下端到端的数据战略最下面还有一层数据治理和安全底座,通过这个底座对数据做一个安全的访问控制,不仅要用Amazon DataZone做好数据资产注册和发现,底下还通过Lake Formation这样的工具非常安全地把数据访问权限控制好。这是端到端的数据战略,解决数据怎么样去共享,它们之间怎么样有信任,解决这样的问题。
陈晓建强调,亚马逊云科技有一个很重要的能力是底下的平台化安全能力的支持,关于数据应用的产品方面,比如Amazon DataZone、Amazon Data Exchange,包括Amazon Clean Rooms,底层其实整合了大量的安全的能力,包括Amazon IAM——Identity and Access Management,访问身份控制、访问控制各方面的权益,在Amazon DataZone已经整合进去了。
包括像Amazon DataZone为了实现数据的访问,还有一个很重要的工作就是在Amazon Clean Rooms里面怎么实现安全的计算,在这个层亚马逊云科技做了数据全链条的加密,不光是在存储的时候,在传输的时候、计算的时候都实现了加密,这对解决数据有效的共享都是必不可少的。
亚马逊云科技提供了特定场景下的解决方案比如Amazon DataZone,
Amazon Data Exchange,Amazon Security Lake,这背后不只是技术的能力,亚马逊云科技拥有的产品尤其是安全化的产品能力也是至关重要的,只有有了这些能力才能让用户放心地去用。
在阻碍数据共享的很重要的因素还是在技术上的一些能力,可能没有在数据和安全方面能都做得非常好,而Amazon DataZone、Amazon Data Exchange,致力于在安全和功能方面能都做到比较让客户满意,真正实现对生产系统的支撑能力。