安全数据集成的三个核心原则

数据共享/集成与数据安全似乎天生就是一对矛盾体。企业的营销、销售和人力资源等部门之间不断增加的数据流在推动决策质量、增强客户体验、提高业务绩效方面发挥着重要作用,但这同时也会对数据安全和合规性产生严重影响。

本文将首先讨论原因,然后介绍安全集成数据的三个核心原则。

危险的数据访问民主化

当今市场上有大量功能丰富到令人难以置信的无代码和低代码工具,可用于移动、共享和分析数据。提取、转换、加载(ETL)和提取、加载、转换(ELT)平台、iPaaS平台、数据可视化应用和数据库即服务,这意味着非技术专业人员也可以相对轻松地使用这些平台,而管理员的监督力度则越来越小。

此外,随着企业SaaS应用数量不断增长,对自助服务集成的需求只会不断增加。

许多此类应用程序(如CRM和ERP)包含敏感的客户数据、工资单数据、发票数据等。这些数据过去往往有严格控制的访问级别,因此只要数据保留在系统中,就不会有太大的安全风险。

但是,一旦您从这些环境中获取数据并将其提供给完全不同的访问级别控制的下游系统,就会出现我们可以称之为“访问控制错位”的情况。

例如,在仓库中处理ERP数据的人员与原始ERP操作员的置信度和访问级别是不同的。因此,简单地将应用程序连接到数据仓库(这将越来越频繁),您将面临泄露敏感数据的风险。例如,违反欧洲的GDPR或美国的HIPAA等法规,以及SOC 2 Type 2等数据安全认证的要求,更不用说利益相关者的信任了。

安全数据集成的三个核心原则

如何防止敏感数据不必要地流向下游系统?如何在数据分享时确保其安全?如果发生安全事件,如何减轻损失?

这些问题将通过以下三个安全数据集成的核心原则来解决:

原则一:单独的关注点

通过分离数据存储、处理和可视化功能,企业可以将数据泄露的风险降至最低。

想象一下,如果你经营一家电子商务公司。你的主生产数据库(连接到您的CRM、支付网关和其他应用程序)存储所有库存、客户和订单信息。随着公司的发展,您决定开始聘请数据科学家。后者上岗后的第一件事就是要求访问包含上述所有信息的数据集,以便他们可以编写数据模型,比如说,天气如何影响订购过程,或者特定品类中最受欢迎的商品是什么。

但是,让数据科学家直接访问主数据库并不可行。因为即使科学家们并无恶意,但他们依然可能(无意中)将敏感的客户数据从该数据库导出到未授权用户也可以查看的仪表板。此外,在生产数据库上运行分析查询可能会将数据库速度拖慢到无法操作的地步。

这个问题的解决方案是明确定义需要分析的数据类型,并使用各种数据复制技术将数据复制到专门为分析工作负载(如Redshift、BigQuery或Snowflake)设计的辅助仓库中。

通过这种方式,您可以防止敏感数据流向下游的数据科学家,同时为他们提供一个与生产数据库完全分开的安全沙盒环境。

图片来自 Dataddo

使用数据排除和数据屏蔽技术

数据排除和数据屏蔽技术有助于分离关注点,因为它们能完全阻止敏感信息流向下游系统。

事实上,大多数数据安全和合规问题实际上可以在从应用程序中提取数据时立即解决。毕竟,如果没有充分的理由将客户电话号码从您的CRM发送到您的生产数据库,为什么要这样做?

数据排除的方法很简单:如果你有一个系统,允许你像ETL工具一样选择要提取的数据子集,你可以不选择包含敏感数据的子集。

当然,在某些情况下确实需要提取和共享敏感数据。这时候就需要用到数据屏蔽/哈希。

例如,假设您要计算客户的运行状况评分,唯一合理的标识符是他们的电子邮件地址。这将要求您将此信息从CRM提取到下游系统。为了保证它端到端的安全,您可以在提取时对其进行屏蔽或哈希处理。这保留了信息的唯一性,但使敏感信息本身不可读。

数据排除和数据屏蔽/哈希都可以使用ETL工具实现。

值得一提的是,ETL工具通常被认为比ELT工具更安全,因为ETL允许在将数据加载到目标系统之前对其进行屏蔽或哈希处理。有关更多信息,请参阅ETL和ELT工具的详细比较。

保持强大的审核和日志记录系统

最后,确保有一个强大可靠的审核和日志系统,可查询谁在访问数据以及数据正如何流动。

当然,这对于合规性也很重要,因为许多法规要求企业证明他们正在跟踪对敏感数据的访问。但日志系统对于快速检测和响应可疑行为也至关重要。

审计和日志记录既是公司本身的内部责任,也是数据工具供应商的责任,如流水线解决方案、数据仓库和分析平台。

因此,在评估数据堆栈中添加日志工具时,请务必注意它们是否具有完善的日志记录功能、基于角色的访问控制和其他安全机制,如多重身份验证(MFA)。SOC 2 Type 2认证也是加分项。

这样,如果确实发生了潜在的安全事件,您将能够进行取证分析并减轻损害。

总结:访问与安全不是零和游戏

随着时间的推移,企业将越来越多地面临共享数据的需求,以及确保数据安全的需求。幸运的是,满足其中一个需求并不一定意味着要牺牲另一个需求。

以上介绍的三个安全数据集成原则可以作为所有企业的安全数据集成策略基础:

首先,确定可以共享哪些数据,然后将其复制到安全的沙盒环境中。

其次,尽可能通过将敏感数据集从管道中排除,将敏感数据集保留在源系统中,并确保对确实需要提取的任何敏感数据进行哈希处理或屏蔽。

第三,确保您的业务本身和数据堆栈中的工具具有强大的日志记录系统,以便在出现任何问题时,您可以最大限度地减少损害并正确调查。

前一篇权威|悬镜安全正式当选北京信创工委会副理事长单位
后一篇周刊 | 网安大事回顾(2023.5.1—2023.5.7)