安全数据集成的三个核心原则

2023年5月8日作者：GoUpSec

数据共享/集成与数据安全似乎天生就是一对矛盾体。企业的营销、销售和人力资源等部门之间不断增加的数据流在推动决策质量、增强客户体验、提高业务绩效方面发挥着重要作用，但这同时也会对数据安全和合规性产生严重影响。

本文将首先讨论原因，然后介绍安全集成数据的三个核心原则。

危险的数据访问民主化

当今市场上有大量功能丰富到令人难以置信的无代码和低代码工具，可用于移动、共享和分析数据。提取、转换、加载（ETL）和提取、加载、转换（ELT）平台、iPaaS平台、数据可视化应用和数据库即服务，这意味着非技术专业人员也可以相对轻松地使用这些平台，而管理员的监督力度则越来越小。

此外，随着企业SaaS应用数量不断增长，对自助服务集成的需求只会不断增加。

许多此类应用程序（如CRM和ERP）包含敏感的客户数据、工资单数据、发票数据等。这些数据过去往往有严格控制的访问级别，因此只要数据保留在系统中，就不会有太大的安全风险。

但是，一旦您从这些环境中获取数据并将其提供给完全不同的访问级别控制的下游系统，就会出现我们可以称之为“访问控制错位”的情况。

例如，在仓库中处理ERP数据的人员与原始ERP操作员的置信度和访问级别是不同的。因此，简单地将应用程序连接到数据仓库（这将越来越频繁），您将面临泄露敏感数据的风险。例如，违反欧洲的GDPR或美国的HIPAA等法规，以及SOC 2 Type 2等数据安全认证的要求，更不用说利益相关者的信任了。

安全数据集成的三个核心原则

如何防止敏感数据不必要地流向下游系统？如何在数据分享时确保其安全？如果发生安全事件，如何减轻损失？

这些问题将通过以下三个安全数据集成的核心原则来解决：

原则一：单独的关注点

通过分离数据存储、处理和可视化功能，企业可以将数据泄露的风险降至最低。

想象一下，如果你经营一家电子商务公司。你的主生产数据库（连接到您的CRM、支付网关和其他应用程序）存储所有库存、客户和订单信息。随着公司的发展，您决定开始聘请数据科学家。后者上岗后的第一件事就是要求访问包含上述所有信息的数据集，以便他们可以编写数据模型，比如说，天气如何影响订购过程，或者特定品类中最受欢迎的商品是什么。

但是，让数据科学家直接访问主数据库并不可行。因为即使科学家们并无恶意，但他们依然可能（无意中）将敏感的客户数据从该数据库导出到未授权用户也可以查看的仪表板。此外，在生产数据库上运行分析查询可能会将数据库速度拖慢到无法操作的地步。

这个问题的解决方案是明确定义需要分析的数据类型，并使用各种数据复制技术将数据复制到专门为分析工作负载（如Redshift、BigQuery或Snowflake）设计的辅助仓库中。

通过这种方式，您可以防止敏感数据流向下游的数据科学家，同时为他们提供一个与生产数据库完全分开的安全沙盒环境。