谷歌发布首个AI网络安全框架
随着政府、企业和个人对生成式人工智能技术安全性的担忧与日俱增,人工智能和网络安全行业正在加速推进和完善人工智能相关网络安全配套标准和框架的拟定。
最近,谷歌宣布推出Secure AI Framework(SAIF),这是谷歌首个用于保护人工智能系统的概念框架。
谷歌是生成式AI聊天机器人Bard的开发者和所有者,也是AI研究实验室DeepMind的母公司。该公司表示,跨公共和私营部门的框架对于AI技术健康发展至关重要,其新的框架概念是朝着这个方向迈出的重要一步。
谷歌指出,SAIF旨在帮助减轻AI系统特有的风险,例如模型盗窃、训练数据中毒、通过即时注入进行恶意输入以及从训练数据中提取机密信息。谷歌在博客中写道:“随着AI功能越来越多地融入全球科技产品中,负责任的(安全)框架将变得更加重要。”
SAIF基于六大AI安全原则
谷歌的SAIF安全框架基于其开发网络安全模型的经验之上,例如软件工件的协作供应链级别(SLSA)框架和BeyondCorp零信任框架,后者已经被许多组织采用。谷歌表示,SAIF基于六大核心安全原则:
- 将强大的安全基础扩展到AI生态系统,包括利用默认安全的基础设施保护。
- 通过监控生成式AI系统的输入和输出来检测异常,并使用威胁情报来预测攻击,将扩展检测和响应(XDR)的防护范围扩展到覆盖AI系统。
- 利用自动化防御技术跟上现有和新威胁的步伐,提高安全事件响应的规模和速度。
- 协调平台级控制以确保一致的安全性,包括将默认安全保护扩展到Vertex AI和Security AI Workbench等AI平台,并将控制和保护整合到软件开发生命周期中。
- 通过基于事件和用户反馈的强化学习等技术,加快AI系统威胁的缓解措施,并创建更快的反馈循环。
- 将AI系统风险与业务流程相关联,包括评估端到端业务风险,例如数据归属、验证和某些类型应用程序的行为监控。
推动其他AI风险管理框架和标准
除了SAIF以外,谷歌还列出了它正在参与和推动的其他AI安全框架和标准。其中包括帮助开发NIST AI风险管理框架和ISO/IEC 42001 AI管理系统标准(行业首个AI认证标准)。谷歌还表示将直接与包括客户和政府在内的组织合作,帮助他们了解如何评估人工智能安全风险并减轻这些风险。
此外,谷歌将分享其威胁情报团队(如Mandiant和TAG)对涉及AI系统的网络活动的见解,同时扩大其漏洞猎人计划(包括其漏洞赏金计划)以激励AI安全和保障的相关研究。最后,谷歌将继续与GitLab和Cohesity等合作伙伴一起提供安全的AI产品,并进一步开发新功能以帮助客户开发安全的AI系统。
大语言模型的十大漏洞
在谷歌发布SAIF之前不久,开放式全球应用程序安全项目(OWASP)上周发布了大型语言模型(LLM)的10大严重漏洞列表,OWASP指出大多数生成式AI都存在这些漏洞,潜在威胁巨大且易于利用和流行。十大漏洞列表如下:
1.提示词注入
提示词注入指绕过过滤器或使用精心设计的提示词来操纵LLM,使模型忽略先前的指令或执行意外操作。这些漏洞可能导致意想不到的后果,包括数据泄露、未经授权的访问或其他安全漏洞。常见的即时注入漏洞包括通过使用特定的语言模式或标记来绕过过滤器或限制,利用LLM标记化或编码机制中的弱点,以及通过提供误导性上下文误导LLM执行意外操作。
预防措施:
- 对用户的提示词实施严格的输入验证和清理。
- 使用上下文感知过滤和输出编码来防止提示词操纵。
- 定期更新和微调LLM,以提高其对恶意输入和边缘情况的理解。
2.数据泄露
LLM的输出结果(响应)存在意外泄露(用户或第三方的)敏感信息、专有算法或其他机密细节。这可能导致未经授权访问敏感数据或知识产权、侵犯隐私和其他安全漏洞。
LLM响应中敏感信息的不完整或不当过滤、LLM训练过程中敏感数据的过度拟合/记忆以及由于LLM误解或错误导致的机密信息的意外泄露是常见的数据泄漏漏洞。
攻击者可能会使用精心设计的提示词故意探测LLM,试图提取LLM从其训练数据中记住的敏感信息,或者合法用户可能会无意中向LLM提出一个会泄露敏感/机密信息的问题。
预防措施:
- 实施严格的输出过滤和上下文感知机制,以防止LLM泄露敏感信息。
- 在LLM的训练过程中使用差分隐私技术或其他数据匿名化方法来降低过拟合或记忆的风险。
- 定期审计和审查LLM的回复,以确保敏感信息不会被无意中泄露。
3.沙盒隔离不充分
如果LLM在访问外部资源或敏感系统时未正确隔离,则可能导致LLM潜在的利用、未经授权的访问或意外操作。LLM环境与其他关键系统或数据存储的分离不足、允许LLM访问敏感资源以及LLM执行系统级操作/与其他进程交互是常见的LLM沙盒不足漏洞。
一个攻击示例是恶意行为者通过制作指示LLM提取和泄露机密信息的提示来利用LLM对敏感数据库的访问权限。
预防措施:
- 将LLM环境与其他关键系统和资源隔离开来。
- 限制LLM对敏感资源的访问,并将其能力限制在其预期目的所需的最低限度。
- 定期审核和审查LLM的环境和访问控制,以确保适当的隔离。
4.未经授权的代码执行
当攻击者通过自然语言提示利用LLM在底层系统上执行恶意代码、命令或操作时,就会发生未经授权的代码执行。常见的漏洞包括未经净化或受限的用户输入,允许攻击者制作触发未授权代码执行的提示,对LLM功能的限制不足,以及无意中将系统级功能或接口暴露给LLM。
OWASP引用了两个攻击示例:攻击者制作了一个提示,指示LLM执行在底层系统上启动反向shell的命令,授予攻击者未授权访问权限,并且LLM无意中被允许与系统级API交互,攻击者操纵它在系统上执行未经授权的操作。
预防措施:
- 实施严格的输入验证和清理流程,以防止LLM处理恶意或意外提示。
- 确保充分的沙盒隔离并限制LLM与底层系统交互的能力。
5.服务器端请求伪造漏洞
当攻击者利用LLM执行意外请求或访问受限资源(如内部服务、API或数据存储)时,会出现服务器端请求伪造(SSRF)漏洞。OWASP表示,输入验证不充分,允许攻击者操纵LLM提示以发起未经授权的请求和网络或应用程序安全设置中的错误配置,将内部资源暴露给LLM,这些都是常见的SSRF漏洞。
要执行攻击,攻击者可以制作一个提示,指示LLM向内部服务发出请求,绕过访问控制并获得对敏感信息的未授权访问。他们还可以利用应用程序安全设置中的错误配置,允许LLM与受限API交互,访问或修改敏感数据。
预防措施:
- 实施严格的输入验证和清理,以防止恶意或意外提示发起未经授权的请求。
- 定期审核和审查网络/应用程序安全设置,以确保内部资源不会无意中暴露给LLM。
6.过度依赖LLM生成的内容
过度依赖LLM生成的内容会导致误导性或不正确信息的传播,减少决策制定中的人力投入,并减少批判性思维。组织和用户可能会在未经验证的情况下信任LLM生成的内容,从而导致错误、误解或意外后果。与过度依赖LLM生成的内容相关的常见问题包括在未经验证的情况下接受LLM生成的内容作为事实,以及在没有人工输入或监督的情况下依赖LLM生成的内容做出关键决策。
例如,如果一家公司依赖LLM生成安全报告和分析,而LLM生成的报告包含公司用来做出关键安全决策的不正确数据,则可能会因依赖LLM生成的不准确内容而产生重大影响。Omdia网络安全高级首席分析师Rik Turner将此称为LLM幻觉。
7.AI对齐不足
当LLM的目标和行为与预期用例不一致时,就会出现AI对齐不足,从而导致不良后果或漏洞。目标(参数)定义不当导致LLM优先考虑不良/有害行为、激励函数失准或训练数据产生意外模型行为,以及LLM行为的测试和验证不足是常见问题。如果设计用于协助系统管理任务的LLM未对齐,它可能会执行有害命令或优先执行会降低系统性能或安全性的操作。
预防措施:
- 在设计和开发过程中定义LLM的目标和预期行为。
- 确保奖励函数和训练数据与预期结果一致,并且不鼓励不良或有害行为。
- 定期测试和验证LLM在各种场景、输入和上下文中的行为,以识别和解决一致性问题。
8.访问控制不足
当访问控制或身份验证机制未正确实施时,会出现访问控制不足,从而允许未经授权的用户与LLM交互并可能利用漏洞。未能对访问LLM执行严格的身份验证要求,基于角色的访问控制(RBAC)实现不充分允许用户执行超出其预期权限的操作,以及未能为LLM生成的内容和操作提供适当的访问控制都是常见的例子。
OWASP给出的一个攻击示例是恶意行为者由于身份验证机制薄弱而获得对LLM的未授权访问权限,从而允许他们利用漏洞或操纵系统。
预防措施:
- 实施强大的身份验证机制,例如多因素身份验证(MFA),以确保只有授权用户才能访问LLM。
- 对LLM生成的内容和操作实施适当的访问控制,以防止未经授权的访问或操纵。
9.错误处理不当
当错误消息或调试信息以可能向攻击者泄露敏感信息、系统详细信息或潜在攻击向量的方式公开时,就会发生错误处理不当漏洞。常见的错误处理漏洞包括通过错误消息暴露敏感信息或系统详细信息、泄露可帮助攻击者识别潜在漏洞或攻击向量的调试信息,以及未能妥善处理错误,从而可能导致意外行为或系统崩溃。
例如,攻击者可以利用LLM的错误消息来收集敏感信息或系统详细信息,从而发起有针对性的攻击或利用已知漏洞。或者开发人员可能会不小心将调试信息暴露在生产环境中,从而使攻击者能够识别系统中潜在的攻击媒介或漏洞。
缓解措施:
- 实施适当的错误处理机制以确保错误被捕获、记录和处理。
- 确保错误消息和调试信息不会泄露敏感信息或系统详细信息。考虑为用户使用通用错误消息,同时为开发人员和管理员记录详细的错误信息。
10.训练数据中毒
训练数据中毒是指攻击者操纵LLM的训练数据或微调程序以引入可能损害模型安全性、有效性或道德行为的漏洞、后门或偏差。常见的训练数据中毒问题包括通过恶意操纵训练数据将后门或漏洞引入LLM,以及向LLM注入偏差,导致其产生有偏差或不适当的响应。
预防措施:
- 通过从可信来源获取训练数据并验证其质量来确保训练数据的完整性。
- 实施强大的数据清理和预处理技术,以消除训练数据中的潜在漏洞或偏差。
- 使用监控和警报机制来检测LLM中的异常行为或性能问题,出现这些问题可能意味着训练数据中毒。
本文涉及的主要AI安全框架、标准、指南链接:
https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework/
https://www.nist.gov/itl/ai-risk-management-framework
https://www.iso.org/standard/81230.html
https://owasp.org/www-project-top-10-for-large-language-model-applications/