抢占标准制高点，NIST发布AI模型风险测试工具

2024年7月29日作者：GoUpSec

近日，美国国家标准技术研究院（NIST）重新发布了名为Dioptra的AI模型风险测试平台，用于评估AI风险和恶意攻击，尤其是针对AI模型训练数据的“投毒攻击”。该工具专注于对抗性攻击的测试，提供基准测试和红队测试环境。其特点是模块化、开源，适用于政府机构和中小企业。

美国主导的AI安全标准

Dioptra以古希腊天文测量和土地测量工具命名，是一个模块化、开源的基于Web的工具。该工具最初于2022年发布，旨在帮助训练和使用AI模型的公司和个人评估、分析和跟踪AI风险。NIST表示，Dioptra可用于AI模型基准测试和研究，同时提供一个共同平台，在“红队”环境中模拟威胁暴露模型。

NIST在新闻发布会上写道：“测试对抗性攻击对机器学习模型的影响是Dioptra的目标之一。”“这款开源软件提供免费提供下载，可以帮助社区（包括政府机构和中小型企业）进行评估，以验证AI开发者关于其系统（安全）性能的声明。”

近年来，面对以AI为代表的新技术革命，美国希望牢牢巩固其“智慧密集产业”的霸主地位，控制AI技术标准是其重点战略。

事实上，Dioptra是拜登政府颁布的的AI总统行政命令的直接产物，该命令要求NIST协助开展AI系统测试。该行政命令还包括建立AI安全标准，包括要求开发模型的公司（例如谷歌、苹果公司）在公开部署AI模型前通知联邦政府并分享所有安全测试结果。

Dioptra也是NIST最近成立的AI安全研究院的首个重大项目，提出了减轻AI风险的方法，例如防止AI被滥用生成非自愿色情内容。此前，英国AI安全研究院推出了Inspect工具集，同样旨在评估模型能力和整体模型安全。去年11月在英国布莱切利公园举行的英国AI安全峰会上，美国和英国宣布了共同开发先进AI模型测试的持续合作伙伴关系。

AI模型风险测试市场竞争激烈

随着AI技术的广泛应用，各行业对AI模型安全性的需求不断增加。金融、医疗、通信等领域尤其重视AI系统的可靠性和安全性。因此，这些领域的企业和机构积极采用AI模型风险测试工具，以确保其系统能够抵御各种潜在的攻击和风险。

尽管市场上有多种工具可供选择，但每种工具都有其局限性。许多开源工具，如Dioptra和CleverHans，虽然功能强大，但对初学者不够友好，使用门槛较高。而一些定制化程度高的工具，如ZTE的SecML，市场认知度较低，社区支持相对薄弱。此外，AI基准测试的复杂性和“黑箱”模型的不可解释性，增加了风险评估的难度。

以下是全球市场主要AI模型测试工具的对比分析：

国内的代表性AI模型风险评估工具和方案来自网络安全厂商绿盟科技和奇安信：

绿盟AI大模型风险评估工具：旨在帮助企业全面评估AI大模型的安全风险。该工具涵盖了多种商业和开源大模型，并具备迅速适配新兴大模型的能力。它基于专家团队筛选的测试用例库，能够识别内容安全和对抗安全的潜在威胁，并提供风险处理建议。
奇安信AI安全整体应对方案：奇安信发布的国内首个AI安全整体应对方案，虽然不是单一的测试工具，但它提供了包括AI安全框架、解决方案、评估服务和测试工具在内的全面服务，以确保监管与治理及时跟进，筑牢AI安全基石。

AI安全基准测试面临的挑战

目前，对主流AI模型进行安全基准测试仍是极为困难的任务，部分是因为当今最先进的AI模型都是黑盒技术，其基础设施、训练数据和其他关键技术（参数）细节由开发它们的公司保密。

此外，总部位于英国的非营利性AI研究机构Ada Lovelace Institute本月发布的一份报告发现，仅靠评估并不足以确定AI模型在现实世界中的安全性，部分原因是现行政策允许AI供应商自行选择要进行的评估内容。

最后，AI安全测试工具本身也大多存在局限性，例如NIST并不认为Dioptra可以完全消除AI模型的风险。但该机构指出，Dioptra至少可以揭示哪些类型的攻击可能会降低AI系统的性能，并量化这种对性能的影响，从而加强AI系统的安全性和可靠性，为AI技术的安全部署提供强有力的支持，并推动整个行业对AI风险管理和安全防护的重视和发展。

Dioptra在技术上的一个主要限制是，它只适用于可下载到本地运行的AI模型，例如Meta的Llama系列，目前还无法测试API背后的模型（如 OpenAI的GPT-4o）。

参考链接：

https://pages.nist.gov/dioptra/index.html