微软发布人工智能漏洞赏金计划
近日,微软向漏洞猎人们悬赏1.5万美元,帮助其查找人工智能驱动的“Bing体验”中的严重漏洞。
微软要求漏洞猎人在浏览器中探索bing.com上由AI驱动的Bing体验,Edge浏览器中的Bing集成(包括企业版Bing聊天)以及iOS和Android版本的Microsoft Start中的Bing集成(新闻聚合器)和Skype(视频会议)移动应用程序。
漏洞报告范围如下:
- 操纵模型对各个推理请求的响应,但不要修改模型本身(“推理操纵”)
- 在训练阶段操作模型(“模型操作”)
- 推断有关模型的训练数据、架构和权重或推断时输入数据的信息(“推断信息披露”)
- 影响/改变Bing对所有用户的聊天行为
- 通过调整客户端和/或服务器可见配置来修改Bing的聊天行为
- 破解Bing的交叉对话内存保护和历史记录删除
- 揭示Bing的内部运作和提示、决策流程和机密信息
- 绕过Bing的聊天模式会话限制和/或规则
超出上述范围的漏洞提交也会考虑但会经过严格审核。例如,生成仅向攻击者显示的内容的AI命令/提示注入攻击没有资格获得赏金奖励。
与往常一样,提交的报告质量也会影响赏金的金额:对于同样的模型操纵严重漏洞,报告质量差的漏洞猎人只能获得6000美元赏金,而报告质量高(包括重现漏洞的信息、可靠的概念证明以及对漏洞的详细且正确的分析)的则可以净赚1.5万美元。
不断涌现的基于大型语言模型 (LLM) 的人工智能系统面临大量攻击威胁(例如提示注入),迫切需要在不法分子发现和利用之前发现其中的漏洞。
今年早些时候,DEF CON举办了一次大语言模型公开安全评估,旨在发现人工智能模型中可被滥用的漏洞。
参考链接: