聚焦ISC.AI 2024 | 吴世忠院士:对生成式AI安全研究的九点观察
2024年7月31日,以“打造安全大模型,引领安全行业革命”为主题的ISC.AI 2024第十二届互联网安全大会在北京国家会议中心召开。中国工程院吴世忠院士在主题演讲中指出,人工智能作为典型的两用性技术,具有双刃剑特性,安全图景变革随之加速,客观上需要加强安全研究,有效管控重大风险隐患。吴世忠院士从文献统计和内容分析两个层面分享了对生成式AI的九点观察和四点启示,以下为报告节选。
观察一
相对于技术发展,安全研究严重滞后
业界公认的生成式人工智能的勃兴,滥觞于2012年AlexNet的出现,我们以此为起点,利用全球引文数据库(Web of science),对与生成式人工智能发展与安全相关的文献进行统计分析,结果显示,十多年来,相对于技术创新方面的发展,安全研究严重滞后,特别是Transformer面世以来的预训练大模型时期,这种滞后现象尤其突出。
观察二
安全研究日渐热络,与发展差距仍大
ChatGPT横空出世至今,安全研究日渐热络,专业论文发布数量增长较快。分析目前最大的预印本论文发布平台(arXiv)上能够抓取到与大模型安全相关的论文2500多篇发现,近40%涉及大模型攻击,30%涉及大模型安全,约25%涉及大模型防御。同期与大模型安全相关的技术专利申请和授权数量也在逐年走高。但与大模型研究的蓬勃发展相比,数量差距仍然较大。
观察三
中国研究活跃,论文数量遥遥领先
分析arXiv上近两年来发表论文的第一作者分布:从国家来看,中国、美国、新加坡、德国、澳大利亚排名前五。中美两国遥遥领先,形成第一梯队。其中,中国的研究最为活跃,发表论文总量超过美国。从单位来看,中国科学院、美国加州大学、斯坦福大学、清华大学、微软公司排名前五。在国内,中国科学院、清华大学、人民大学、香港科技大学等表现不俗。
观察四
影响力美国排一,“大厂”大学贡献大
从发表论文的引用情况看,美国的科技影响力遥遥领先,Meta、斯坦福、微软、谷歌等业界“大厂”大学既是大模型发展研究的大本营,也是安全研究的主阵地。仅Meta公司2023年7月发布的 Llama 2 一文,截至本月14日,被引高达5741次。相比较而言,我国科技论文整体影响力偏弱,质量还有待提高。但从单一研究团体看,清华大学、中国科学院、香港科技大学、中国科学技术大学等高校院所的学术影响力已跻身世界前列,发展潜力巨大。
观察五
头部企业共识渐成,纷纷强化安全投入
作为创新主体的头部企业是人工智能研究的大本营,也是重磅论文的主要发源地,从国际上看,OpenAI、Meta、DeepMind、微软等AI巨头近年来相继加大了在AI安全技术和监管措施方面的投入。国内的百度、科大讯飞、阿里、华为、智谱等加大在安全研究上布局和投资。这说明国内外的主流厂商逐渐认识到安全研究的重要,大模型能力增长迫切需要安全研究快速跟进,这已成为业界共识。
观察六
研究范围宽阔,热点重点众多
通过对arXiv近两年的相关论文,可以看出生成式人工智能安全研究的热点。其中,“对抗攻击研究”论文数量排名第一,细分研究领域众多;“RLHF和强化学习”论文平均引用量排名第一,引领安全对齐方向;“数据集”论文平均引用量排名靠前,高质量数据集是基础。
观察七
四大研究方向,全面涵盖AI发展
纵观现有的安全研究,可大致归纳为四个大类,即理论研究、技术研究、政策和伦理研究和实际应用研究。理论研究集中探究如何确保AI系统在各种条件下表现的可靠和安全,重点研究内容包括鲁棒性、可解释性、公平性。技术研究主要围绕对抗、突出防御,集中在对抗样本、监测与防御、证明与验证等方面。政策和伦理研究主要研讨如何制定道德规范和技术标准,以规范人工智能系统安全、合规和负责任的使用,主要聚焦在法律法规、伦理准则、国际合作三个主题。实际应用研究主要在于确保风险可控的前提下,积极促进人工智能技术成果的转化和应用推广,较为成熟的行业应用集中在自动驾驶、医疗健康、金融安全等。
观察八
五大研究领域,深入使用环节
在研究领域上,可以粗略地将目前的技术研究分为五个类别,即安全风险、安全防护、安全攻击、安全测评和安全治理。
“检”重在验证技术机理,识别应用风险,包括虚假信息传播、有害内容检测、隐私泄露监测、利用审查机制和比对工具细化生成内容的审核等。
“防”重在研究安全措施,防范误用滥用,研究重点包括关注模型的内生安全、对齐方法、关注外部安全的护栏方法等。
“攻”重在立足以攻促防,强化积极防御。安全攻击是大模型安全研究的重点领域,主要可以分为“善意”的红队测试和恶意攻击两种形态,但都有其局限性,目的主要在于以攻助防,积极防御。
“测”重在依据标准规范,评估保障能力。安全测试和风险评估是AI安全研究的关键领域,美英等西方国家将成立AI安全研究所作为推进全球治理体系的当务之急,而安全测试与风险评估技术则是全球治理能力的重要抓手。目前就安全测评的指标体系讨论较多,涉及安全性、可靠性、准确性、可控性、公平性、透明性、合规性等。测评内容也提法不一,主要包括功能与性能、内容安全、数据安全、系统安全、保障能力等。
“治”重在平衡发展安全,落实治理要求。安全治理是AI安全研究的热门话题。归纳全球AI治理的核心关切,主要有透明度、公平性、非恶意、负责任、隐私、向善、信任、尊严等十个方面。治理就是要将这些应用要求落实到从大模型的部署、开发、计算推理、数据输入到推广应用的各具体环节。
观察九
十大重点问题,成为当前研究热点
生成式人工智能安全研究涉及广泛复杂的问题,主要涉及以下十大问题:1、鲁棒性和可靠性;2、可解释性和可理解;3、公平性和偏见;4、对抗性攻击和防御;5、隐私保护;6、人机交互安全;7、伦理和治理;8、监督与控制;9、测试评估;10、关键基础设施中的应用。
基于上述九点观察,吴院士提出以下四点启示:
启示一
安全认知,日渐清晰。作为网安领域从业者,相信大家都已敏锐的感知到,人工智能的应用极大地改变安全问题的内涵和外延。基于对学术前沿的观察,生成式AI的安全问题,可能将会是Security(既有安全)、Safety(新兴安全)和Ethics(伦理安全)交织交融的的全新图景。而在这一全新图景下,AI安全研究便是要构建可信的人工智能自身安全(safety),运行安全的人工智能攻防安全(security),以及治理负责任的人工智能伦理(Ethics)安全。
启示二
安全研究,路阻且长。
相对于大模型研究的内容深入和成果丰硕,安全研究可以说刚刚开始,不仅任重道远,而且困难重重。至少有四个方面的科学难题需要攻关和克服,一是大模型的解释性和透明性不足。二是安全保障技术的复杂性和多样性。三是伦理和道德问题的复杂性。四是安全测试和风险评估的复杂性。
启示三
安全行业,大有可为。
人工智能赋能百业千行,自然会给安全行业注入强大的发展动能。国内外的安全行业都在积极拥抱AI、运用AI。可以预见,经历过IT驱动到DT驱动的安全行业,将迅速迈进AI驱动的新时代。更及时的威胁感知,更深入的行为分析,更精准的漏洞管理,更便捷的情报共享,更迅速的应急响应,更智能的风险管控,将是网络安全行业的基本走向和市场刚需,必将为安全行业提供广阔的用武之地。
启示四
紧跟创新,保障发展。
无论是安全研究还是安全产业,都必须紧跟科技进步和应用创新,才能服务好发展,保障好发展。就安全研究而言,展望未来,研究的重点要更加紧扣AI进化中的安全风险,研究的成果要更好支撑促进发展的治理策略,研究的路径要更多采用多学科,跨学科的研究方法。