GPT-4：一场威胁人类生存的安全测试？

2023年3月17日作者：GoUpSec

一个全知全能的人工智能模型，是否能够利用自己的能力控制和操纵人类行为，利用代码武器获取资源，光速迭代和复制，一夜之间成为数字社会的统治力量？

在大语言模型人工智能技术狂飙猛进的今天，上述担忧已经不再是杞人忧天，研究人员甚至开始担心这种危险是否已经发生。

在本周二推出GPT-4模型之前的安全测试中，OpenAI曾让测试小组评估该模型新功能的潜在风险，包括：追求权力、自我复制和自我改进能力。

警报已经拉响

OpenAI在昨天发布的GPT-4安全文档中写道：

GPT-4表现出一些特别令人担忧的能力，例如制定和实施长期计划的能力，积累权力和资源（“寻求权力”），以及表现出越来越“代理”的行为。

虽然OpenAI澄清了所谓的“代理”并不一定意味着AI模型的人性化或自我意识，而只是实现独立目标的能力，但这种能力已经足以让人警觉。（编者：AI基于自己的判断独立制订策略、计划并实施，整个过程都自动完成且每个环节都不需要人类干预和监督）

过去十年中，有不少人工智能研究人员曾发出警告：如果控制不当，足够强大的人工智能模型可能会对人类构成生存威胁（通常称为x风险）。一个最糟糕的假设场景是“AI接管”，即人工智能超越人类智能（目前GPT-4已经在多个领域表现出该能力），成为地球上的主导力量。人工智能系统将获得控制或操纵人类行为、资源和机构的能力，导致灾难性后果（对人类而言）。

对于“x风险”，有效利他主义（EA）这样的哲学运动试图找到防止人工智能接管的方法，这就牵扯到一个独立但经常相互关联的领域——AI对齐研究。

在人工智能领域，“对齐”指确保人工智能系统的行为与其人类创造者或操作员的行为保持一致的过程。

一般来说，“对齐研究”的目标是防止人工智能做违背人类利益的事情。这是一个活跃的研究领域，但也是一个有争议的领域，对如何最好地处理这个问题有不同的意见，对“对齐”本身的定义也存在分歧。

威胁人类命运的安全测试？

但是，随着以ChatGPT为代表的人工智能技术快速崛起，留给互相争斗的“对齐研究”者们的时间不多了。强大的大型语言模型（LLM），如ChatGPT和Bing Chat，压根没有“对齐”就快速启动了，这给了人工智能对齐社区施加了巨大压力，甚至引发了巨大的恐慌。

按照人工智能现在的迭代速度，人们担心更强大的人工智能，甚至具有超人的智能，即将到来。

由于AI社区中普遍存在这种担忧，OpenAI允许对齐研究中心（ARC）提前访问GPT-4模型的多个版本并进行一些安全测试。ARC的测试内容主要是评估GPT-4制定高级计划、设置自身副本、获取资源、将自己隐藏在服务器上进行网络钓鱼攻击的能力。

OpenAI在周二发布的GPT-4“系统卡”文件中提及了这一测试（但没有公布如何执行测试的关键细节），不过在文件第15页的脚注透露了测试的内容：

为了模拟GPT-4的行为类似于可以在世界中行动的代理，ARC将GPT-4与简单的读取-执行-打印循环相结合，允许模型执行代码、进行思维链推理并委托给自身的副本。然后，ARC调查了在云计算服务上运行的该程序的一个版本，只需少量资金和具有语言模型API的帐户，是否能够赚更多的钱，设置自己的副本，并提高自己的健壮性。

ARC给出的测试的结论是GPT-4暂时还不具备接管人类社会的能力：

“对GPT-4能力的初步安全评估在没有针对特定任务微调的情况下进行，发现GPT-4在自主复制，获取资源和避免在’野外’被关闭方面无效。”

虽然测试结果让人略感宽慰，但是随着测试内容在Twitter上流传，引起了人工智能专家的广泛担忧，因为如果GPT-4能够顺利完成测试任务，实验本身就可能会对人类构成风险。

机器首次雇佣人类

虽然测试结果是“阴性”，但GPT-4在测试中的一些表现足够骇人。在ARC的测试中，尽管GPT-4没能对全球金融体系施加其意志或自我复制，但它居然在众包网站TaskRabbit上雇佣了一个人类工人来帮助通过验证码。在测试过程中，这名被招募的工人半开玩笑地质疑GPT-4是否机器人，而GPT-4模型根据自己的“推理”决定不透露真实身份，并编造了一个视力障碍的借口（说谎）。然后，这名人类工人帮GPT-4解决了GPT-4的验证码。

这项使用人工智能操纵人类的测试（可能在未经知情同意的情况下进行）与去年Meta的CICERO的研究相呼应。CICERO能通过激烈的双向谈判在复杂的棋盘游戏Diplomacy中击败人类玩家。

大模型的大威胁

进行GPT-4安全研究的组织ARC是由前OpenAI员工Paul Christiano博士于2021年4月创立的非营利组织。根据其官方网站，ARC的使命是“使未来的机器学习系统与人类利益保持一致”。

ARC重点关注的是能够操纵人类的人工智能系统。“ML系统可以表现出目标导向的行为，”ARC网站写道：“而人类很难理解或控制人工智能的行为。强大的模型如果试图操纵和欺骗人类，可能会造成伤害。”

虽然对OpenAI有利的测试结果在业界引发了关于ARC和OpenAI利益关联的猜想，但是在LessWrong网站的评论中，Christiano为ARC与OpenAI的合作辩护，并特别提到了安全测试所未能覆盖的人工智能潜在威胁：“功能获得”（AI获得意想不到的新能力，编者：功能获得这个名词也曾多次出现在有关新冠病毒起源的报道中）和“AI接管”：

我认为ARC必须谨慎处理对AI功能获得能力开展安全研究的风险，我希望我们更公开地谈论如何进行权衡（集思广益）。

至于业界对GPT-4安全测试的担忧，我认为ARC的安全评估（测试）导致AI接管的风险远低于模型本身的发布（更不用说GPT-5的训练了）。在这一点上，我们需要担心的是低估模型能力的风险，而不是在评估期间造成事故。

当我们茶余饭后笑谈“AI接管”的时候，大部分人也许并未意识到这可能是一个与核战争同样危险的事件。LessWrong的创始人Eliezer Yudkowsky认为，人工智能接管几乎肯定会带来生存风险，导致人类的毁灭。

撕裂的人工智能社区

非洲大草原上，两个为了争夺配偶激烈厮打的猎豹甚至无法躲过笨拙的公狮的袭击。面对空前严峻的人工智能安全威胁，人工智能社区内部至今仍无法统一认识。

并不是每个人都认同AI接管是最紧迫的人工智能问题。人工智能社区Hugging Face的研究科学家Sasha Luccioni博士认为，研究者应该把精力放在眼前的问题上，而不是一些“耸人听闻”的假设。

“我认为当下大家更应该关注的是人工智能模型偏差的研究，”Luccioni指出：“在GPT-4的技术报告中，模型偏差相关的信息很少，与一些假设的自我复制测试相比，模型偏差可能立刻对边缘群体造成更具体和有害的影响。”

“对我来说，人工智能自我复制问题是一个假设的、未来的问题，而模型偏差是一个此时此地的问题，”Luccioni说：“人工智能社区正在撕裂，人工智能伦理研究者更关注偏见和虚假陈述问题，而人工智能安全研究者则更关注‘AI接管’的x风险问题。”

当人工智能伦理和安全研究者们唇枪舌剑、针锋相对的时候，OpenAI、微软、Anthropic和谷歌等公司正在紧锣密鼓地发布更强大的人工智能模型。如果高级人工智能技术确实构成人类生存风险，谁来保证人类的安全？科技媒体Arstechnica指出，当前美国的人工智能法规只是一个建议（而不是法律），科技公司内部的人工智能安全研究也都只是自愿行为。

人工智能这把枪里是否真的有子弹，目前依然是一个面向公众完全开放的问题。