专治AI爬虫，Cloudflare推出“下一代蜜罐”

7 天前作者：GoUpSec

GoUpSec点评：Robots.txt对于AI公司的爬虫来说已经形同虚设，如何防御AI大模型的“DDoS攻击”和数据“反扒”已经成为AI时代web安全、内容安全和数据安全的热点话题。

网络基础设施服务商Cloudflare近日推出一项全新功能“AI Labyrinth”（AI迷宫），专门针对那些未经授权、肆意抓取网站数据的AI爬虫。这项工具不走寻常路，不直接拦截，而是用AI生成的“假内容”迷惑爬虫，让试图为ChatGPT这类大语言模型收集训练数据的AI公司空忙一场。

“下一代蜜罐”登场

成立于2009年的Cloudflare提供网站基础设施和安全服务，尤其擅长抵御分布式拒绝服务（DDoS）攻击和恶意流量。这次推出的“AI迷宫”一改传统“拦截为主”的防御策略，转而将爬虫引入一个由逼真但无用页面组成的“迷宫”，消耗其计算资源。Cloudflare坦言，直接屏蔽爬虫有时会适得其反，反而提醒爬虫操控者自己已被发现。

“一旦检测到未经许可的爬取行为，我们不会直接拒绝，而是引导爬虫进入一系列AI生成的页面。这些页面看似真实，足以吸引爬虫深入探索，”Cloudflare在官方博客中写道，“但实际上，这些内容与我们保护的网站毫无关联，爬虫只能白费力气。”

为避免制造谣言，这些喂给爬虫的内容并非随意捏造，而是基于生物学、物理学或数学等领域的真实科学事实，由Cloudflare自家的Workers AI服务平台生成。普通用户无需担心误入歧途，这些陷阱页面对人类访客完全不可见。

Cloudflare将“AI迷宫”称为“下一代蜜罐”。传统蜜罐通常是隐藏链接，人类看不到，但爬虫会循迹而去。然而，现代爬虫已变得更加狡猾，能轻松识破简单陷阱。为此，Cloudflare设计了更复杂的假链接，加入元指令避免被搜索引擎收录，同时保持对数据抓取爬虫的吸引力。

“正常人不会连点四层链接，钻进AI生成的无意义内容里，”Cloudflare解释，“能这么做的，多半是爬虫。这为我们提供了一个全新手段，识别并标记恶意爬虫。”

通过这一过程收集的数据将进入机器学习系统，形成反馈循环，不断提升Cloudflare网络的爬虫检测能力，增强客户保护。值得一提的是，无论用户使用免费版还是付费版，只需在控制面板轻点开关，即可启用这一功能。

AI爬虫泛滥，网站主头痛

近年来，AI爬虫的激增已成为网络世界的一大难题。Cloudflare数据显示，其网络每天处理超500亿次AI爬虫请求，占总流量的近1%，这与业内传闻相符。许多爬虫未经网站主同意就抓取数据，用于训练大语言模型，引发了内容创作者和出版商的广泛不满，甚至诉诸法律。

今年1月，类似工具“Nepenthes”曾亮相，同样通过假内容迷惑爬虫，但其匿名开发者将其定位为“攻击性恶意软件”，意在困住爬虫数月。而Cloudflare则强调“AI迷宫”是合法安全功能，旨在为商用客户提供便捷保护。

这种AI防御性应用颇具创意，旨在保护网站主和创作者的权益，而非威胁其知识产权。然而，AI爬虫是否会迅速适应、绕过这些陷阱，仍是未知数，Cloudflare或需持续升级策略。此外，消耗AI公司资源可能引发争议，尤其在AI模型能耗与环境成本备受关注之际。

Cloudflare表示，目前发布的只是AI防御爬虫的“初代版本”。未来，他们计划让假内容更难识别，并与网站结构更紧密融合。

参考链接：

https://blog.cloudflare.com/ai-labyrinth