开源社区快被大模型抓崩溃了

1 天前作者：GoUpSec

在“今天你被大模型DDoS了吗？”一文中,我们曾感慨生成式AI的崛起让 OpenAI、Anthropic、Google等玩家对互联网内容的渴求达到了疯狂的程度。无论是ChatGPT、DeepSeek的对话能力，还是Claude的推理水平，背后都需要海量数据喂养。然而，这种“拿来主义”正在给中小型互联网服务带来沉重负担，甚至演变成一场无形的DDoS危机。

开源社区的噩梦：无孔不入的AI爬虫

事实上，遭遇”大模型DDoS攻击“的不仅仅是内容和社交网站，近日开源社区也开始抱怨无孔不入的AI爬虫正像蝗虫一样吃掉项目的带宽。

2025年刚开年，软件开发者Xe Iaso就已经“精神崩溃”了——不是代码出 Bug，也不是CI/CD挂了，而是他们的Git仓库被AI抓取器搞得几乎无法使用。流量异常高、频繁宕机、防不胜防，就连robots.txt、屏蔽UA、IP黑名单这些“常规操作”，统统失效。

“它们会撒谎、会伪装成浏览器、会用民用宽带IP跑代理。”Iaso最终只能把服务藏到VPN后面，还自己造了一个“图灵之门”系统——Anubis，要求所有访问者先解一段计算谜题,才能打开页面。“我不想封掉这个Gitea服务，但我真的快受不了了。”

这不是Iaso一人的噩梦。越来越多的开源维护者发现，他们的项目正被大量 AI爬虫拖入持续性的“分布式拒绝服务攻击”——DDoS。LibreNews最新的报告显示，部分项高达97%的访问流量都来自AI公司。大量宽带资源被白嫖，项目稳定性暴跌，而维护者的人力本就极度吃紧。

爬虫乱象：来自AI公司的“隐形攻击”

不止Iaso，一线项目的运维者纷纷报警：

Fedora的Pagure项目因流量异常，不得不封锁整个巴西地区。
GNOME GitLab引入了Iaso的Anubis系统，结果数据显示，仅3.2%的访问请求通过验证，其余几乎全是自动化抓取。
KDE GitLab一度被来自阿里云IP段的流量“打崩”，完全无法访问。

更荒谬的是，这些爬虫并不是“爬一次就走”，而是每隔6小时就来一次，像极了某种数字化游牧民族。Diaspora项目的运维Dennis Schubert把这种行为称为“对整个互联网的DDoS”。

技术压力之外，还有真金白银的成本降低：Read the Docs项目通过封锁 AI爬虫，带宽使用量瞬降75%，从800GB降至200GB，每月节省1500美元。

开源项目：我们不是免费AI训练集

AI爬虫的行为基本可以总结为一句话：“robots.txt是参考建议，IP封锁是道德考题。”爬虫们伪造浏览器信息、切换代理IP、绕过所有协议限制——只为一个目的：继续抓数据。

Inkscape项目的Martin 0wens抱怨说，现在的问题不只是“中国的 DDoS”，而是“从一大堆公司来的假装浏览器的机器人”。他说自己现在维护着一份“史诗级的封锁名单”，还警告说,“如果你在AI公司上班，你可能已经访问不了我们网站了。”

更让人头疼的是，不仅是抓数据训练模型，一些开源项目开始接收到AI生成的虚假漏洞报告。比如Cur1项目的维护者Daniel Stenberg在博客中指出，这些bug报告看似合理实则全是捏造的，无是于变相消耗开发者时间。

SourceHut创始人Drew DeVault更直言：“它们不仅抓主页面，连git blame、commit历史、每一行代码都不放过。”

谁在抓？为什么抓?

根据Diaspora的流量分析，0penAI占到了全部请求的四分之一，Amazon占15%,Anthropic占4.3%。还有一部分来源不明、伪装能力极强。

这些抓取的目的并不单一。有的是为了训练大模型，有的是为了让AI助手“实时”查资料回答用户问题，可能是两者并存。而反复抓取行为，说明这已经不是单纯的一次性训练，而是某种“持续采样”的机制——AI公司在用全网开源内容，给自家模型做日更。

至于责任，行业内早有定论：“AI公司拿着百亿融资，抓着公共资源不松手，还不打算为此负责。”Hacker News上的开发者直言，大厂态度是“谁还讲什么开源道义”。

抵抗开始：从谜题门到诱捕系统

面对这种“合法但流氓”的行为，一批开发者开始了反击。

除了Iaso的Anubis，“Aaron”开发了另一个工具——Nepenthes(猪笼草)。它的功能是：制造虚假网页迷宫，引AI抓取器走入死循环，不断浪费计算资源。

Cloudflare也上线了自家版本的“AI Labyrinth”系统，不封锁、不拦截，而是把AI引导进由AI生成的内容迷宫中，消耗其算力和带宽。

同时，社区发起了ai.robots.txt项目，提供一份AI抓取器黑名单和一键配置文件，帮助网站防御。

但这一切仍是治标不治本。AL爬虫仍在进化，甚至开始模仿正常用户行为。最关键的是——大部分AI公司并未就此事发声，更没有表现出与开源社区合作的意愿。

写在最后：大模型的胃口，开源喂不起了

AI的崛起，本应是开源社区的荣耀时刻——毕竟大量技术栈和数据训练素材来自于此。但现在，这种“原始积累”变成了赤裸裸的掠夺。

如果AI公司继续无视规则，继续“按小时”抓取全球开源项目，终有一日，这些曾让AI成为可能的开源基础设施会一个个倒下。

到那时，受害的，不止是开源社区。

参考链接：

https://arstechnica.com/ai/2025/03/devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries

关键词：大模型开源

你被大模型DDoS了吗？大模型“DDoS攻击力指数”TOP10榜单出炉

大模型微调爆出致命漏洞：可导致模型“黑化”

OpenAI百万美元豪测：顶级大模型取代不了程序员

算法治病还是杀人？留神医疗大模型被“投毒”

AI机器人的头号威胁：大模型越狱

安全大模型技术与市场研究报告

大模型安全实践白皮书

安全行业大模型技术应用态势发展报告

开源GPS系统曝出两个高危漏洞

私自用6000万用户数据训练大模型，马斯克面临大规模GDPR诉讼

开源社区快被大模型抓崩溃了

相关文章：

专题报道

热门标签