开源社区快被大模型抓崩溃了

在“今天你被大模型DDoS了吗?”一文中,我们曾感慨生成式AI的崛起让 OpenAI、Anthropic、Google等玩家对互联网内容的渴求达到了疯狂的程度。无论是ChatGPT、DeepSeek的对话能力,还是Claude的推理水平,背后都需要海量数据喂养。然而,这种“拿来主义”正在给中小型互联网服务带来沉重负担,甚至演变成一场无形的DDoS危机。

开源社区的噩梦:无孔不入的AI爬虫

事实上,遭遇”大模型DDoS攻击“的不仅仅是内容和社交网站,近日开源社区也开始抱怨无孔不入的AI爬虫正像蝗虫一样吃掉项目的带宽。

2025年刚开年,软件开发者Xe Iaso就已经“精神崩溃”了——不是代码出 Bug,也不是CI/CD挂了,而是他们的Git仓库被AI抓取器搞得几乎无法使用。流量异常高、频繁宕机、防不胜防,就连robots.txt、屏蔽UA、IP黑名单这些“常规操作”,统统失效。

“它们会撒谎、会伪装成浏览器、会用民用宽带IP跑代理。”Iaso最终只能把服务藏到VPN后面,还自己造了一个“图灵之门”系统——Anubis,要求所有访问者先解一段计算谜题,才能打开页面。“我不想封掉这个Gitea服务,但我真的快受不了了。”

这不是Iaso一人的噩梦。越来越多的开源维护者发现,他们的项目正被大量 AI爬虫拖入持续性的“分布式拒绝服务攻击”——DDoS。LibreNews最新的报告显示,部分项高达97%的访问流量都来自AI公司。大量宽带资源被白嫖,项目稳定性暴跌,而维护者的人力本就极度吃紧。

爬虫乱象:来自AI公司的“隐形攻击”

不止Iaso,一线项目的运维者纷纷报警:

  • Fedora的Pagure项目因流量异常,不得不封锁整个巴西地区。
  • GNOME GitLab引入了Iaso的Anubis系统,结果数据显示,仅3.2%的访问请求通过验证,其余几乎全是自动化抓取。
  • KDE GitLab一度被来自阿里云IP段的流量“打崩”,完全无法访问。

更荒谬的是,这些爬虫并不是“爬一次就走”,而是每隔6小时就来一次,像极了某种数字化游牧民族。Diaspora项目的运维Dennis Schubert把这种行为称为“对整个互联网的DDoS”。

技术压力之外,还有真金白银的成本降低:Read the Docs项目通过封锁 AI爬虫,带宽使用量瞬降75%,从800GB降至200GB,每月节省1500美元。

开源项目:我们不是免费AI训练集

AI爬虫的行为基本可以总结为一句话:“robots.txt是参考建议,IP封锁是道德考题。”爬虫们伪造浏览器信息、切换代理IP、绕过所有协议限制——只为一个目的:继续抓数据。

Inkscape项目的Martin 0wens抱怨说,现在的问题不只是“中国的 DDoS”,而是“从一大堆公司来的假装浏览器的机器人”。他说自己现在维护着一份“史诗级的封锁名单”,还警告说,“如果你在AI公司上班,你可能已经访问不了我们网站了。”

更让人头疼的是,不仅是抓数据训练模型,一些开源项目开始接收到AI生成的虚假漏洞报告。比如Cur1项目的维护者Daniel Stenberg在博客中指出,这些bug报告看似合理实则全是捏造的,无是于变相消耗开发者时间。

SourceHut创始人Drew DeVault更直言:“它们不仅抓主页面,连git blame、commit历史、每一行代码都不放过。”

谁在抓?为什么抓?

根据Diaspora的流量分析,0penAI占到了全部请求的四分之一,Amazon占15%,Anthropic占4.3%。还有一部分来源不明、伪装能力极强。

这些抓取的目的并不单一。有的是为了训练大模型,有的是为了让AI助手“实时”查资料回答用户问题,可能是两者并存。而反复抓取行为,说明这已经不是单纯的一次性训练,而是某种“持续采样”的机制——AI公司在用全网开源内容,给自家模型做日更。

至于责任,行业内早有定论:“AI公司拿着百亿融资,抓着公共资源不松手,还不打算为此负责。”Hacker News上的开发者直言,大厂态度是“谁还讲什么开源道义”。

抵抗开始:从谜题门到诱捕系统

面对这种“合法但流氓”的行为,一批开发者开始了反击。

除了Iaso的Anubis,“Aaron”开发了另一个工具——Nepenthes(猪笼草)。它的功能是:制造虚假网页迷宫,引AI抓取器走入死循环,不断浪费计算资源。

Cloudflare也上线了自家版本的“AI Labyrinth”系统,不封锁、不拦截,而是把AI引导进由AI生成的内容迷宫中,消耗其算力和带宽。

同时,社区发起了ai.robots.txt项目,提供一份AI抓取器黑名单和一键配置文件,帮助网站防御。

但这一切仍是治标不治本。AL爬虫仍在进化,甚至开始模仿正常用户行为。最关键的是——大部分AI公司并未就此事发声,更没有表现出与开源社区合作的意愿。

写在最后:大模型的胃口,开源喂不起了

AI的崛起,本应是开源社区的荣耀时刻——毕竟大量技术栈和数据训练素材来自于此。但现在,这种“原始积累”变成了赤裸裸的掠夺。

如果AI公司继续无视规则,继续“按小时”抓取全球开源项目,终有一日,这些曾让AI成为可能的开源基础设施会一个个倒下。

到那时,受害的,不止是开源社区。

参考链接:

https://arstechnica.com/ai/2025/03/devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries

前一篇铁路瘫痪殃及百万民众!俄乌黑客展开铁路大战
后一篇战略发布|君同AI治理全栈能力图谱 守护AI可信落地