Reddit 与 Stack Overflow 拒绝 AI 爬虫抓取数据

Vibe coding 兴起后，AI 公司急着建立大技术知识库，以训练下代 AI 。但这些公司因如何取得珍贵数据库，常引发法律问题。最近 Reddit 和 Stack Overflow 举动或许可知道未来发展。

Vibe coding 是指用户告诉 AI 需求，然后让 AI 自动编写代码，因关键字搜索量暴增6,700%，许多知名专家如 Databricks 的 CEO Ali Ghodsi，都开始依赖这种方法。但 AI 如何取得论坛讨论内容的权限，学习数以千计技巧和边缘案例，成了重要问题。某些情况，AI公司甚至未经许可就直接抓取这些数据。

Reddit 最近提告 Anthropic，指其未经授权，从平台抓取用户内容以训练 AI 模型，违反 Reddit 政策。 Reddit 说 Anthropic 自 2024 年 7 月抓取平台超过十万次，并明知禁止机器人爬虫，仍不断偷取资料。

Stack Overflow 也积极保护资料，最近与 Snowflake 签署协议，允许用户经Snowflake Marketplace 抓取高品质问答数据。 Stack Overflow CEO Prashanth Chandrasekar 表示，这些动作都使 Snowflake 用户更轻松取得数据，且都经过授权。

两平台显示无论 Reddit 的自由或 Stack Overflow 的严谨，都不会容忍未经授权的数据抓取。大型科技公司 15 年来不断收集网络资料，这些平台也努力确保任何商业化行为都须遵循各平台条款和规定，并将更多控制权交还给用户。

Stack Overflow 还有防止数据拿去训练 AI 的措施，确保数据库不被AI侵入，用Cloudflare验证用户身分，并对AI答案采严格禁止政策。这些措施都为了保护人类生产内容，确保品质。

AI模型开发者和用户对高品质资料需求日益增加，各事件突显资料所有权、授权和隐私问题的重要性。 AI公司追求更多资料时，也必须遵循法律规范，确保用户隐私得到保护。