Vibe coding 兴起后,AI 公司急着建立大技术知识库,以训练下代 AI 。但这些公司因如何取得珍贵数据库,常引发法律问题。最近 Reddit 和 Stack Overflow 举动或许可知道未来发展。
Vibe coding 是指用户告诉 AI 需求,然后让 AI 自动编写代码,因关键字搜索量暴增6,700%,许多知名专家如 Databricks 的 CEO Ali Ghodsi,都开始依赖这种方法。但 AI 如何取得论坛讨论内容的权限,学习数以千计技巧和边缘案例,成了重要问题。某些情况,AI公司甚至未经许可就直接抓取这些数据。
Reddit 最近提告 Anthropic,指其未经授权,从平台抓取用户内容以训练 AI 模型,违反 Reddit 政策。 Reddit 说 Anthropic 自 2024 年 7 月抓取平台超过十万次,并明知禁止机器人爬虫,仍不断偷取资料。
Stack Overflow 也积极保护资料,最近与 Snowflake 签署协议,允许用户经Snowflake Marketplace 抓取高品质问答数据。 Stack Overflow CEO Prashanth Chandrasekar 表示,这些动作都使 Snowflake 用户更轻松取得数据,且都经过授权。
两平台显示无论 Reddit 的自由或 Stack Overflow 的严谨,都不会容忍未经授权的数据抓取。大型科技公司 15 年来不断收集网络资料,这些平台也努力确保任何商业化行为都须遵循各平台条款和规定,并将更多控制权交还给用户。
Stack Overflow 还有防止数据拿去训练 AI 的措施,确保数据库不被AI侵入,用Cloudflare验证用户身分,并对AI答案采严格禁止政策。这些措施都为了保护人类生产内容,确保品质。
AI模型开发者和用户对高品质资料需求日益增加,各事件突显资料所有权、授权和隐私问题的重要性。 AI公司追求更多资料时,也必须遵循法律规范,确保用户隐私得到保护。