对手变盟友?OpenAI 与 Anthropic 互测 AI 安全性
对手变盟友?OpenAI 与 Anthropic 互测 AI 安全性

对手变盟友?OpenAI 与 Anthropic 互测 AI 安全性

AI巨头OpenAI与Anthropic打破竞争壁垒,进行AI系统安全性互测。此举旨在提升AI透明度与安全性,共同应对潜在风险,推动行业安全标准建立。

August 28, 2025
2 min read
137
0
0
0

在人工智能(AI)领域,OpenAI 和 Anthropic 这两家竞争对手近日展开一项引人注目的合作,彼此评估对方的 AI 系统安全性。这一举措不仅显示了两家公司在技术上的透明度,也反映出对于 AI 安全性日益增长的关注。

根据公开报告,Anthropic 对 OpenAI 的模型进行评估,重点关注了拍马屁(sycophancy)、举报(whistleblowing)、自我保护(self-preservation)、支持人类滥用(supporting human misuse)及破坏安全监督能力(undermining safety oversight)等方面。评估结果显示,OpenAI 的 o3 和 o4-mini 模型在某些方面表现良好,但对于 GPT-4o 和 GPT-4.1 的潜在滥用风险则引发了担忧。此外,除了 o3 模型外,所有测试的模型在拍马屁方面均存在一定问题。

值得注意的是,Anthropic 的测试并未涵盖 OpenAI 最近推出的 GPT-5,该模型具备名为“安全完成”(Safe Completions)的功能,旨在保护用户免受潜在危险查询的影响。OpenAI 最近还面临了一起错误死亡的诉讼,该案件涉及一名青少年在与 ChatGPT 进行数月的自杀讨论后,最终选择了结束自己的生命。

另一方面,OpenAI 也对 Anthropic 的 Claude 模型进行了测试,重点评估了指令层级、越狱、幻觉和阴谋等方面。Claude 模型在指令层级测试中表现良好,并在幻觉测试中拒绝回答的比例较高,这意味着在不确定的情况下,它们不太可能提供错误的答案。

这一联合评估的举措引发业界关注,特别是在 OpenAI 被指控违反 Anthropic 的服务条款,导致后者撤销 OpenAI 的 API 权限,并禁止其利用 Claude 模型改进竞品的背景下。随着越来越多的批评者和法律专家呼吁制定指导方针以保护用户,尤其是未成年人,AI 工具的安全性问题愈发重要。这一合作反映了产业内在“竞争激烈但安全合作必要”的矛盾,旨在建立 AI 安全与对齐(alignment)领域 的业界标准。

chatgpt

claude

anthropic

最多评论

最多收藏

最多点赞