Claude Fable 5 引入蒸馏检测机制,触发率低于 5%

Claude Fable 5蒸餾偵測機制

Anthropic 于 6 月 9 日正式发布 Claude Fable 5,首个对公众开放的 Mythos 等级模型,整合了 AI 分类器驱动的蒸馏检测机制。当系统识别到蒸馏尝试等三类高风险请求时,自动将对话降级至 Opus 4.8 响应;Anthropic 确认此机制平均影响低于 5% 的对话 Session。

蒸馏检测规格:三类触发条件与自动降级机制

根据 Anthropic 官方声明,Claude Fable 5 的 AI 分类器触发条件如下:

· 网络安全攻击请求

· 生物或化学武器相关请求

· 模型蒸馏尝试(包括 prompt 改写、steering vectors 及 PEFT 参数高效微调等提取手法)

触发后,系统自动将对话降级至 Claude Opus 4.8 响应并通知使用者。Anthropic 确认,针对攻击性网络安全任务的拦截成功率为 100%;整体机制影响低于 5% 的对话 Session。

2026 年 2 月指控的确认数字

Anthropic 官方确认,2026 年 2 月的指控对象为 DeepSeek、Moonshot AI 和 MiniMax,通过约 2.4 万个伪造账号发起逾 1,600 万次查询,系统性提取 Claude 的输出用于训练自家模型。

机器学习研究者 Nathan Lambert(外部独立研究者,非 Anthropic 官方)事后拆解的查询量数字为:DeepSeek 约 15 万次(针对推理与奖励模型)、Moonshot AI 约 340 万次、MiniMax 约 1,300 万次;后两者合计对应的后训数据量约 1,500 至 4,000 亿 token。Lambert 的数字系其独立分析,并非 Anthropic 官方数据。

机制的已知限制:合法与未授权蒸馏的边界模糊

Anthropic 确认,“合法蒸馏”(依授权使用 Claude 输出)与“未授权蒸馏”在技术操作层面几乎相同,边界界定存在模糊地带。Nathan Lambert 在其外部分析中表示:“封堵蒸馏,会比限制 GPU 这类实物货物的出货困难得多。”

Lambert 同时指出,只要 Anthropic 仍在销售 API,蒸馏渠道就无法完全封闭;中国实验室即使在 GPU 受限环境下,强化学习(RL)基建依然完善,仍可依赖 Meta 和 Google 的开源模型及自有合成数据管线。上述评估属于 Lambert 的外部独立分析,并非 Anthropic 立场。

常见问题

Claude Fable 5 的蒸馏检测与此前使用条款中的反蒸馏条款有何不同?

此前 Anthropic 的反蒸馏要求主要体现在使用条款(Terms of Service)中,依赖法律层面的约束。Claude Fable 5 的做法是在模型本体中整合 AI 分类器,在技术层面直接拦截检测到的蒸馏尝试并自动降级,无需等待法律程序介入。

什么是模型蒸馏,为何合法与未授权蒸馏难以在技术层面精确界定?

模型蒸馏(Knowledge Distillation)是指利用大型模型的输出训练较小模型,使后者学习前者的能力。合法蒸馏(依授权使用输出)与未授权蒸馏(系统性大量查询提取训练数据)在技术操作方式上几乎相同,使得 AI 分类器的自动分类存在判断难度。

此机制对 DeepSeek 等中国 AI 实验室的训练进程有何已知影响?

Anthropic 未公布此机制对具体实验室的量化影响数据。外部研究者 Nathan Lambert 的分析指出,中国实验室拥有 Meta 和 Google 的开源模型、自有强化学习基建及合成数据生成管线,蒸馏防护是干扰而非根本性阻碍。Lambert 的评估属于外部独立分析,非 Anthropic 官方立场。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论