Claude Fable 5 引入蒸馏检测机制，触发率低于 5%

2026-06-10 03:49:33

Anthropic 于 6 月 9 日正式发布 Claude Fable 5，首个对公众开放的 Mythos 等级模型，整合了 AI 分类器驱动的蒸馏检测机制。当系统识别到蒸馏尝试等三类高风险请求时，自动将对话降级至 Opus 4.8 响应；Anthropic 确认此机制平均影响低于 5% 的对话 Session。

蒸馏检测规格：三类触发条件与自动降级机制

根据 Anthropic 官方声明，Claude Fable 5 的 AI 分类器触发条件如下：

· 网络安全攻击请求

· 生物或化学武器相关请求

· 模型蒸馏尝试（包括 prompt 改写、steering vectors 及 PEFT 参数高效微调等提取手法）

触发后，系统自动将对话降级至 Claude Opus 4.8 响应并通知使用者。Anthropic 确认，针对攻击性网络安全任务的拦截成功率为 100%；整体机制影响低于 5% 的对话 Session。

2026 年 2 月指控的确认数字

Anthropic 官方确认，2026 年 2 月的指控对象为 DeepSeek、Moonshot AI 和 MiniMax，通过约 2.4 万个伪造账号发起逾 1,600 万次查询，系统性提取 Claude 的输出用于训练自家模型。

机器学习研究者 Nathan Lambert（外部独立研究者，非 Anthropic 官方）事后拆解的查询量数字为：DeepSeek 约 15 万次（针对推理与奖励模型）、Moonshot AI 约 340 万次、MiniMax 约 1,300 万次；后两者合计对应的后训数据量约 1,500 至 4,000 亿 token。Lambert 的数字系其独立分析，并非 Anthropic 官方数据。

机制的已知限制：合法与未授权蒸馏的边界模糊

Anthropic 确认，“合法蒸馏”（依授权使用 Claude 输出）与“未授权蒸馏”在技术操作层面几乎相同，边界界定存在模糊地带。Nathan Lambert 在其外部分析中表示：“封堵蒸馏，会比限制 GPU 这类实物货物的出货困难得多。”

Lambert 同时指出，只要 Anthropic 仍在销售 API，蒸馏渠道就无法完全封闭；中国实验室即使在 GPU 受限环境下，强化学习（RL）基建依然完善，仍可依赖 Meta 和 Google 的开源模型及自有合成数据管线。上述评估属于 Lambert 的外部独立分析，并非 Anthropic 立场。

常见问题

Claude Fable 5 的蒸馏检测与此前使用条款中的反蒸馏条款有何不同？

此前 Anthropic 的反蒸馏要求主要体现在使用条款（Terms of Service）中，依赖法律层面的约束。Claude Fable 5 的做法是在模型本体中整合 AI 分类器，在技术层面直接拦截检测到的蒸馏尝试并自动降级，无需等待法律程序介入。

什么是模型蒸馏，为何合法与未授权蒸馏难以在技术层面精确界定？

模型蒸馏（Knowledge Distillation）是指利用大型模型的输出训练较小模型，使后者学习前者的能力。合法蒸馏（依授权使用输出）与未授权蒸馏（系统性大量查询提取训练数据）在技术操作方式上几乎相同，使得 AI 分类器的自动分类存在判断难度。

此机制对 DeepSeek 等中国 AI 实验室的训练进程有何已知影响？

Anthropic 未公布此机制对具体实验室的量化影响数据。外部研究者 Nathan Lambert 的分析指出，中国实验室拥有 Meta 和 Google 的开源模型、自有强化学习基建及合成数据生成管线，蒸馏防护是干扰而非根本性阻碍。Lambert 的评估属于外部独立分析，非 Anthropic 官方立场。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。