开云体育app
你的位置:kaiyun开云体育2026世界杯中国官网 > 开云体育app > 开云体育(中国)官方网站 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准

开云体育(中国)官方网站 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准

2026-06-15 13:07    点击次数:102

开云体育(中国)官方网站 交白卷也排第一? Fable 5二百题全部拒答, 却登顶最严AI编程基准

裁剪|Panda

太离谱了!

是的,本文的主角照旧前些天刚发布了 Claude Fable 5 的 Anthropic。

Fable 5 发布时的排面是确切足。SWE-Bench Pro 得分 80.3%,把第二名甩出 11 个百分点;Andrej Karpathy 顺利喊出「deserves a major version bump」;Stripe 拿它在 5000 万行 Ruby 代码库里跑了一整天的迁徙,顶上了正本需要通盘这个词团队两个月才能完成的职责量。势头之猛,让东说念主一度认为 AI 编程参加了新纪元。

然而,Fable 5 刚开香槟,就被我方的「安全护栏」绊了个大跟头。

其系统卡中明确默示,Fable 5 被打算成:一朝检测到用户正在从事先沿 AI 研发职责(比如西席活水线、分散式西席基础时势、ML 加快器打算),模子会悄悄裁汰我方的回应质料——何况欠亨知用户。也即是说,你花着 Fable 5 的钱,收到的可能是 Opus 4.8 级别的活,还莫得任何提醒。

Anthropic 为此用了提醒词修改、转向向量等时期妙技,让模子在特定查询下悄悄变笨,通盘这个词历程对用户完全不透明。

这一操作在商议社区炸了锅。许多学者和开发者纷纷发声月旦,称此举严重挫伤了用户信任,本体上是背刺付用度户。公论压力之下,Anthropic 被动在发布后数小时内文告战略调遣:照旧会降智,仅仅不再悄悄来了——触发安全遏制时,模子将明确奉告用户,并切换到 Opus 4.8 进行回应。至少他们是这样说的。参阅《刚刚,Anthropic 说念歉了》。

然后,更尴尬的来了。

也正因为 Fable 5 当今的降智操作变得「透明」了,一些兴致的情况随之浮出水面。

其中最让东说念主苦恼的,即是 Fable 5 在 ProgramBench 基准测试上的「阐发」。

ProgramBench 来鼎沸名鼎鼎的 SWE-Bench 作家团队,专注于「从编译后的二进制文献重建源代码」这一高难度任务,一上线就把那时的前沿 AI 模子全部清零:Claude、GPT、Gemini,无一避免,完成率清一色 0%。此前咱们曾报说念过《0%完成率!Claude、GPT、Gemini 全灭,SWE-Bench 作家新作把 AI 圈干千里默了》。

那么,Fable 5 收获如何呢?

不是 0 分。是拒却作答:200 说念题,全部拒却!

ProgramBench 之是以莫得 Fable 5 的收获,是因为「重建编译后的二进制文献」这一操作触发了 Fable 5 的收集安全分类器。说白了,Fable 5 看到这说念题,判定其波及「二进制逆向」,博亚体育app中国官网入口打了个安全警报,顺利拒却作答。何况 200 说念,全部不落。

兴致的是,Fable 5 在其他编程基准上然则少许不缺乏的,都能好好答题。

Fable 5 在不同基准上的收获和排名

然而,就在这份弃考收获单提交之后,ProgramBench 名次榜作念了一个让东说念主浅酌低吟的决定:概述其他基准阐发,仍然将 Fable 5 列在了榜首。

一个字都没答的考生,坐了第又名的座位。这简略是 AI 评测史上面一遭:弃考也能登顶榜单。

固然,这操作很快引来了四面八方的异议。有东说念主顺利提问:正经进修怎样交了白卷还能得第又名?应该顺利给零分才对。

这也让许多网友吐槽其护栏太高,甚至于难以施行应用:

顺带一提,有网友还发现,Fable 5 在英文输出中已经会偶发性地搀和汉字,这个老错误到了这一代还没透彻根治。

事实上,Fable 5 的「过度拒却」问题并非初度出当今 Claude 眷属。

早在 Claude 3 Opus 时间,商议东说念主员就发现该模子在靠近安全测试题目时,会在解题进行到一半时倏得歇工,kaiyun.com以「伦理记挂」为由拒却持续作答。Claude 3.5 Sonnet 曾经被纪录到在结构化 bash 任务中以「制作 payload 波及实施号令」为由顺利拒却。

Fable 5 的问题究竟出在那里?

回到 Fable 5 自己。凭证咫尺暴露的信息,它的「护栏系统」选拔了两级架构:一个探针及时监控模子的里面激活景况,对通盘流量进行扫描;一朝触发警报,恳求会被上报给一个独处西席的 LLM 分类器作念最终裁决。

这套系统遏制的范畴,涵盖收集安全、生示寂学,以及前边提到的前沿 AI 研发。以 Terminal-Bench 2.1 为例,约 20.9% 的测试用例触发了安全拒却并回退到 Opus 4.8。

ProgramBench 的「二进制重建」任务,在分类器眼里,简略和「逆向工程坏心软件」莫得太大分裂,于是 200 说念题蹧跶被挡在了门外。

Vals AI 在实测中也发现,Fable 5 在生物和收集安全干系问题上的拒却率显著偏高,甚至于他们不得不将 Opus 4.8 建树为默许兜底模子。也即是说,Fable 5 拒却的任务,就让 Opus 4.8 来接。

滚球app2026世界杯中国官网下载

时期上这套系统固然有其合感性。Fable 5 的前身 Mythos 级模子,在缝隙愚弄、挫折性收集操作等任务上展现出了让列国政府都坐不住的能力,这亦然 Anthropic 一直将其列为受限模子的中枢原因。给这样的模子套上严格的安全镣铐,似乎也有少许预料。

但问题在于,当安全护栏的判断法子过于不祥,「二进制逆向」这个本属于泛泛编程教化和安全商议的基础操作,就会被一视同仁地遏制。开发者为此付出的代价是实在的:要么换模子,要么改提醒词,要么摄取一个「什么都懂、许多都不说」的超能助手。

趁机,还有另一份收获单也值得一看

Fable 5 发布后不久,UC Berkeley RDI 实验室(矜重东说念主 Dawn Song 栽培)的团队完成了对它的评测,用的是他们我方作念的新基准:Agents' Last Exam(ALE)。

论文地址:https://arxiv.org/abs/2606.05405

这个基准的起点有点真理:它不考「AI 能不行在 HumanEval 里写出两行代码」,而是顺利对皆实在劳能源市集,掩饰 55 个功绩观点、1500+ 说念实在职责场景题目,由来自 100 余家机构的 300 余位行业巨匠孝敬,全部按可考证的恶果计分。说白了,即是让 AI agent 去考一场「职场模拟高考」。论文发布今日就登上了 Hugging Face Daily Papers 第又名。

评测恶果如何?Fable 5 的得分是 22.0%,排在 GPT-5.5(Codex)的 24.0% 之后,位列第二。听起来差距不大,但本钱项就有点夺目了:Fable 5 平均每说念题破耗约 15.70 好意思元,GPT-5.5 只需 3.80 好意思元,另一个模子 Composer 2.5 更是唯有 1.33 好意思元。换句话说,Fable 5 每解全部题的本钱,苟简是 GPT-5.5 的四倍。

最有真理的,照旧最高难度那一档,即「Last-Exam」,也即是 ALE 里有利为「前沿 agent 挑战极限」打算的题目。恶果是:除了 GPT-5.5,包括 Fable 5 在内的通盘参评的前沿 agent 通过率均为 0%。更多确定请参阅《Claude Fable 5最难档零分!智能体的终末进修来了》。

名次榜备注评释:claude-fable-5——除了透彻的走访限制(咱们仅仅握住重试驱动直到任务告成完成),Anthropic 还可能默许悄无声气地提供该模子的一个左迁版、粗劣力变体。重试无法创新这少许,因此这里的数据可能低估了其实在能力——解读时需严慎

ProgramBench 拒却作答是 0%,ALE 最难档勇猛作答亦然 0%。不同的姿态,不异的结局。

结语

弃考但排名第一,这个荒唐恶果背后,其实潜藏着一个正在扯破 AI 行业的根底矛盾:能力越强,护栏越紧;护栏越紧,可用性越差。

Anthropic 的处境尤其典型。它领有(按自家说法)当下最强的编程模子,却同期在替用户决定哪些编程任务「不错作念、哪些不行作念」。而那条鸿沟,咫尺还画得相配缺乏。

参考贯穿开云体育(中国)官方网站



Copyright © 1998-2026 kaiyun开云体育2026世界杯中国官网™版权所有

kenjiintlhk.com备案号 备案号: 

技术支持:®开云体育app RSS地图 HTML地图