Opus 4.8 对比 Opus 4.7：一次「克制但扎实」的旗舰升级

2026 年 5 月 28 日，Anthropic 发布了 Claude Opus 4.8。距离上一代旗舰 Opus 4.7（4 月 16 日）只过去了六周——这家公司把模型迭代节奏拉到了前所未有的密度。

官方给 4.8 的定调很克制，没有用「革命」「飞跃」这类词，而是说它是「a modest but tangible improvement on its predecessor」(对前代一次克制但实在的改进)。独立博主 Simon Willison 专门点赞了这种坦诚:「so refreshing」——一家实验室肯老老实实说「这次只是小改进」，本身就难得。

这篇文章就顺着这个定调，结合官方公告与文档、第三方榜单、中英文社区讨论和头部博主的实测，把 4.8 相比 4.7 到底升级了什么讲清楚。其中有一条容易被忽略但很关键的暗线:Opus 4.7 当初是带着争议上线的，而 4.8 很大程度上是来「擦屁股 + 打磨」的。

数据来源:Anthropic 官方公告与开发者文档、Artificial Analysis、Vellum、VentureBeat、9to5Mac、The New Stack、Simon Willison 博客,以及 36 氪、新浪/网易科技、知乎、LINUX DO 等中文社区(文末附链接)。不同来源个别数字略有出入,已尽量取可交叉验证的版本;无法核实处会明确标注。

一分钟速览

定位:Opus 4.8 是当前旗舰,直接替代 Opus 4.7,标准价格不变($5 / $25 每百万 input / output token)。
跑分:小步快跑而非碾压。SWE-bench Verified 87.6% → 88.6%;真正拉开差距的是 Agentic / 长任务 / 知识工作类指标。
三大卖点:① 代码更可靠(放过代码缺陷的概率约为 4.7 的 1/4);② Fast 模式提速 2.5×、价格比上代 Fast 便宜约 3 倍;③ 修好了 4.7 的长上下文回退——长任务更稳。
彩蛋:新增 Dynamic Workflows(数百子 Agent 并行,研究预览,可做代码库级迁移)、会话中途插入 system 消息、effort 默认 high。
一句话提醒:它不是「全面碾压」。诚实度的提升带来了「过度谨慎、有点冷」的副作用;也有博主表示数据/战略类任务仍更愿意用 4.7。
结论:个人用户和 Agent / 生产流水线建议直接升——同价、更稳、更快;尤其是被 4.7 长上下文坑过的人。

一、先把版本谱系与「4.7 风波」捋清楚

Opus 这条线最近半年的迭代:

版本	发布时间	关键变化
Opus 4.5	2025-11-01	SWE-bench Verified 80.9%;引入 effort 参数(low/medium/high/max)
Opus 4.6	2026-02-05	首个 1M 上下文 Opus(beta);自适应思考、上下文压缩、Claude Code 的 Agent 团队
Opus 4.7	2026-04-16	编码榜单跃升(SWE-bench Verified 87.6%);新分词器、图像分辨率 3×、新增 `xhigh` effort 档——但长上下文出现回退,口碑翻车
Opus 4.8	2026-05-28	代码可靠性、Agentic、诚实度全面打磨;Fast 模式提速降价;修复长上下文;Dynamic Workflows

这里要单独说说 Opus 4.7 的争议,因为它直接解释了 4.8 为什么这么快、改了什么。

4.7 在编码榜单上确实亮眼(SWE-bench Pro 从 4.6 的 53.4% 飙到 64.3%,视觉推理 CharXiv 从 69.1% 跳到 82.1%),但长上下文检索出现了明显倒退。据 36 氪等中文媒体报道,4.7 在 1M 上下文下的检索准确率「从 4.6 的 78.3% 断崖式跌到 32.2%」,一度被 GPT-5.4、Gemini 3.1 Pro 反超;36 氪的标题相当直白——「Claude Opus 4.7,全网差评,刚升级就翻车,用户怒斥:还我 4.6」。Vellum 的横评也点出 4.7 在 BrowseComp 网页检索上是「the one clear regression」(从 4.6 的 83.7% 降到 79.3%)。

这个数字(78.3%→32.2%)来自中文媒体转述,本文未能找到 Anthropic 官方口径,仅供参考;但「4.7 长上下文体验回退、社区不满」这件事是中英文社区共识。

理解了这条暗线,4.8 的定位就清楚了:它不只是「再强一点」,更是来修 4.7 留下的坑、把这一代架构的能力调稳的收尾之作。

二、跑分对比:小步,但每一步都踩实

把官方和第三方榜单对齐后,4.7 → 4.8 的核心指标如下(同一基准、可交叉验证的口径):

基准	含义	Opus 4.7	Opus 4.8
SWE-bench Verified	真实 GitHub issue 修复	87.6%	88.6%
SWE-bench Pro / Agentic Coding	更难的真实工程任务	64.3%	69.2%
Terminal-Bench 2.1	终端 / 命令行 Agent	66.1%	74.6%
多学科推理 + 工具(HLE)	跨领域带工具推理	54.7%	57.9%
OSWorld-Verified	电脑操作 Agent	82.8%	83.4%
GDPval-AA	知识工作(Elo 式综合)	1753	1890
Finance Agent v2	金融分析 Agent	—	53.9%
Online-Mind2Web	浏览器 Agent	—	84%

读这张表的正确姿势:

纯单轮编码(SWE-bench Verified)只涨 1 个点——4.7 已接近这代架构在「一问一答」上的天花板。
越是「长链路、多步、带工具」的任务,涨幅越大:Agentic Coding +4.9、Terminal-Bench +8.5、知识工作 +137(Elo)。这正是 4.8 发力的方向——不是答得更准,而是干得更久、更稳。
不是全面碾压:在 Terminal-Bench 2.1 上,GPT-5.5(78.2%)仍小幅领先 Opus 4.8(74.6%);GPQA Diamond 甚至有来源显示 4.8(约 93.6%)比 4.7(94.2%)略降(单一来源、未必是真实回退,也可能是评测口径变化,仅供参考)。officechai 的结论很中肯——「a step up rather than a leap」(是台阶,不是飞跃)。

纵向看,SWE-bench Verified 一年内的爬升是:Opus 4.5 80.9% → 4.7 87.6% → 4.8 88.6%。而 Anthropic 已在公告里预告下一代 Mythos 级模型,其预览版在该基准上已摸到 93.9%——4.8 更像是 Mythos 登场前的「最后一块拼图」。

三、五个真正影响体感的升级

1. 代码可靠性:更少「悄悄放过」的坑

这是 4.8 最被反复强调的点。官方说法:Opus 4.8「比前代放过自己写的代码缺陷的概率低约 4 倍」(four times less likely to allow flaws in code it has written to pass unremarked)。

有意思的是它是怎么做到的——Simon Willison 引用系统卡指出,4.8 主要靠「对没把握的问题选择不答(abstaining)」来实现这一点。也就是说,可靠性的提升不是凭空变聪明,而是学会了「不确定就别硬上」。对天天用 Claude 写代码、做 review 的人,这条比任何跑分都实在:

它更愿意指出自己改动里的可疑点,而不是一路「看起来没问题」糊过去;
review 别人代码时漏检率下降;
减少了那种自信满满但其实跑不通的提交。

桥水基金(Bridgewater,VentureBeat / 网易科技援引)的反馈很具体:4.8 会主动指出输入和输出里的问题,而不是把这些坑留给用户自己去发现;那种「我已经实现并测试通过了」、结果一到 PR review 就翻车的情况明显变少。

但要注意:这种「诚实」是把双刃剑——见下文第六节的「代码更诚实了,人类却有点不舒服」。

2. Agentic 与工具使用:能独立干更久的活

4.8 主打「sharper judgement, more honesty about its progress, and the ability to work independently for longer」(判断更准、对进度更诚实、能独立工作更久)。落到指标上就是上表里 Terminal-Bench、SWE-bench Pro 的集体上扬;落到体感上:

工具触发更准:官方明确 4.7 有用户反馈「该调工具时漏调」,4.8 修了这个;
长任务中途「跑偏 / 忘目标」的概率更低;
在 Super-Agent 这类端到端基准上,4.8 是唯一能把每个 case 都跑完的模型。

配套放出了重磅预览功能 Dynamic Workflows:在 Claude Code 里 Claude 会动态写出编排脚本,先做规划,再在一次会话里拉起数十到数百个并行子 Agent 协同完成大任务。TechCrunch 给的例子很有冲击力——它能「对数十万行代码做代码库级迁移,从启动到合并全程自动,以现有测试套件作为达标线」。据 computingforgeeks,它通过 ultracode 设置触发。这是把「Agent 团队」从概念推向规模化的一步,目前是 research preview(企业 / Team / Max 可用)——别急着上生产关键路径。

3. 长上下文:把 4.7 的回退修回来

针对前面说的 4.7 长上下文翻车,官方文档明确 4.8 的改进方向是「更好的长上下文处理、更少 compaction(上下文压缩)、compaction 之后恢复更好」,长 Agent 轨迹「在压缩后仍能保持在任务上,更少跑偏」。

1M 上下文自 4.6 起是 Opus 标配,4.8 在 API / Bedrock / Vertex 上默认开启 1M(Microsoft Foundry 为 200k),最大输出 128k token,知识截止约 2026 年 1 月。
对被 4.7 长文档 / 跨多文件代码理解坑过的人,这是 4.8 最该升级的理由之一。

不过这里要泼一盆冷水:官方这次没有公布可直接对比的长上下文指标。有中文开发者社区(linux.do / 80aj 等)发现,Anthropic 在 4.8 上撤掉了往代用的 MRCR 长上下文基准,只报了 GraphWalks,导致「修没修好、修了多少」无法跨版本直接量化比较。他们提醒:4.7 在 150k–200k token 区间就出现过注意力衰减,别只信官方说辞,自己拿真实长文档跑一遍最稳。

4. Fast 模式:2.5× 速度,价格大降

Opus 4.8 的 Fast 模式做了实打实的优化:

速度约 2.5×(同一个模型,只是吐字更快,不会降级成小模型);
价格大幅下降:上一代 Fast 约 $30 / $150(每百万 input / output token),官方口径是 4.8 的 Fast「比上代便宜约 3 倍」——折算约 $10 / $50;不过 Simon Willison 的实测文里写的是降到 $15 / $75。各来源口径略有出入,但「Fast 模式明显变便宜」是一致结论,以官方文档与你账单的实际档位为准;
目前在 Claude API 上是 research preview,设 speed: "fast" 开启;Claude Code 里可用 /fast 一键开关(Opus 4.8 / 4.7 / 4.6 都支持)。

注意 Fast 仍是相对标准价($5/$25)的溢价档,但相比过去「要快就得多掏很多钱」,这代性价比改善非常明显。

另一个贴心的默认值变化:4.8 在所有入口(API、Claude Code)默认 effort = high。官方说编码任务下 high effort 花的 token 量和 4.7 默认档差不多,但效果更好;需要时还能往上调 xhigh / max,用更多 token 换质量。配合 adaptive thinking(只在判断需要时才思考),4.8 在简单任务上比 4.7「同 effort 档少浪费思考 token」。

5. API 工程化:几个让开发者省心的小改动

会话中途插入 system 消息:可以在长会话进行到一半时更新系统指令,而不破坏 prompt cache、不必重述整段提示词——对长 Agent 链路特别实用。
Prompt 缓存门槛下调:最小可缓存提示长度从 4.7 的 4,096 降到 1,024 token,以前太短缓存不了的提示现在也能缓存,零改动省钱。
Refusal stop details:拒答响应带上「拒绝类别」,方便应用分流处理。
继承自 4.7 的约束:不支持 temperature / top_p / top_k(设了报 400);只支持 adaptive thinking,不支持显式 thinking budget——从 4.7 升 4.8 这些无需改代码。

四、价格与性价比

项	Opus 4.7	Opus 4.8
标准定价(input / output)	$5 / $25 每百万 token	$5 / $25(不变)
Fast 模式	约 $30 / $150	比上代便宜约 3 倍(约 $10–15 / $50–75,2.5× 速度)
Prompt 缓存	命中省最多 90%;门槛 4,096 token	同样省 90%;门槛降到 1,024 token
批处理	省 50%	省 50%

一句话:标准价不变、Fast 模式大幅降价、缓存更易命中——综合用下来,4.8 反而可能更省。

五、迁移注意事项

升级不是完全零成本,几个点提前知道能少踩坑:

effort 默认变 high:若你的成本预算按 4.7 默认档算,留意 token 消耗变化(官方称编码任务持平,其它任务不一定)。
提示词可能要微调:自 4.7 起模型对指令解读更字面化,Anthropic 建议重新调一遍既有 prompt;4.8 延续这一风格,并提供了官方迁移指南。
分词器与 token 计数:4.7 换过分词器,相同内容 token 数约为旧版 1.0–1.35×(系统提示、尤其高分辨率图像更明显)。4.7→4.8 这块影响不大;若从 4.6 及更早一步到位,要重新核算预算。
Dynamic Workflows / Fast 模式都是预览:先小范围试,别直接压到生产关键路径。

六、社区与博主怎么看(以及一个没人提的副作用)

这部分我特意多花了笔墨,因为跑分只是故事的一半,真实口碑往往藏着官方公告不会写的东西。

6.1 博主 / 媒体:一致的「渐进、克制」

Simon Willison(每代必测的独立博主)照例跑了招牌的「鹈鹕骑自行车 SVG」测试:用五个思考档各画一张,max 档效果最好,但单张花了 43 美分(25 input + 17,167 output token)——直观展示了「拉满 effort」的性价比代价。他最欣赏的反而是官方那句「modest but tangible」的坦诚,以及会话中途 system 消息、缓存门槛下调这些工程改进。
VentureBeat 主打性价比与对齐,标题直接是「3× 更便宜的 Fast 模式 + 接近 Mythos 的对齐」;Anthropic 称 4.8 在「欺骗 / 配合滥用」这类失配指标上已与 Mythos 预览版相当,亲社会指标创新高。
The New Stack / 9to5Mac / officechai 聚焦「effort 控制、Dynamic Workflows、更便宜的 Fast、更诚实更少欺骗」,但都强调「是台阶不是飞跃」。
中文媒体:新浪 / 网易科技以「提升 AI 编程可靠性、减少无依据结论」为题报道;量子位标题更燃——「Claude 4.8 炸场!部分能力超过 Mythos,支持数百子智能体并行」;36 氪则关注 Anthropic 借 4.8「预告 Mythos 级模型」。

6.2 一个值得泼冷水的实测:不是「全面升级」

Lenny's Newsletter 的上手评测给了最有价值的反向视角。她的结论是:4.8「擅长从零搭原型、一把梭实现单个功能、执行速度快,但在「最后 10%」、既有代码库里的边缘 case、以及幻觉上仍然吃力」。最关键的一句:她在数据密集型的战略 / 路线图工作上,仍然会退回去用 Opus 4.7。

换句话说:4.8 不是对 4.7 的无差别碾压,而是「长任务、Agent、可靠性」更强,某些「重思辨、重数据判断」的场景 4.7 反而更顺手。别因为版本号高就无脑全切。

6.3 论坛真实情绪:从「释放疲劳」到「过度诚实」

Hacker News 的发布讨论帖(1200+ 赞、近千评论)有意思的是:大家讨论的不是 4.8 多强,而是「又升级了?」的疲劳感。几条代表性原话:

「我说不清它比记忆里的 4.5 强在哪,一切都太『模糊』了,真的很难分辨。」
「老实说,Claude 已经没有我搞不定的任务了……我连 Opus 4.7 都还没榨干。」
「今天,一个能把现有 LLM 用好的脚手架(harness),比一个更强的 LLM 更有价值。」
还有人直接调侃:「Opus 4.7、4.8 八成是从 Claude Mythos 蒸馏出来的。」

这恰恰印证了文章开头的判断:当模型强到一定程度,代际提升对终端用户越来越「不可感知」,价值重心正从「模型本身」转向「怎么把它编排进工作流」——这也是 Dynamic Workflows 为什么是这次发布的重点。

6.4 副作用:「代码更诚实了,人类却有点不舒服」

这是官方公告绝口不提、但社区(尤其中文)讨论最热的一点。网易科技一篇热文标题就是——「代码更诚实了,人类却有点不舒服」。

前面说 4.8 靠「不确定就弃答 / 主动指出问题」换来了可靠性。这套行为在编码、企业场景是优点;但放到聊天、陪伴、头脑风暴场景,同一种「克制」就被不少用户读成:

过度谨慎、动不动「我不确定」;
打太极、回避,不肯像以前那样顺着你往下接;
冷冰冰,甚至有人觉得有点「刻薄」。

这其实是对齐调优的经典 trade-off:让模型少说大话,代价是它也少了点「热情」。如果你主要拿 Claude 写代码做 Agent,这是净收益;如果你重度依赖它做创意 / 情感陪伴,升级前最好先试试手感。

6.5 别忘了 4.7 当初摔过的跤

把 4.8 放回上下文:Opus 4.7 的社区首发口碑相当差。Reddit 上「Opus 4.7 不是升级,而是严重倒退」的帖子两天内冲到约 2300 赞,集中吐槽三点——① 分词器膨胀(相同内容多 20–35% token,变相涨价);② 安全 RLHF 外溢,Claude Code 把一些常规操作误报成「恶意 / malware」;③ 变得不爱坚持己见,你一纠正它就立刻「认错」。

4.8 的发布说明里,「工具触发更准」「长上下文 / compaction 改善」基本就是逐条回应 4.7 的这些投诉。所以与其说 4.8 是飞跃,不如说它是 4.7 该有的样子。

6.6 一句话的商业背景

顺带一提发布当天的另一条大新闻:据路透 / 雅虎等报道,Anthropic 同日宣布完成 650 亿美元 H 轮融资、投后估值约 9650 亿美元,反超 OpenAI,并预告「未来几周」推出 Mythos 级模型。把 4.8 读成「Mythos 登场、IPO 竞赛白热化前的一次稳健卡位」,也说得通。

整体口径中英文一致:渐进、稳健、工程友好,是一次「修 4.7 的坑 + 打磨」式的升级;但「诚实带来的冷感」和「并非全场景都强过 4.7」这两个副作用,值得在升级前心里有数。

七、该不该升级?

Agent / 生产流水线 / 长任务编码:强烈建议升。代码可靠性 4×、长任务完成度、长上下文修复、工具触发更准,这几项叠加会显著降低「自动化跑着跑着翻车」的成本。这是 4.8 的主场。
被 4.7 长上下文坑过、甚至退回 4.6 的人:这就是你等的版本,可以放心回到 Opus 主线(但建议自己拿真实长文档复测一遍,别只信官方)。
个人日常 / 编码助手:直接上 4.8,同价、更快(Fast 模式)、更稳。
重思辨、重数据判断的战略类工作:不一定。参考 Lenny 的反馈,这类场景 4.7 可能更顺手,值得 A/B 对比后再定。
创意写作 / 情感陪伴 / 头脑风暴:先试手感再切。4.8 的「诚实克制」在这里可能变成「冷淡、爱打太极」。
成本极度敏感 + 任务简单:简单问答用 Sonnet 4.6(性能接近去年的 Opus 4.5、价格 $3 / $15)往往更划算;Opus 这条线留给真正吃推理和长链路的活。

小结

Opus 4.7 → 4.8 不是颠覆式换代,而是一次扎实的工程打磨:把原本就强的能力做得更可靠、更快、更省、更诚实,顺手修好了 4.7 长上下文翻车的口碑坑。在「越长、越多步、越像真人协作」的任务上,它的进步最明显——这恰恰是 AI 从「聊天工具」走向「干活的同事」最关键的那部分能力。

再加上标准价不变、Fast 模式价格腰斩、以及 Dynamic Workflows 的想象空间,对把 Claude 当生产力工具的人来说,这次升级几乎没有理由犹豫。而 Anthropic 已经把 Mythos 摆上了台面——4.8,很可能是这一代架构临别前最成熟、也最「让人放心」的一版。

参考资料

官方

第三方测评 / 媒体

博主 / 社区

中文社区

Opus 4.8 对比 Opus 4.7：一次「克制但扎实」的旗舰升级 ​

一分钟速览 ​

一、先把版本谱系与「4.7 风波」捋清楚 ​

二、跑分对比:小步,但每一步都踩实 ​

三、五个真正影响体感的升级 ​

1. 代码可靠性:更少「悄悄放过」的坑 ​

2. Agentic 与工具使用:能独立干更久的活 ​

3. 长上下文:把 4.7 的回退修回来 ​

4. Fast 模式:2.5× 速度,价格大降 ​

5. API 工程化:几个让开发者省心的小改动 ​

四、价格与性价比 ​

五、迁移注意事项 ​

六、社区与博主怎么看(以及一个没人提的副作用) ​

6.1 博主 / 媒体:一致的「渐进、克制」 ​

6.2 一个值得泼冷水的实测:不是「全面升级」 ​

6.3 论坛真实情绪:从「释放疲劳」到「过度诚实」 ​

6.4 副作用:「代码更诚实了,人类却有点不舒服」 ​

6.5 别忘了 4.7 当初摔过的跤 ​

6.6 一句话的商业背景 ​

七、该不该升级? ​

小结 ​

参考资料 ​

📚 相关文章

💬 评论