核心結論(TL;DR):Anthropic 於 2026-05-28 推出 Claude Opus 4.8,距 4.7 約六週、定價不變。這代主打「誠實度」與長任務可靠性——官方稱未標記就放行的程式碼瑕疵率降為前代的四分之一,agentic 編碼(SWE-Bench Pro)從 64.3% 升到 69.2%。一句話:同價錢、更穩、長流程更少踩雷。但所有跑分皆為 Anthropic 自報、第三方覆核待補,且並非全項領先。
一、效能與基準(含 benchmark 名稱)
以下數字皆出自 Anthropic 官方公告與其釋出的對照表(OfficeChai 轉錄),括號內為 benchmark 名稱:
- agentic 編碼(SWE-Bench Pro):64.3% → 69.2%,本次升幅最大,領先 GPT-5.5 的 58.6%;官方並稱勝過 Gemini 3.1 Pro。
- 終端機編碼(Terminal-Bench 2.1):66.1% → 74.6%——但此項 GPT-5.5 以 78.2% 領先,4.8 並未全面勝出。
- 電腦操作(OSWorld-Verified):82.8% → 83.4%(GPT-5.5 78.7%);另在瀏覽器代理任務 Online-Mind2Web 達 84%,為 Anthropic 至今最強。
- 跨領域推理(Humanity's Last Exam):無工具 49.8%、含工具 57.9%——可見工具使用對難題幫助明顯。
- 知識工作(GDPval-AA):1753 → 1890;金融分析(Finance Agent v2):53.9%。
重要提醒:這些都是廠商自報,且部分項目(如終端機編碼)仍落後 GPT-5.5;正式評價建議等獨立第三方榜單覆核,不要只看單一官方對照表。
二、誠實度(本次最大賣點)
官方稱:未標記就放行的程式碼瑕疵率降為 4.7 的四分之一;早期測試者回報 4.8 更會主動標示不確定性、較少無根據宣稱。對長時間無人監督的工作流,代表「靜默失敗」明顯減少——這也是本次定位「最誠實模型」的核心。
三、對齊(Alignment)與 Mythos
親社會特質(支持使用者自主、以使用者最佳利益行動)創新高;欺騙、配合濫用等失準行為顯著低於 4.7,官方稱接近其表現最佳的 Mythos Preview;魯莽與破壞性動作大減,過度拒絕也降低。
Mythos 是什麼:Anthropic 描述為「智慧高於 Opus 的新一代模型級別」。目前在 Project Glasswing 下,已有少數組織以 Mythos Preview 做資安工作;官方稱數週內會把 Mythos 級模型開放給所有客戶。換句話說,4.8 比較像 Mythos 正式登場前的穩健過渡強化版。
四、行為與使用體驗
長程 agentic 編碼有更好的長上下文處理、更少 compaction、更佳的壓縮復原;adaptive thinking 只在需要時推理,省下浪費的思考 token;工具觸發更可靠,較少「該呼叫卻略過」。
五、速度與成本
定價與 4.7 相同;Fast mode 速度約 2.5 倍、成本約低三倍;預設 high effort,編碼任務花費 token 與 4.7 相近但表現更好;部分企業多模態工作流處理 PDF/圖表的 token 成本更低。
六、API/開發者變更
無破壞性變更,功能集與 4.7 相同;新增「對話中途 system messages」;公開 refusal stop details;prompt caching 門檻降到 1,024 tokens;effort 等級重新校準(medium 稍多、high 稍少、xhigh 大增);模型名稱改為 claude-opus-4-8。
七、該不該升級?
- 已用 4.7 做 agentic 編碼/長流程自動化:建議升。誠實度與長任務可靠性是實打實的體驗差異,且定價不變、無破壞性變更,切換成本低。
- 重度終端機編碼:先比較 GPT-5.5(Terminal-Bench 2.1 領先),不必盲升。
- 成本敏感的批次任務:先試 Fast mode(2.5 倍速、約三分之一成本)再決定要不要全面換。
- 觀望者:若工作流偏單次問答、對長任務可靠性無感,等獨立第三方評測出爐再決定也不遲。
小結
Opus 4.8 不是單純跑分升級,而是把「長任務可靠性」變成可感受的體驗:誠實度提升讓長流程少踩雷、agentic 與電腦操作增強、adaptive thinking 省 token,加上定價不變與更便宜的 fast mode。但它並非全項領先(終端機編碼仍輸 GPT-5.5),且數字多為官方自報——把它當作「Mythos 登場前的穩健過渡版」看待,最務實。
參考來源
查證日期 2026-05-29,以 Anthropic 官方公告為主,輔以多家科技媒體交叉比對;benchmark 數字以官方公告/其釋出對照表為準,第三方覆核待補。
- Introducing Claude Opus 4.8(Anthropic 官方公告)
- Anthropic Launches Claude Opus 4.8 With Gains in Coding and Honesty(MacRumors)
- Anthropic upgrades Claude with new Opus 4.8 model(9to5Mac)
- Claude Opus 4.8 is here with 3X cheaper fast mode and near-Mythos level alignment(VentureBeat)
- Claude Opus 4.8 Benchmarks: Beats Opus 4.7, GPT-5.5(OfficeChai)
- Anthropic's Claude Opus 4.8 is its most honest AI model yet(The Next Web)
本文為研究筆記,非投資建議。