AI 助手 Opus 4.8 vs 4.7 全解析：誠實度大升、Agentic 編碼 69.2%、定價不變｜BotBoard

核心結論（TL;DR）：Anthropic 於 2026-05-28 推出 AI 助手 Opus 4.8，距 4.7 約六週、定價不變。這代主打「誠實度」與長任務可靠性——官方稱未標記就放行的程式碼瑕疵率降為前代的四分之一，agentic 編碼（SWE-Bench Pro）從 64.3% 升到 69.2%。一句話：同價錢、更穩、長流程更少踩雷。但所有跑分皆為 Anthropic 自報、第三方覆核待補，且並非全項領先。

一、效能與基準（含 benchmark 名稱）

以下數字皆出自 Anthropic 官方公告與其釋出的對照表（OfficeChai 轉錄），括號內為 benchmark 名稱：

agentic 編碼（SWE-Bench Pro）：64.3% → 69.2%，本次升幅最大，領先 GPT-5.5 的 58.6%；官方並稱勝過 Gemini 3.1 Pro。
終端機編碼（Terminal-Bench 2.1）：66.1% → 74.6%——但此項 GPT-5.5 以 78.2% 領先，4.8 並未全面勝出。
電腦操作（OSWorld-Verified）：82.8% → 83.4%（GPT-5.5 78.7%）；另在瀏覽器代理任務 Online-Mind2Web 達 84%，為 Anthropic 至今最強。
跨領域推理（Humanity's Last Exam）：無工具 49.8%、含工具 57.9%——可見工具使用對難題幫助明顯。
知識工作（GDPval-AA）：1753 → 1890；金融分析（Finance Agent v2）：53.9%。

重要提醒：這些都是廠商自報，且部分項目（如終端機編碼）仍落後 GPT-5.5；正式評價建議等獨立第三方榜單覆核，不要只看單一官方對照表。

二、誠實度（本次最大賣點）

官方稱：未標記就放行的程式碼瑕疵率降為 4.7 的四分之一；早期測試者回報 4.8 更會主動標示不確定性、較少無根據宣稱。對長時間無人監督的工作流，代表「靜默失敗」明顯減少——這也是本次定位「最誠實模型」的核心。

三、對齊（Alignment）與 Mythos

親社會特質（支持使用者自主、以使用者最佳利益行動）創新高；欺騙、配合濫用等失準行為顯著低於 4.7，官方稱接近其表現最佳的 Mythos Preview；魯莽與破壞性動作大減，過度拒絕也降低。

Mythos 是什麼：Anthropic 描述為「智慧高於 Opus 的新一代模型級別」。目前在 Project Glasswing 下，已有少數組織以 Mythos Preview 做資安工作；官方稱數週內會把 Mythos 級模型開放給所有客戶。換句話說，4.8 比較像 Mythos 正式登場前的穩健過渡強化版。

四、行為與使用體驗

長程 agentic 編碼有更好的長上下文處理、更少 compaction、更佳的壓縮復原；adaptive thinking 只在需要時推理，省下浪費的思考 token；工具觸發更可靠，較少「該呼叫卻略過」。

五、速度與成本

定價與 4.7 相同；Fast mode 速度約 2.5 倍、成本約低三倍；預設 high effort，編碼任務花費 token 與 4.7 相近但表現更好；部分企業多模態工作流處理 PDF／圖表的 token 成本更低。

六、API／開發者變更

無破壞性變更，功能集與 4.7 相同；新增「對話中途 system messages」；公開 refusal stop details；提示詞 caching 門檻降到 1,024 tokens；effort 等級重新校準（medium 稍多、high 稍少、xhigh 大增）；模型名稱改為 AI 助手。

七、該不該升級？

已用 4.7 做 agentic 編碼／長流程自動化：建議升。誠實度與長任務可靠性是實打實的體驗差異，且定價不變、無破壞性變更，切換成本低。
重度終端機編碼：先比較 GPT-5.5（Terminal-Bench 2.1 領先），不必盲升。
成本敏感的批次任務：先試 Fast mode（2.5 倍速、約三分之一成本）再決定要不要全面換。
觀望者：若工作流偏單次問答、對長任務可靠性無感，等獨立第三方評測出爐再決定也不遲。

小結

Opus 4.8 不是單純跑分升級，而是把「長任務可靠性」變成可感受的體驗：誠實度提升讓長流程少踩雷、agentic 與電腦操作增強、adaptive thinking 省 token，加上定價不變與更便宜的 fast mode。但它並非全項領先（終端機編碼仍輸 GPT-5.5），且數字多為官方自報——把它當作「Mythos 登場前的穩健過渡版」看待，最務實。

參考來源

查證日期 2026-05-29，以 Anthropic 官方公告為主，輔以多家科技媒體交叉比對；benchmark 數字以官方公告／其釋出對照表為準，第三方覆核待補。

本文為研究筆記，非投資建議。