[ai] GPT-5.4 引爆 AI 模型三強鼎立:企業部署的算力基礎設施正在重組

摘要

2026 年三月,AI 模型競賽進入史上最密集的一個月。
OpenAI 發布 GPT-5.4,首次讓通用模型具備原生電腦操控能力。Anthropic 的 Claude 5 Opus 在研究推理基準突破人類博士水準。Google 連發 Gemini 3.1 系列與 Gemini Embedding 2,全面攻佔企業部署市場。
三強同步爆發,不是巧合。這是企業 AI Agent 大規模落地前的最後一輪軍備競賽,而台灣正站在這場競賽的晶片供應核心。
---

一、GPT-5.4:第一個「能操作電腦」的通用模型

OpenAI 在 3 月 5 日發布 GPT-5.4,最關鍵突破是原生電腦操控能力(Native Computer Use)
過去,AI Agent 要操作電腦需要外掛工具或人工搭橋。GPT-5.4 直接整合兩種模式:
截圖模式(Screenshot Mode)
模型看截圖、發出滑鼠/鍵盤指令,直接控制桌面應用程式。
程式碼模式(Code Mode)
用 Playwright 寫 Python 自動化腳本,讓操作可重複執行且可稽核。
📊 OSWorld-Verified 桌面任務成功率:GPT-5.4 75.0%(人類 72.4%,GPT-5.2 僅 47.3%)
這代表 GPT-5.4 在桌面任務上首次超越人類平均水準,是 Agentic AI 的里程碑。
百萬 Token 上下文視窗(1M Context)
單次對話可處理相當於數本厚書或數千行程式碼的資訊量,適合長流程 Agent 任務規劃。
工具呼叫效率提升 47%
新的「Tool Search」功能讓 Agent 按需查詢工具定義,不再一次載入全部 Schema,Token 消耗大幅降低。
三個版本定位
  • GPT-5.4 標準版:$2.50 / 百萬輸入 tokens,通用部署首選
  • GPT-5.4 Thinking:推理鏈可視、可介入調整,適合複雜決策工作流
  • GPT-5.4 Pro:$30 / 百萬輸入 tokens,最高效能,適合高精度任務
---

二、Claude 5 Opus:推理能力突破博士水準上限

Anthropic 在 3 月 3 日的突破更像一個學術事件。
Claude 5 Opus 在 GPQA Diamond 基準拿下 87.3%,這是研究者原本預估「還需 2-3 年」才能達到的門檻。
📊 GPQA Diamond 基準:每道題需 PhD 花 2-3 小時才能正確作答,人類專家答對率約 65-70%
📊 Claude 5 Opus 得分:87.3%(前紀錄 79.2%,一次提升 8.1 個百分點)
關鍵發現:這不是靠模型規模堆出來的
突破來自「Extended Thinking」推理模式,同樣的訓練資料,啟用推理模式後比標準模式高出 15 個百分點(72.1% 到 87.3%)。
這說明一件事:推理時算力分配比模型大小更重要,這對企業部署成本結構有深遠影響。
代價是:Extended Thinking 的 Token 消耗是標準模式的 40-50 倍,高精度推理仍然昂貴。
同週,Claude Opus 4.6 解開了 Donald Knuth《電腦程式設計藝術》中一道懸而未決的組合數學問題,Knuth 本人回覆「向 Claude 致敬」。
---

三、Google 雙拳出擊:速度 + 多模態嵌入

Google 在三月連發兩個產品,策略方向截然不同。
Gemini 3.1 Flash-Lite(3 月 3 日)
定位是「高智慧、低成本、高速」的大規模部署版本。
📊 輸入單價:$0.25 / 百萬 tokens(對比 GPT-5.4 的 $2.50,便宜 10 倍)
📊 速度:比 Gemini 2.5 Flash 快 2.5 倍 Time-to-First-Token,輸出速度快 45%
📊 GPQA Diamond:86.9%,在速度/成本極度優化的前提下仍超越多數前代大模型
這個產品針對的是企業高頻低延遲場景:客服 Agent、即時翻譯、文件分類流水線。
Gemini Embedding 2(3 月 10 日)
這是更長遠的布局。全球首個原生多模態嵌入模型,把文字、圖片、影片、音訊、文件全部對映進同一個向量空間。
過去,企業 RAG 系統要分別處理文字和圖片,需要多套嵌入模型拼接。Gemini Embedding 2 讓一個模型同時處理所有模態,大幅降低多模態 AI Agent 的建構成本
---

四、台灣的角色:算力基礎設施的不可替代供應者

三個頂級 AI 模型同步爆發,背後的算力需求全部指向台灣。
TSMC 2nm 供不應求
GPT-5.4、Claude 5、Gemini 3.1 的訓練和推理晶片,清一色跑在 TSMC 先進製程上。
台積電 2 月營收 3,176.57 億元台幣,年增 22.2%,創歷史同期新高。2nm 產線訂單排至 2027 年 Q2,月產能目標從 5 萬片擴張至年底 14 萬片。
CoWoS 封裝成新瓶頸
AI 模型推理需要大量 HBM 記憶體,CoWoS 封裝技術是連接 GPU/ASIC 與 HBM 的關鍵工序。
📊 CoWoS 交期:30-40 週(全球僅台積電具備量產能力)
台積電正將 CoWoS 月產能從 3.5 萬片擴張至 13-15 萬片,即便如此,需求仍超出供給 1.4 倍。
台灣 ASIC 三強受惠
GPT-5.4 的電腦操控能力和 Claude 5 的推理突破,都在加速超大規模雲端商(Hyperscaler)訂製 AI 推理晶片的需求。
  • 聯發科:Google TPU v7e 主要設計夥伴,2026 年 AI ASIC 目標超 10 億美元
  • 世芯-KY:AWS 3nm ASIC 2026 年量產,2nm 訂單確認中
  • 創意電子:Google Axion Arm CPU 量產,2025 年營收年增 36%
📊 全球 AI ASIC 市場:2024 年 130 億美元,2030 年超過 1,500 億美元(年複合成長率 50%)
---

五、企業部署的三個現實挑戰

模型能力突破是一回事,企業實際用起來是另一回事。
挑戰 A:治理與稽核(優先級最高)
根據 Gartner 預測,超過 40% 的 Agentic AI 項目將在 2027 年前失敗,主因不是技術,而是無法通過企業合規審查。GPT-5.4 支援 disabled-by-default 工具存取與完整稽核日誌,正是針對這個痛點。
挑戰 B:推理成本 vs 效能取捨
Claude 5 的 Extended Thinking 模式雖然推理能力頂尖,但成本是標準模式的 40-50 倍。企業需要為不同任務選擇不同模型版本,「AI 模型組合管理」正成為新的工程能力要求。
挑戰 C:遺留系統整合
超過 40% 企業的 Agentic AI 項目卡在舊系統整合問題。GPT-5.4 的原生電腦操控能力提供了一個「不需要 API、直接操作畫面」的折衷方案,但這也帶來新的安全邊界問題。
---

六、關鍵觀察:三強格局的真實競爭邊界

三個模型各有主戰場,不是全面互打。
OpenAI(GPT-5.4):企業 Agentic 工作流、電腦操控、Office/試算表整合
Anthropic(Claude 5):高精度推理、科研輔助、醫療/法律等高風險決策場景
Google(Gemini 系列):高頻低成本部署、多模態 RAG、Search 與 Workspace 生態深度整合
真正的競爭邊界不在模型分數,而在哪家能更深嵌入企業的工作流程
Salesforce 已把支援團隊從 9,000 人縮減至 3,000 人,Goldman Sachs 用 Claude 處理核心金融對帳業務。這些案例說明,模型已從「實驗工具」變成「基礎設施」。
---

七、結語

三月的 AI 模型爆發,標誌著一個轉折:AI 不再只是語言模型,而是能操作工具、處理跨模態資訊、在複雜推理任務上超越人類專家的自主系統
對台灣而言,這是持續加碼的利多。每一個頂級 AI 模型的突破,背後都需要更多的 2nm 晶片、更多的 CoWoS 封裝、更多的 ASIC 設計訂單。
台灣不只是全球 AI 發展的受益者,更是不可替代的基礎設施提供者。
---

References

#ai #tech