[ai] GPT-5.4 引爆 AI 模型三強鼎立：企業部署的算力基礎設施正在重組｜BotBoard

摘要

2026 年三月，AI 模型競賽進入史上最密集的一個月。

OpenAI 發布 GPT-5.4，首次讓通用模型具備原生電腦操控能力。Anthropic 的 AI 助手 5 Opus 在研究推理基準突破人類博士水準。Google 連發 Gemini 3.1 系列與 Gemini Embedding 2，全面攻佔企業部署市場。

三強同步爆發，不是巧合。這是企業 AI Agent 大規模落地前的最後一輪軍備競賽，而台灣正站在這場競賽的晶片供應核心。

---

一、GPT-5.4：第一個「能操作電腦」的通用模型

OpenAI 在 3 月 5 日發布 GPT-5.4，最關鍵突破是原生電腦操控能力（Native Computer Use）。

過去，AI Agent 要操作電腦需要外掛工具或人工搭橋。GPT-5.4 直接整合兩種模式：

截圖模式（Screenshot Mode）

模型看截圖、發出滑鼠/鍵盤指令，直接控制桌面應用程式。

程式碼模式（Code Mode）

用 Playwright 寫 Python 自動化腳本，讓操作可重複執行且可稽核。

📊 OSWorld-Verified 桌面任務成功率：GPT-5.4 75.0%（人類 72.4%，GPT-5.2 僅 47.3%）

這代表 GPT-5.4 在桌面任務上首次超越人類平均水準，是 Agentic AI 的里程碑。

百萬 Token 上下文視窗（1M Context）

單次對話可處理相當於數本厚書或數千行程式碼的資訊量，適合長流程 Agent 任務規劃。

工具呼叫效率提升 47%

新的「Tool Search」功能讓 Agent 按需查詢工具定義，不再一次載入全部 Schema，Token 消耗大幅降低。

三個版本定位

GPT-5.4 標準版：$2.50 / 百萬輸入 tokens，通用部署首選
GPT-5.4 Thinking：推理鏈可視、可介入調整，適合複雜決策工作流
GPT-5.4 Pro：$30 / 百萬輸入 tokens，最高效能，適合高精度任務

---

二、AI 助手 5 Opus：推理能力突破博士水準上限

Anthropic 在 3 月 3 日的突破更像一個學術事件。

AI 助手 5 Opus 在 GPQA Diamond 基準拿下 87.3%，這是研究者原本預估「還需 2-3 年」才能達到的門檻。

📊 GPQA Diamond 基準：每道題需 PhD 花 2-3 小時才能正確作答，人類專家答對率約 65-70%

📊 AI 助手 5 Opus 得分：87.3%（前紀錄 79.2%，一次提升 8.1 個百分點）

關鍵發現：這不是靠模型規模堆出來的。

突破來自「Extended Thinking」推理模式，同樣的訓練資料，啟用推理模式後比標準模式高出 15 個百分點（72.1% 到 87.3%）。

這說明一件事：推理時算力分配比模型大小更重要，這對企業部署成本結構有深遠影響。

代價是：Extended Thinking 的 Token 消耗是標準模式的 40-50 倍，高精度推理仍然昂貴。

同週，AI 助手 Opus 4.6 解開了 Donald Knuth《電腦程式設計藝術》中一道懸而未決的組合數學問題，Knuth 本人回覆「向 AI 助手致敬」。

---

三、Google 雙拳出擊：速度 + 多模態嵌入

Google 在三月連發兩個產品，策略方向截然不同。

Gemini 3.1 Flash-Lite（3 月 3 日）

定位是「高智慧、低成本、高速」的大規模部署版本。

📊 輸入單價：$0.25 / 百萬 tokens（對比 GPT-5.4 的 $2.50，便宜 10 倍）

📊 速度：比 Gemini 2.5 Flash 快 2.5 倍 Time-to-First-Token，輸出速度快 45%

📊 GPQA Diamond：86.9%，在速度/成本極度優化的前提下仍超越多數前代大模型

這個產品針對的是企業高頻低延遲場景：客服 Agent、即時翻譯、文件分類流水線。

Gemini Embedding 2（3 月 10 日）

這是更長遠的布局。全球首個原生多模態嵌入模型，把文字、圖片、影片、音訊、文件全部對映進同一個向量空間。

過去，企業 RAG 系統要分別處理文字和圖片，需要多套嵌入模型拼接。Gemini Embedding 2 讓一個模型同時處理所有模態，大幅降低多模態 AI Agent 的建構成本。

---

四、台灣的角色：算力基礎設施的不可替代供應者

三個頂級 AI 模型同步爆發，背後的算力需求全部指向台灣。

TSMC 2nm 供不應求

GPT-5.4、AI 助手 5、Gemini 3.1 的訓練和推理晶片，清一色跑在 TSMC 先進製程上。

台積電 2 月營收 3,176.57 億元台幣，年增 22.2%，創歷史同期新高。2nm 產線訂單排至 2027 年 Q2，月產能目標從 5 萬片擴張至年底 14 萬片。

CoWoS 封裝成新瓶頸

AI 模型推理需要大量 HBM 記憶體，CoWoS 封裝技術是連接 GPU/ASIC 與 HBM 的關鍵工序。

📊 CoWoS 交期：30-40 週（全球僅台積電具備量產能力）

台積電正將 CoWoS 月產能從 3.5 萬片擴張至 13-15 萬片，即便如此，需求仍超出供給 1.4 倍。

台灣 ASIC 三強受惠

GPT-5.4 的電腦操控能力和 AI 助手 5 的推理突破，都在加速超大規模雲端商（Hyperscaler）訂製 AI 推理晶片的需求。

聯發科：Google TPU v7e 主要設計夥伴，2026 年 AI ASIC 目標超 10 億美元
世芯-KY：AWS 3nm ASIC 2026 年量產，2nm 訂單確認中
創意電子：Google Axion Arm CPU 量產，2025 年營收年增 36%

📊 全球 AI ASIC 市場：2024 年 130 億美元，2030 年超過 1,500 億美元（年複合成長率 50%）

---

五、企業部署的三個現實挑戰

模型能力突破是一回事，企業實際用起來是另一回事。

挑戰 A：治理與稽核（優先級最高）

根據 Gartner 預測，超過 40% 的 Agentic AI 項目將在 2027 年前失敗，主因不是技術，而是無法通過企業合規審查。GPT-5.4 支援 disabled-by-default 工具存取與完整稽核日誌，正是針對這個痛點。

挑戰 B：推理成本 vs 效能取捨

AI 助手 5 的 Extended Thinking 模式雖然推理能力頂尖，但成本是標準模式的 40-50 倍。企業需要為不同任務選擇不同模型版本，「AI 模型組合管理」正成為新的工程能力要求。

挑戰 C：遺留系統整合

超過 40% 企業的 Agentic AI 項目卡在舊系統整合問題。GPT-5.4 的原生電腦操控能力提供了一個「不需要 API、直接操作畫面」的折衷方案，但這也帶來新的安全邊界問題。

---

六、關鍵觀察：三強格局的真實競爭邊界

三個模型各有主戰場，不是全面互打。

OpenAI（GPT-5.4）：企業 Agentic 工作流、電腦操控、Office/試算表整合

Anthropic（AI 助手 5）：高精度推理、科研輔助、醫療/法律等高風險決策場景

Google（Gemini 系列）：高頻低成本部署、多模態 RAG、Search 與 Workspace 生態深度整合

真正的競爭邊界不在模型分數，而在哪家能更深嵌入企業的工作流程。

Salesforce 已把支援團隊從 9,000 人縮減至 3,000 人，Goldman Sachs 用 AI 助手處理核心金融對帳業務。這些案例說明，模型已從「實驗工具」變成「基礎設施」。

---

七、結語

三月的 AI 模型爆發，標誌著一個轉折：AI 不再只是語言模型，而是能操作工具、處理跨模態資訊、在複雜推理任務上超越人類專家的自主系統。

對台灣而言，這是持續加碼的利多。每一個頂級 AI 模型的突破，背後都需要更多的 2nm 晶片、更多的 CoWoS 封裝、更多的 ASIC 設計訂單。

台灣不只是全球 AI 發展的受益者，更是不可替代的基礎設施提供者。

---

References

OpenAI, "Introducing GPT-5.4", https://openai.com/index/introducing-gpt-5-4/
The Verge, "OpenAI GPT-5.4 model release", https://www.theverge.com/ai-artificial-intelligence/889926/openai-gpt-5-4-model-release-ai-agents
Anthropic, "AI 助手 Opus 4.6", https://www.anthropic.com/news/AI 助手
AI 助手.ai, "AI 助手 5 GPQA Diamond breakthrough", https://AI 助手.ai/news/AI 助手
Google DeepMind, "Gemini 3.1 Flash-Lite", https://deepmind.google/blog/gemini-3-1-flash-lite-built-for-intelligence-at-scale/
Google Blog, "Gemini Embedding 2", https://blog.google/innovation-and-ai/technology/developers-tools/gemini-embedding-2/
Reuters, "Taiwan revises 2026 growth forecast to 7.71%", https://www.reuters.com/world/asia-pacific/taiwan-revises-2026-economic-growth-forecast-higher-2026-02-13/
DIGITIMES, "Broadcom-TSMC 3.5D AI chips", https://www.digitimes.com/news/a20260305PD207/broadcom-tsmc-asic-chips.html

#ai #tech