摘要
2026 年,AI 產業發生一場靜悄悄的結構翻轉——算力重心從「訓練」移向「推論」。
Deloitte 預測推論將佔全球 AI 運算的 2/3,每 token 成本三年暴跌 1000 倍,但總推論支出卻反而成長 320%。這個弔詭現象背後,正是台灣半導體生態系最大的新商機。
---
一、為什麼 2026 是推論元年?
訓練 vs 推論的本質差異
訓練是「一次性建構智慧」,推論是「每次使用都在燒錢的計量器」。
當 AI Agent 24 小時自主運行、每個用戶動作都觸發多輪推論,推論成本變成企業最大的 AI 變動成本。
AI 基礎設施支出中,推論比重:
- 2023:33%
- 2026 預測:55%+,且仍在上升
📊 推論支出成長:320%(即使單 token 成本下跌 280 倍)
這就是 Jevons Paradox 在 AI 世界的重演:讓某樣東西變便宜,人們用得更多。
---
二、NVIDIA Nemotron 3 Super:推論時代的新標竿
3 月 11 日,NVIDIA 在 GTC 前夕發布 Nemotron 3 Super,這款模型直接針對推論瓶頸而生。
架構突破
- 120B 總參數 / 12B 活躍參數:只有 10% 的參數在推論時啟動,大幅壓低算力消耗
- Hybrid Mamba-Transformer MoE:Mamba 層負責長序列,Transformer 層負責精準推理
- Multi-Token Prediction:同時預測多個 token,推論速度提升 3x
- 1M token 上下文窗口:避免 Agent 長任務中的「目標漂移」
📊 吞吐量:比上代 Nemotron Super 提升 5x
📊 精準度:在 PinchBench(OpenClaw Agent 測試基準)得分 85.6%,同尺寸開源模型最高分
NVFP4 精度:針對 Blackwell GPU 原生訓練,推論速度比 H100 上的 FP8 快 4x,記憶體需求大幅降低。
---
三、CoWoS 封裝:推論基礎設施的最後卡口
推論需要大量 HBM(高頻寬記憶體),而連接 GPU/ASIC 與 HBM 的關鍵技術,正是台積電獨家掌握的 CoWoS 先進封裝。
📊 台積電 CoWoS 月產能:35,000 片(2024 底)→ 目標 130,000 片(2026 底),成長近 4x
AP7(嘉義)、AP8(台南)兩座新廠正加速擴產,CoWoS-L 技術支援超越光罩尺寸限制的超大晶片封裝。
推論 AI 晶片的訂單競爭激烈,NVIDIA 鎖定台積電封裝產能超過 60%,Google、Amazon、Meta 自研 ASIC 也在搶佔剩餘產能配額。台灣是推論時代真正的卡口。
---
四、台灣 ASIC 生態系:從代工到自主設計
三支推論 ASIC 新軍
MediaTek 轉型雲端 ASIC
CEO 蔡明介宣示 2026 年 ASIC 營收目標突破 10 億美元,2027 年佔總營收 20%。
主力客戶是 Google TPU v7e/v8e 系列,直接挑戰 Broadcom 的 ASIC 市場龍頭地位。
世芯-KY(Alchip)
專攻 3nm/2nm 超高複雜度 ASIC 量產管理,AWS 3nm 專案預計 2026 量產。
已驗證 70×80mm 超大晶片封裝能力,是超大型推論 ASIC 的隱形冠軍。
創意電子(Global Unichip)
台積電子公司,2025 全年營收 NTD 3,414 億(YoY +36%),主力是 Google Axion Arm 架構 CPU 3nm 量產。
兼具 IP 授權、NRE 設計費、Turn-key 量產三層收入模式。
---
五、推論成本悖論:為什麼便宜反而更貴?
📊 每百萬 token 推論成本:$60(2021)→ $0.06(2026),下跌 1000x
但推論總支出卻上漲 320%。三個原因:
- Agent 化:AI 不再只回答一次,而是 24 小時自主運行
- 多模態:圖片、語音、影片推論單次耗費更多算力
- 上下文爆炸:一個 Multi-agent 任務觸發 15x 更多 token 生成
這對台灣意味著:推論需求永遠不會飽和,CoWoS/ASIC 的訂單能見度極高。
---
六、風險與觀察
- AWS 推論 GPU 價格逆勢上漲 15%(2026 年 1 月),p5e.48xlarge 從 $34.61 升至 $39.80/小時,供給仍不足
- 三星、SK hynix HBM3E 漲價 20% 將推高整體推論成本結構
- Midjourney 案例:從 NVIDIA H100 切換 Google TPU v6e,月推論費從 $210 萬降至 $70 萬,省下年費 $1,680 萬——ASIC 替代 GPU 的商業動機極強
- Intel Foveros、Samsung 封裝積極追趕,但良率與規模差距仍大,台積電護城河至少保持 2-3 年優勢
---
結論:台灣是推論時代的隱形基礎設施
訓練時代,台灣靠晶圓代工維持地位。推論時代,台灣多了三張牌:
封裝(CoWoS)→ 設計(ASIC)→ 系統整合(ODM/OEM)
三層護城河疊加,讓台灣在 AI 推論基礎設施中的角色從「供應商」升級為「不可替代的基礎設施層」。TSMC 的 CoWoS 每月多一萬片,就是全球 AI Agent 多出一輪運算能力的具體實現。
---
References
- NVIDIA Nemotron 3 Super 官方發布(2026-03-11):https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
- NVIDIA Developer Blog - 架構深度解析:https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
- SiliconAngle - Nemotron Super 3 報導(2026-03-12):https://siliconangle.com/2026/03/11/nvidias-nemotron-super-3-model-agentic-systems-launches-five-times-higher-throughput/
- Wedbush / TokenRing AI - TSMC CoWoS 大擴產報告(2026-01-01):https://investor.wedbush.com/wedbush/article/tokenring-2026-1-1-the-great-packaging-pivot-how-tsmc-is-doubling-cowos-capacity-to-break-the-ai-supply-bottleneck-through-2026
- Motley Fool - AI Inference Is the Real Money Maker in 2026(2026-02-24):https://www.fool.com/investing/2026/02/24/forget-training-ai-inference-real-money-maker-avgo/
- SJ Ramblings - The Inference Tax Nobody Budgeted For(2026-02-11):https://sjramblings.io/inference-tax-nobody-budgeted-for/
- SeekingAlpha - TSMC 2026 年 1-2 月合計營收 YoY +29.9%:https://seekingalpha.com/news/4562561-tsmc-jan-feb-revenue-rises-30-amid-strong-global-ai-demand
- Deloitte TMT Predictions 2026:推論佔 AI 算力 2/3
#ai #tech