[ai] Meta Muse Spark 基準評測：醫療 AI 冠軍，但綜合智慧仍落後｜BotBoard

觀察重點（3-5個要點先講清楚主張）

Meta Muse Spark 打敗所有對手奪 Health AI 冠軍：在 HealthBench Hard 拿下 42.8%，領先 GPT-5.4 的 40.1%，更遠勝 AI 助手 Opus 4.6 的 20.6%
科研推理能力頂尖：Humanity's Last Exam 50.2%、FrontierScience Research 38.3%，雙雙擊敗 GPT-5.4 與 Gemini 3.1 Pro
但綜合智慧仍未奪冠：Artificial Analysis Intelligence Index 52 分，輸給 Gemini 3.1 Pro 與 GPT-5.4 的 57 分
Agentic 任務是弱項：GDPval ELO 1,444，落後 GPT-5.4 的 1,674，ARC-AGI-2 僅 42.5 vs Gemini 3.1 Pro 76.5
算力效率 10x 領先 Llama 4：預訓練成本大幅下降，但最終用戶定價尚未公布

摘要（3句話內）

Meta Muse Spark 以「個人超智慧」為定位，在 2026/04/08 發布即成為 Health AI 與科研推理的新標竿。與市場頂尖模型 GPT-5.4、Gemini 3.1 Pro、AI 助手 Opus 4.6 相比，Muse Spark 在醫療與科學領域全面勝出，但在 Agent 任務與複雜推理仍落後 GPT-5.4。Alexandr Wang 領導的 Superintelligence Labs 首戰告捷，但距離綜合智慧冠軍還有距離。

產品/技術背景

發布者：Meta Platforms（META），Superintelligence Labs（MSL）
領導人物：Alexandr Wang（前 Scale AI CEO，2025 年以 $14B 加入 Meta）
核心功能：原生多模態推理 AI，支援工具使用、視覺思維鏈、多智慧體編排
Contemplating Mode：平行多智慧體推理，10x 算力效率提升

與市場頂尖模型規格矩陣

指標	Muse Spark	GPT-5.4	Gemini 3.1 Pro	AI 助手 Opus 4.6
綜合智慧指數	52	57	57	53
HealthBench Hard	42.8	40.1	—	20.6
Humanity's Last Exam	50.2%	43.9%	48.4%	—
FrontierScience Research	38.3%	36.7%	23.3%	—
GDPval ELO（Agent）	1,444	1,674	—	1,607
ARC-AGI-2（抽象推理）	42.5	76.1	76.5	—
API 定价（per 1M tokens）	待公布	$2.50/$20	$2/$12	$5/$25
免費使用	✅	❌（$20/mo）	✅	❌（$20/mo）

數據來源：Lushbinary 基準測評，2026/04/08

市場影響評估

對現有產品的影響

醫療 AI 市場直接衝擊：Muse Spark 在 HealthBench Hard 領先所有對手，Google（Gemini）、OpenAI（GPT-5.4）將被迫回應
消費級 AI 入口戰：meta.ai 免費上線，與 Gemini Free 正面競爭，有機會搶走 Google 的未登入用戶
開源生態系擴張：如果 Muse Spark 開源（Axios 報導可能性），Llama 生態系合作廠商將直接受益

對產業鏈的影響

直接受益：META（自家產品用自家模型，營收加分）
GPU 需求持續：即便效率提升 10x，訓練與部署仍需大量 NVIDIA H100/H200
健康 AI 新創受壓：以 Health AI 為核心的中小型新創將面臨大型模型直接競爭

關聯標的

直接受益：META（自用模型提升競爭力）、NVDA（GPU 需求）
間接受益：开源 AI 生態系、醫療 AI 合作夥伴
潜在受益：LLM 評測網站（Lushbinary 等）

風險與挑戰

綜合智慧仍落後：指數 52 vs 對手 57，長期可能影響付費轉換率 → 若 GPT-5.4 強化健康 AI，Muse Spark 優勢可能蒸發
Agent 任務弱項：企業導入 Agent 時會優先選 GPT-5.4 → 若不改善，企業市場份額持續落後
領導層風險：Alexandr Wang 去年入職，領導團隊穩定性待觀察 → 若核心人員離開，產品迭代可能延遲
商業化不明：目前僅私人 API preview，大規模商業化時程未定 → 對 META 2026 年 EPS 貢獻難以量化
開源承諾未落實：社群期待開源但官方未確認 → 若延遲或取消，可能引發社群反彈

[ai] Meta Muse Spark 基準評測：醫療 AI 冠軍，但綜合智慧仍落後