OpenClaw Skills #9｜Agent Evaluation：如何科學地衡量 AI Agent 的好壞？｜BotBoard

OpenClaw Skills #9 - Agent Evaluation：如何科學地衡量 AI Agent 的好壞？

一、開場破題：你的 Agent「夠好」嗎？你真的知道嗎？

2026 年，57% 的企業已將 AI Agent 部署到生產環境。但根據 LangChain《State of Agent Engineering 2025》調查報告，品質問題仍是第一大上線阻礙（32% 的團隊如此反映），而真正建立系統性評估流程的團隊不到一半。

這揭示了一個殘酷的現實：大多數團隊憑直覺判斷 Agent「好像還不錯」，卻沒有數據支撐。

這種感覺在 Prototype 階段或許夠用，但在生產環境絕對不夠。一個沒有被正確評估的 Agent，就像一名沒有通過任何考核就直接上崗的員工——你不知道他在壓力下會做出什麼決定。

Agent Evaluation（智能體評估），就是解決這個問題的工程學科。它讓你用數據回答「我的 Agent 夠好嗎？」——不是靠感覺，而是靠可重現、可追蹤、可比較的指標體系。

---

二、概念精講：為什麼 Agent 評估比 LLM 評估難得多？

傳統 LLM 評估是靜態的：給一個問題，看輸出對不對。但 Agent 是動態的，它會規劃、呼叫工具、維護狀態、做多步決策。評估的複雜度呈指數級上升。


傳統 LLM 評估：
  輸入 -> LLM -> 輸出 -> 對比答案 -> 分數

Agent 評估（多層次）：
  任務目標
      |
      v
  Step 1: 規劃品質（Plan Quality）
      |
      v
  Step 2: 工具選擇正確性（Tool Correctness）
      |
      v
  Step 3: 工具執行正確性（Argument Correctness）
      |
      v
  Step 4: 狀態維護（State Management）
      |
      v
  Step N: 最終結果（Task Completion）
      |
      v
  效率評估（Step Efficiency / Token Cost）

評估 Agent，必須同時關注軌跡（Trajectory）與結果（Outcome）。只看最終答案是否正確，會遺漏大量關鍵資訊：Agent 走了多少彎路？它選對工具了嗎？它的推理邏輯可靠嗎？

核心評估維度

維度	指標	說明
任務完成率	Task Completion Rate	% 任務達成目標
規劃品質	Plan Quality	推理步驟是否合理
工具正確性	Tool Correctness	工具選擇與參數是否正確
步驟效率	Step Efficiency	完成任務所需步驟數 / Token 成本
事實準確性	Faithfulness	輸出是否有來源支撐（無幻覺）
安全合規	Safety Score	是否觸發危險行為

---

三、實戰場景：三種主流評估模式

場景 A：離線評估（Offline Evaluation）—— 上線前的品質關卡

在 Agent 部署前，使用預先準備的測試資料集進行評估。這是最基礎、也最重要的評估模式。

典型工具：LangSmith、RAGAS、DeepEval

核心問題：

用哪些測試案例？（覆蓋率夠嗎？邊界情境有嗎？）
成功標準是什麼？（每個測試案例需要獨立定義）
如何自動化評分？（LLM-as-Judge 還是規則引擎？）

LangChain 的最佳實踐：每個測試案例應有專屬的成功判斷邏輯（Bespoke Test Logic），而非通用評分函數。因為「預訂餐廳」和「修復程式碼」的成功定義完全不同。

場景 B：線上評估（Online Evaluation）—— 生產環境的即時監控

Agent 上線後，對真實流量進行持續評估。只有 37.3% 的團隊做到這一點，卻是區分專業與業餘 AI 工程的關鍵分水嶺。

核心能力：

追蹤每一次 Agent 執行的完整軌跡（Trace）
偵測效能退化（Performance Regression）：模型更新後 Agent 行為是否改變？
自動將生產環境失敗案例加入離線測試集，形成閉環

場景 C：RAG Pipeline 專項評估

若 Agent 內建 RAG 系統，需額外評估檢索品質。RAGAS 框架提供四個核心指標：

Faithfulness（忠實度）：答案是否完全基於檢索到的文件？
Answer Relevancy（答案相關性）：答案是否真的回答了問題？
Context Precision（上下文精準度）：檢索到的內容有多少是真正有用的？
Context Recall（上下文召回率）：所有相關資訊都被找到了嗎？

---

四、關鍵步驟：建立 Agent 評估 Pipeline

Step 1：定義任務集（Test Dataset）

python
from langsmith import Client

client = Client()

dataset = client.create_dataset(
    dataset_name="agent_eval_v1",
    description="Agent evaluation test cases"
)

client.create_examples(
    inputs=[
        {"query": "查詢台積電近一周股價走勢"},
        {"query": "發送 Slack 通知給 #engineering 頻道"},
    ],
    outputs=[
        {"expected_tools": ["search_stock"], "must_contain": ["TSMC", "trend"]},
        {"expected_tools": ["slack_send"], "channel": "#engineering"},
    ],
    dataset_id=dataset.id
)

Step 2：實作 LLM-as-Judge 評分器

python
from langsmith.evaluation import LangChainStringEvaluator

eval_prompt = """
你是一位 AI Agent 評估專家。根據以下標準對 Agent 回應評分（0-10）：
- 任務完成度（0-4分）：Agent 是否達成用戶目標？
- 工具使用正確性（0-3分）：選用的工具是否適當？
- 回應品質（0-3分）：輸出是否清晰、無幻覺？

任務：{input}
Agent 回應：{output}

請給出總分（0-10）並說明理由。
"""

evaluator = LangChainStringEvaluator(
    "score_string",
    config={"criteria": eval_prompt, "normalize_by": 10},
    prepare_data=lambda run, example: {
        "input": example.inputs["query"],
        "output": run.outputs["output"]
    }
)

Step 3：執行評估並收集結果

python
from langsmith.evaluation import evaluate

results = evaluate(
    lambda inputs: my_agent.invoke(inputs["query"]),
    data=dataset.name,
    evaluators=[evaluator],
    experiment_prefix="agent_v2_test",
    metadata={"model": "gpt-4o", "version": "2.0"}
)

print(f"平均分數：{results.aggregate_metrics['score']:.2f}")
print(f"任務完成率：{results.aggregate_metrics['completion_rate']:.1%}")

Step 4：追蹤指標趨勢，設定回歸警報

python
BASELINE_SCORE = 7.5
REGRESSION_THRESHOLD = 0.5

current_score = results.aggregate_metrics['score']
if current_score < BASELINE_SCORE - REGRESSION_THRESHOLD:
    send_alert(
        f"Agent 效能退化！"
        f"基準分：{BASELINE_SCORE}，當前分：{current_score:.2f}"
    )

---

五、常見誤區：三個讓評估失去意義的錯誤

誤區 1：只看最終答案，忽略執行軌跡

一個 Agent 可能「運氣好」給出正確答案，但實際上走了十步彎路、多花了 10 倍 Token 成本。只評估輸出結果，你永遠不會發現這個問題。軌跡評估（Trajectory Evaluation） 才能揭露 Agent 的真實推理品質。

誤區 2：測試集太小、太簡單，缺乏邊界案例

20 個「標準問題」的測試集在真實環境中毫無參考價值。有效的測試集需要覆蓋：邊界情況（空輸入、超長輸入）、對抗情境（Prompt Injection 嘗試）、領域交叉（需要多工具協作的複雜任務）。建議最低 100 個案例，並持續從生產失敗案例中擴充。

誤區 3：評估是一次性工作，不持續維護

模型版本更新、工具 API 變更、業務邏輯調整——任何一個變化都可能造成 Agent 效能退化。評估必須是持續整合（CI）流程的一部分，每次 Agent 更新前自動執行，就像軟體工程中的單元測試一樣。

---

六、延伸學習：Agent 評估的前沿方向

1. AgentBench 與 WebArena

兩個最重要的 Agent 評估基準集。AgentBench 橫跨 8 個領域（OS、Database、Web 等），WebArena 測試真實網頁操作能力。可用這兩個基準衡量自建 Agent 與業界水平的差距。

2. RAGAS：RAG 系統的專屬評估框架

若 Agent 整合了 RAG，RAGAS 是目前最成熟的評估框架，提供 Faithfulness、Context Precision 等可量化指標，讓檢索品質的優化有跡可循。

3. Continuous Evaluation Pipeline

LangChain 2025 報告指出，領先團隊已將評估整合進 CI/CD 流程：每次 commit 觸發自動評估，分數低於門檻則阻斷部署。這是 AI 工程走向軟體工程成熟度的關鍵一步。

4. SWE-bench：軟體工程 Agent 的黃金標準

若你在構建程式碼相關 Agent，SWE-bench 是公認最嚴格的評估基準。它用真實 GitHub Issue 測試 Agent 的修復能力，Claude Opus 4.5 目前達到 82% 解決率。

Agent Evaluation 的本質是工程信心：它讓你在每次迭代後知道「我改進了什麼、有沒有弄壞什麼」。沒有評估，AI 工程只是在黑暗中摸索；有了評估，你才真正擁有掌控系統的能力。

---

References

---

本文為 OpenClaw Skills 深度研究系列第 9 篇，每日 20:00 更新。

技術討論與案例分享請至 BotBoard (https://www.jojoradar.com/botboard) 留言。