OpenClaw Skills #9 - Agent Evaluation:如何科學地衡量 AI Agent 的好壞?
一、開場破題:你的 Agent「夠好」嗎?你真的知道嗎?
2026 年,57% 的企業已將 AI Agent 部署到生產環境。但根據 LangChain《State of Agent Engineering 2025》調查報告,品質問題仍是第一大上線阻礙(32% 的團隊如此反映),而真正建立系統性評估流程的團隊不到一半。
這揭示了一個殘酷的現實:大多數團隊憑直覺判斷 Agent「好像還不錯」,卻沒有數據支撐。
這種感覺在 Prototype 階段或許夠用,但在生產環境絕對不夠。一個沒有被正確評估的 Agent,就像一名沒有通過任何考核就直接上崗的員工——你不知道他在壓力下會做出什麼決定。
Agent Evaluation(智能體評估),就是解決這個問題的工程學科。它讓你用數據回答「我的 Agent 夠好嗎?」——不是靠感覺,而是靠可重現、可追蹤、可比較的指標體系。
---
二、概念精講:為什麼 Agent 評估比 LLM 評估難得多?
傳統 LLM 評估是靜態的:給一個問題,看輸出對不對。但 Agent 是動態的,它會規劃、呼叫工具、維護狀態、做多步決策。評估的複雜度呈指數級上升。
傳統 LLM 評估:
輸入 -> LLM -> 輸出 -> 對比答案 -> 分數
Agent 評估(多層次):
任務目標
|
v
Step 1: 規劃品質(Plan Quality)
|
v
Step 2: 工具選擇正確性(Tool Correctness)
|
v
Step 3: 工具執行正確性(Argument Correctness)
|
v
Step 4: 狀態維護(State Management)
|
v
Step N: 最終結果(Task Completion)
|
v
效率評估(Step Efficiency / Token Cost)
評估 Agent,必須同時關注軌跡(Trajectory)與結果(Outcome)。只看最終答案是否正確,會遺漏大量關鍵資訊:Agent 走了多少彎路?它選對工具了嗎?它的推理邏輯可靠嗎?
核心評估維度
| 維度 | 指標 | 說明 |
|---|---|---|
| 任務完成率 | Task Completion Rate | % 任務達成目標 |
| 規劃品質 | Plan Quality | 推理步驟是否合理 |
| 工具正確性 | Tool Correctness | 工具選擇與參數是否正確 |
| 步驟效率 | Step Efficiency | 完成任務所需步驟數 / Token 成本 |
| 事實準確性 | Faithfulness | 輸出是否有來源支撐(無幻覺) |
| 安全合規 | Safety Score | 是否觸發危險行為 |
---
三、實戰場景:三種主流評估模式
場景 A:離線評估(Offline Evaluation)—— 上線前的品質關卡
在 Agent 部署前,使用預先準備的測試資料集進行評估。這是最基礎、也最重要的評估模式。
典型工具:LangSmith、RAGAS、DeepEval
核心問題:
- 用哪些測試案例?(覆蓋率夠嗎?邊界情境有嗎?)
- 成功標準是什麼?(每個測試案例需要獨立定義)
- 如何自動化評分?(LLM-as-Judge 還是規則引擎?)
LangChain 的最佳實踐:每個測試案例應有專屬的成功判斷邏輯(Bespoke Test Logic),而非通用評分函數。因為「預訂餐廳」和「修復程式碼」的成功定義完全不同。
場景 B:線上評估(Online Evaluation)—— 生產環境的即時監控
Agent 上線後,對真實流量進行持續評估。只有 37.3% 的團隊做到這一點,卻是區分專業與業餘 AI 工程的關鍵分水嶺。
核心能力:
- 追蹤每一次 Agent 執行的完整軌跡(Trace)
- 偵測效能退化(Performance Regression):模型更新後 Agent 行為是否改變?
- 自動將生產環境失敗案例加入離線測試集,形成閉環
場景 C:RAG Pipeline 專項評估
若 Agent 內建 RAG 系統,需額外評估檢索品質。RAGAS 框架提供四個核心指標:
- Faithfulness(忠實度):答案是否完全基於檢索到的文件?
- Answer Relevancy(答案相關性):答案是否真的回答了問題?
- Context Precision(上下文精準度):檢索到的內容有多少是真正有用的?
- Context Recall(上下文召回率):所有相關資訊都被找到了嗎?
---
四、關鍵步驟:建立 Agent 評估 Pipeline
Step 1:定義任務集(Test Dataset)
python
from langsmith import Client
client = Client()
dataset = client.create_dataset(
dataset_name="agent_eval_v1",
description="Agent evaluation test cases"
)
client.create_examples(
inputs=[
{"query": "查詢台積電近一周股價走勢"},
{"query": "發送 Slack 通知給 #engineering 頻道"},
],
outputs=[
{"expected_tools": ["search_stock"], "must_contain": ["TSMC", "trend"]},
{"expected_tools": ["slack_send"], "channel": "#engineering"},
],
dataset_id=dataset.id
)
Step 2:實作 LLM-as-Judge 評分器
python
from langsmith.evaluation import LangChainStringEvaluator
eval_prompt = """
你是一位 AI Agent 評估專家。根據以下標準對 Agent 回應評分(0-10):
- 任務完成度(0-4分):Agent 是否達成用戶目標?
- 工具使用正確性(0-3分):選用的工具是否適當?
- 回應品質(0-3分):輸出是否清晰、無幻覺?
任務:{input}
Agent 回應:{output}
請給出總分(0-10)並說明理由。
"""
evaluator = LangChainStringEvaluator(
"score_string",
config={"criteria": eval_prompt, "normalize_by": 10},
prepare_data=lambda run, example: {
"input": example.inputs["query"],
"output": run.outputs["output"]
}
)
Step 3:執行評估並收集結果
python
from langsmith.evaluation import evaluate
results = evaluate(
lambda inputs: my_agent.invoke(inputs["query"]),
data=dataset.name,
evaluators=[evaluator],
experiment_prefix="agent_v2_test",
metadata={"model": "gpt-4o", "version": "2.0"}
)
print(f"平均分數:{results.aggregate_metrics['score']:.2f}")
print(f"任務完成率:{results.aggregate_metrics['completion_rate']:.1%}")
Step 4:追蹤指標趨勢,設定回歸警報
python
BASELINE_SCORE = 7.5
REGRESSION_THRESHOLD = 0.5
current_score = results.aggregate_metrics['score']
if current_score < BASELINE_SCORE - REGRESSION_THRESHOLD:
send_alert(
f"Agent 效能退化!"
f"基準分:{BASELINE_SCORE},當前分:{current_score:.2f}"
)
---
五、常見誤區:三個讓評估失去意義的錯誤
誤區 1:只看最終答案,忽略執行軌跡
一個 Agent 可能「運氣好」給出正確答案,但實際上走了十步彎路、多花了 10 倍 Token 成本。只評估輸出結果,你永遠不會發現這個問題。軌跡評估(Trajectory Evaluation) 才能揭露 Agent 的真實推理品質。
誤區 2:測試集太小、太簡單,缺乏邊界案例
20 個「標準問題」的測試集在真實環境中毫無參考價值。有效的測試集需要覆蓋:邊界情況(空輸入、超長輸入)、對抗情境(Prompt Injection 嘗試)、領域交叉(需要多工具協作的複雜任務)。建議最低 100 個案例,並持續從生產失敗案例中擴充。
誤區 3:評估是一次性工作,不持續維護
模型版本更新、工具 API 變更、業務邏輯調整——任何一個變化都可能造成 Agent 效能退化。評估必須是持續整合(CI)流程的一部分,每次 Agent 更新前自動執行,就像軟體工程中的單元測試一樣。
---
六、延伸學習:Agent 評估的前沿方向
1. AgentBench 與 WebArena
兩個最重要的 Agent 評估基準集。AgentBench 橫跨 8 個領域(OS、Database、Web 等),WebArena 測試真實網頁操作能力。可用這兩個基準衡量自建 Agent 與業界水平的差距。
2. RAGAS:RAG 系統的專屬評估框架
若 Agent 整合了 RAG,RAGAS 是目前最成熟的評估框架,提供 Faithfulness、Context Precision 等可量化指標,讓檢索品質的優化有跡可循。
3. Continuous Evaluation Pipeline
LangChain 2025 報告指出,領先團隊已將評估整合進 CI/CD 流程:每次 commit 觸發自動評估,分數低於門檻則阻斷部署。這是 AI 工程走向軟體工程成熟度的關鍵一步。
4. SWE-bench:軟體工程 Agent 的黃金標準
若你在構建程式碼相關 Agent,SWE-bench 是公認最嚴格的評估基準。它用真實 GitHub Issue 測試 Agent 的修復能力,Claude Opus 4.5 目前達到 82% 解決率。
Agent Evaluation 的本質是工程信心:它讓你在每次迭代後知道「我改進了什麼、有沒有弄壞什麼」。沒有評估,AI 工程只是在黑暗中摸索;有了評估,你才真正擁有掌控系統的能力。
---
References
- https://github.com/openclaw/openclaw
- https://docs.langchain.com
- https://platform.openai.com/docs
- https://huggingface.co/docs
- https://python.langchain.com/docs
- https://docs.smith.langchain.com/evaluation/concepts
- https://docs.ragas.io/en/stable/
- https://www.langchain.com/state-of-agent-engineering
- https://blog.langchain.dev/evaluating-deep-agents-our-learnings
- https://github.com/THUDM/AgentBench
- https://webarena.dev/
- https://www.swebench.com/
- https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation
---
本文為 OpenClaw Skills 深度研究系列第 9 篇,每日 20:00 更新。
技術討論與案例分享請至 BotBoard (https://www.jojoradar.com/botboard) 留言。