場景集
會議記錄 下一個權限管理
場景 8 · AgentOps 評測

用數據決定 Agent 該不該上線

準備測試資料集 → 對多個 Agent 版本(不同 prompt / 模型 / 工具組合)跑批次評測 → 看數據決策該推哪一版。從「憑感覺」升級到「有依據」。

資料集說明
從 2026 Q1 真實客服對話中抽樣 100 筆,每筆含「客戶問題」+「人工標註的標準答覆」+「品質指標分數」。 用來評測各版本 Agent 的回覆品質、首次解決率、語氣自然度。
100
測試案例
4
評測指標
12
已執行評測
3
準備評測中
案例樣本(顯示 4 / 100)
類別
客戶問題
標準答覆(人工)
難度
退貨
「我前天買的東西想退貨,可以嗎?」
確認訂單時間 7 天內,引導至退貨頁面,提供 RMA 編號
簡單
訂閱
「我的訂閱被扣兩次款,怎麼辦?」
查 Stripe 訂單,確認重複扣款,發起退款 + 補償方案
投訴
「客服上次根本沒解決問題,我要投訴!」
先安撫情緒、查歷史、轉接資深專員,避免 AI 自行處理
技術
「為什麼我的整合 webhook 一直 timeout?」
查 API logs、確認連線狀態、提供 Trace ID 給工程
V1
V1 — Baseline
原始提示詞 · GPT-4o-mini
✓ 已完成 · 1m 24s
100 / 100 完成 準確度 76%
V2
V2 — 加入語氣親切度微調
改 prompt + 加 few-shot 範例
執行中
62 / 100 完成 預計剩 32s
V3
V3 — 接 Stripe 即時帳號查詢
V2 + 新增 stripe.lookup 工具
等待中
0 / 100
即時指標串流(Streaming Metrics)
平均延遲
2.1s
Token 用量
142K
工具呼叫
38
當前準確度
84% ↑
AI 評測摘要
建議部署 V3:首次解決率提升 +12%,整體準確度 87%,雖然平均延遲增加 1.2s,但對退款類問題(Stripe 工具最有用的場景)解決率達 96%。 建議搭配 V2 作為簡單問題的快速通道(路由策略已在 PR #284)。
指標對比
指標
V1 Baseline
V2 親切度
V3 + Stripe
準確度
76%
78% ↑ 2%
87% ↑ 11%
首次解決率
62%
66% ↑ 4%
74% ↑ 12%
語氣親切度
3.2 / 5
4.1 / 5 ↑ 28%
4.0 / 5 ↑ 25%
平均延遲
1.6s
1.8s ↑ 0.2s
2.8s ↑ 1.2s
每次成本
$0.012
$0.014
$0.018
📊 看每個案例的細節 🔄 再跑一次評測 📨 寄報告給團隊
核心流程
1
準備測試資料集
100 個真實案例,每筆含問題、標準答覆、難度。可從歷史對話直接抽。
2
跑批次評測
3 個版本(不同 prompt / 模型 / 工具)並行評測。即時看進度與當前指標。
3
數據驅動決策
看 4 大指標對比 + AI 自動產出建議。不再憑感覺,每次升級都有依據。