場景集
排程自動化 下一個權限管理
場景 8 · AgentOps 評測

上線前,先幫 AI 助理做一次體檢

整理一組「問題 + 標準答案」,讓 AI 助理一次全部作答,系統自動打分、找出答得不好的地方,還會給出具體的改善建議——要不要上線,看數據說話。

測試集
搜尋測試集 ID / 名稱 / 描述
ID
測試集名稱
測試案例數量
建立者
建立時間
最後更新
操作
e5f6g7h8-…
知識庫問答測試集
23
知識管理
2026-04-21 18:04
2026-04-21 18:04
i9j0k1l2-…
API 文件測試集
8
技術文件
2026-03-06 18:16
2026-03-06 18:16
m3n4o5p6-…
內訓助理測試集
30
教育訓練
2026-03-04 14:18
2026-03-04 14:18
q7r8s9t0-…
新功能驗證集
1
產品團隊
2026-01-08 10:57
2026-01-08 10:57
測試集
搜尋測試集 ID / 名稱 / 描述
ID
測試集名稱
測試案例數量
建立者
建立時間
最後更新
操作
e5f6g7h8-…
知識庫問答測試集
23
知識管理
2026-04-21 18:04
2026-04-21 18:04
i9j0k1l2-…
API 文件測試集
8
技術文件
2026-03-06 18:16
2026-03-06 18:16
m3n4o5p6-…
內訓助理測試集
30
教育訓練
2026-03-04 14:18
2026-03-04 14:18
q7r8s9t0-…
新功能驗證集
1
產品團隊
2026-01-08 10:57
2026-01-08 10:57
建立新測試集
* 測試集名稱
客服 FAQ 測試集
測試集描述
包含客戶服務相關的常見問題與解答
基本
測試案例
ID
問題
預期答案
建立方式
操作
無此資料
基本
測試案例
新增測試案例
* 選擇新增方式
手動輸入
* 問題
如何取消已下訂的訂單?
14 / 1000
* 預期答案
出貨前可至訂單頁取消,已出貨需走退貨流程。
22 / 2000
基本
測試案例
ID
問題
預期答案
建立方式
操作
a1b2c3d4-…
退貨流程如何辦理?
7 天內未拆封商品可線上申請退貨,至訂單頁點「申請退貨」
匯入 faq.csv
e5f6g7h8-…
客服服務時間是?
週一至週五 9:00–18:00(國定假日除外)
匯入 faq.csv
i9j0k1l2-…
支援哪些付款方式?
信用卡 / ATM / 超商代碼 / Apple Pay
匯入 faq.csv
m3n4o5p6-…
可以開立統編發票嗎?
結帳時勾選「公司發票」並填入統編即可
匯入 faq.csv
q7r8s9t0-…
如何取消已下訂的訂單?
出貨前可至訂單頁取消,已出貨需走退貨流程
手動輸入
自動化測試
搜尋測試 ID / 名稱 / 描述
全部測試集
全部助理
評測名稱
描述
測試集
AI 助理
成功率
平均秒數
操作
客服 AI 助理 v1 評測
上線前第一版基準評測
客服 FAQ 測試集
客服 AI 助理 v1
83%
11.2
知識庫問答測試
內訓助理上線前驗證
內訓助理測試集
內訓助理
91%
9.6
API 文件問答評測
驗證技術文件助理檢索準確度
API 文件測試集
技術文件助理
100%
6.6
新功能驗證
新版本上線前快速回歸
新功能驗證集
產品助理
0%
共 53 筆 1 2 3 6
自動化測試
測試名稱
測試集
AI 助理
成功率
狀態
客服 AI 助理 v1 評測
客服 FAQ 測試集
客服 AI 助理 v1
83%
已完成
知識庫問答測試
內訓 FAQ
內訓助理
91%
已完成
建立測試
* 名稱
客服 AI 助理 v2 評測
描述
上線前最終驗證
* 選擇測試集
客服 FAQ 測試集
* 選擇 AI 助理
客服 AI 助理 v2
* 選擇評測模型
Claude 4.6 Sonnet (bedrock)
客服 AI 助理 v2 評測
已完成
成功率
93%
28 / 30 測試案例
平均秒數
10.4s
30 測試案例
AI 洞察
評估總結
整體成功率達 93%,品質性評分接近滿分(avg 0.97),表示回答能可靠基於知識庫內容;回答相關性 93%(2 筆失敗,avg 0.81)相對偏低,建議聚焦在使用者意圖匹配的改善。
指標統計
品質性評分
良好
100%
失敗案例 0 / 30 · 平均分 0.97
回答相關性
良好
93%
失敗案例 2 / 30 · 平均分 0.81
改進建議
針對 2 筆回答相關性失敗案例進行細查,確認是否為相似查詢類型(如多義問題或跨領域問題),並調整 prompt 指示或檢索策略。
優先順序 中
原因分析: 回答相關性平均分 0.81 明顯低於品質性 0.97,顯示模型雖能基於知識庫回答,但未必對齊使用者真正意圖。 影響指標: 回答相關性
核心流程
1
打開測試集
在 AgentOps 先看看已經有哪些測試集,再準備新增一組。
2
新增一組測試集
取個一看就懂的名字、加句描述,日後好找。
3
切到測試案例
進到「測試案例」,準備把考題一題一題放進去。
4
放進一題考題
每一筆就是一個「問題」配上「標準答案」,可以手動打,也能用 CSV 一次匯入。
5
考題準備好了
手動和匯入的題目可以混在一起,題目齊了就能開始測。
6
進入自動化測試
切到「自動化測試」,這裡列著每一次測過的紀錄、成功率和平均秒數;按「建立測試」開新的一次。
7
建立一次新測試
選好要測哪組考題、哪個 AI 助理,按下確認就在背景自動作答、打分。
8
看報告做決定
成功率、答得準不準、回答有沒有切題一眼看完;AI 還會幫你點出哪裡答差了、下一步該怎麼改。