AgentOps 評測 · MaiAgent 場景集

測試集

搜尋測試集 ID / 名稱 / 描述

測試集名稱

測試案例數量

建立者

建立時間

最後更新

操作

e5f6g7h8-…

知識庫問答測試集

知識管理

2026-04-21 18:04

i9j0k1l2-…

API 文件測試集

技術文件

2026-03-06 18:16

m3n4o5p6-…

內訓助理測試集

教育訓練

2026-03-04 14:18

q7r8s9t0-…

新功能驗證集

產品團隊

2026-01-08 10:57

測試集

搜尋測試集 ID / 名稱 / 描述

測試集名稱

測試案例數量

建立者

建立時間

最後更新

操作

e5f6g7h8-…

知識庫問答測試集

知識管理

2026-04-21 18:04

i9j0k1l2-…

API 文件測試集

技術文件

2026-03-06 18:16

m3n4o5p6-…

內訓助理測試集

教育訓練

2026-03-04 14:18

q7r8s9t0-…

新功能驗證集

產品團隊

2026-01-08 10:57

建立新測試集

* 測試集名稱

客服 FAQ 測試集

測試集描述

包含客戶服務相關的常見問題與解答

基本

測試案例

問題

預期答案

建立方式

操作

無此資料

基本

測試案例

新增測試案例

* 選擇新增方式

手動輸入

* 問題

如何取消已下訂的訂單？

14 / 1000

* 預期答案

出貨前可至訂單頁取消，已出貨需走退貨流程。

22 / 2000

基本

測試案例

問題

預期答案

建立方式

操作

a1b2c3d4-…

退貨流程如何辦理？

7 天內未拆封商品可線上申請退貨，至訂單頁點「申請退貨」

匯入 faq.csv

e5f6g7h8-…

客服服務時間是？

週一至週五 9:00–18:00（國定假日除外）

匯入 faq.csv

i9j0k1l2-…

支援哪些付款方式？

信用卡 / ATM / 超商代碼 / Apple Pay

匯入 faq.csv

m3n4o5p6-…

可以開立統編發票嗎？

結帳時勾選「公司發票」並填入統編即可

匯入 faq.csv

q7r8s9t0-…

如何取消已下訂的訂單？

出貨前可至訂單頁取消，已出貨需走退貨流程

手動輸入

自動化測試

搜尋測試 ID / 名稱 / 描述

全部測試集

全部助理

評測名稱

描述

測試集

AI 助理

成功率

平均秒數

操作

客服 AI 助理 v1 評測

上線前第一版基準評測

客服 FAQ 測試集

客服 AI 助理 v1

83%

11.2秒

知識庫問答測試

內訓助理上線前驗證

內訓助理測試集

內訓助理

91%

9.6秒

API 文件問答評測

驗證技術文件助理檢索準確度

API 文件測試集

技術文件助理

100%

6.6秒

新功能驗證

新版本上線前快速回歸

新功能驗證集

產品助理

–

共 53 筆 1 2 3 … 6

自動化測試

測試名稱

測試集

AI 助理

成功率

狀態

客服 AI 助理 v1 評測

客服 FAQ 測試集

客服 AI 助理 v1

83%

已完成

知識庫問答測試

內訓 FAQ

內訓助理

91%

已完成

建立測試

* 名稱

客服 AI 助理 v2 評測

描述

上線前最終驗證

* 選擇測試集

客服 FAQ 測試集

* 選擇 AI 助理

客服 AI 助理 v2

* 選擇評測模型

Claude 4.6 Sonnet (bedrock)

客服 AI 助理 v2 評測

已完成

成功率

93%

28 / 30 測試案例

平均秒數

10.4s

30 測試案例

AI 洞察

評估總結

整體成功率達 93%，品質性評分接近滿分（avg 0.97），表示回答能可靠基於知識庫內容；回答相關性 93%（2 筆失敗，avg 0.81）相對偏低，建議聚焦在使用者意圖匹配的改善。

指標統計

品質性評分

良好

100%

失敗案例 0 / 30 · 平均分 0.97

回答相關性

良好

93%

失敗案例 2 / 30 · 平均分 0.81

改進建議

針對 2 筆回答相關性失敗案例進行細查，確認是否為相似查詢類型（如多義問題或跨領域問題），並調整 prompt 指示或檢索策略。

優先順序中

原因分析： 回答相關性平均分 0.81 明顯低於品質性 0.97，顯示模型雖能基於知識庫回答，但未必對齊使用者真正意圖。 影響指標： 回答相關性

核心流程

打開測試集

在 AgentOps 先看看已經有哪些測試集，再準備新增一組。

新增一組測試集

取個一看就懂的名字、加句描述，日後好找。

切到測試案例

進到「測試案例」，準備把考題一題一題放進去。

放進一題考題

每一筆就是一個「問題」配上「標準答案」，可以手動打，也能用 CSV 一次匯入。

考題準備好了

手動和匯入的題目可以混在一起，題目齊了就能開始測。

進入自動化測試

切到「自動化測試」，這裡列著每一次測過的紀錄、成功率和平均秒數；按「建立測試」開新的一次。

建立一次新測試

選好要測哪組考題、哪個 AI 助理，按下確認就在背景自動作答、打分。

看報告做決定

成功率、答得準不準、回答有沒有切題一眼看完；AI 還會幫你點出哪裡答差了、下一步該怎麼改。

上線前，先幫 AI 助理做一次體檢