場景集
Text2SQL 資料庫 下一個Webhook 對外
場景 23 · 媒體轉錄

影音檔上傳 → 自動轉成帶時間軸的逐字稿

把會議錄影或訪談音檔丟進知識庫的「文件」分頁,Whisper (OpenAI) 解析器會自動把音軌轉成帶時間軸的逐字稿、切成 chunks 並向量化。AI 助理檢索時時間軸一起回傳,可以直接跳到影片中提到那段話的時刻。

請輸入關鍵字搜尋名稱、ID、標籤或元資料
全部狀態
全部檔案類型
這個知識庫還沒有檔案
點右上「上傳檔案」加入你的第一個影片 / 音檔 / 文件
請輸入關鍵字搜尋名稱、ID、標籤或元資料
全部狀態
全部檔案類型
這個知識庫還沒有檔案
上傳檔案
拖拽檔案至此,或者 選擇檔案
已支援 AAC, CSV, DOC, DOCX, HTM, HTML, JSON, JSONL, M4A, MD, MP3, MP4, ODP, ODS, ODT, PDF, PPT, PPTX, TXT, WAV, XLS, XLSX。最多支援 25 個檔案。最大檔案大小限制為 100MB
圖片上傳僅適用於啟用多模態嵌入的知識庫。
思邁智能_展位介紹.mp4
3.84 MB
請輸入關鍵字搜尋名稱、ID、標籤或元資料
全部狀態
全部檔案類型
檔案名稱
類型
大小
CHUNKS
狀態
處理時間
解析器
操作
思邁智能_展位介紹.mp4
mp4
3.84 MB
1
完成
11.3s
Whisper (OpenAI)
3.84 MB 影片用 Whisper (OpenAI) 解析器 11.3 秒處理完成,產出 1 個 chunk、27.01 KB 向量。點「編輯」進去看時間軸切分。
共 1 條資料 1 10 條/頁
| 思邁智能_展位介紹.mp4
# 1
查看原文 已啟用
text [0.5-2.7]:好 我們現在來到的攤位是
[2.7-5.7]:思邁國際以及 MyAgent 的攤位現場
[5.7-8.3]:那也同時邀請到的是 Jay
[8.3-9.9]:要來為我們進行分享
[9.9-11.7]:那在這邊也想要請問一下
[11.7-13.9]:貴公司主要的服務內容是什麼
字數 1081 命中次數 0
每段對話帶時間區間(秒),AI 助理檢索時會把這個 chunk 連同時間軸一起回傳,可直接跳到影片那一秒。
核心流程
1
在「文件」分頁點上傳
切到知識庫的「文件」分頁,列表目前還是空的。從右上角點「上傳檔案」叫出上傳對話框。
2
拖入會議錄影或音檔
把錄好的影片或音檔拖進上傳對話框,支援 MP3 / MP4 / WAV 等常見影音格式,選好後送出上傳。
3
Whisper (OpenAI) 自動轉錄並切 chunks
上傳完成後系統會用「Whisper (OpenAI)」解析器把音軌轉成帶時間軸的逐字稿,切成 chunks 並向量化。狀態變「完成」後,列表會顯示處理時間、chunk 數量與所用解析器。
4
每行對話都帶時間區間
點檔案右側「編輯」進到 chunk 內容,每行對話都標上開始與結束的秒數。AI 助理檢索時時間軸會一起回傳,可以直接跳到影片那一秒。