Tools

媒體概覽

OpenClaw 會產生圖片、影片與音樂、理解傳入媒體(圖片、音訊、影片),並透過文字轉語音朗讀回覆。所有媒體能力都由工具驅動:代理會根據對話決定何時使用它們,而且每個工具只會在至少設定一個支援提供者時出現。

即時語音使用 Talk 工作階段合約,而不是一次性媒體工具路徑。Talk 有三種模式:提供者原生的 realtime、本機或串流式 stt-tts,以及用於僅觀察語音擷取的 transcription。這些模式會與電話、會議、瀏覽器即時通訊,以及原生按住說話用戶端共用提供者目錄、事件封套與取消語意。

能力

提供者能力矩陣

提供者 圖片 影片 音樂 TTS STT 即時語音 媒體理解
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

非同步與同步

能力 模式 原因
圖片 同步 提供者回應會在數秒內返回;隨回覆內嵌完成。
文字轉語音 同步 提供者回應會在數秒內返回;附加到回覆音訊。
影片 非同步 提供者處理需要 30 秒到數分鐘;緩慢佇列可能會執行到設定的逾時時間。
音樂(共用) 非同步 與影片相同的提供者處理特性。
音樂(ComfyUI) 同步 本機工作流程會對設定的 ComfyUI 伺服器內嵌執行。

對於非同步工具,OpenClaw 會將請求提交給提供者、立即返回任務 ID,並在任務分類帳中追蹤工作。代理會在工作執行期間繼續回應其他訊息。提供者完成後,OpenClaw 會以產生的媒體路徑喚醒代理,讓它告知使用者,並在來源傳遞政策要求時,透過訊息工具轉送結果。對於僅限訊息工具的群組/頻道路由,OpenClaw 會將缺少訊息工具傳遞證據視為完成嘗試失敗,並直接將產生的媒體備援傳送到原始頻道。

語音轉文字與 Voice Call

Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、SenseAudio 與 xAI 在設定後,都能透過批次 tools.media.audio 路徑轉錄傳入音訊。頻道 Plugin 若為了提及閘控或命令剖析而預先檢查語音備註,會在傳入內容上標記已轉錄的附件,因此共用媒體理解流程會重用該逐字稿,而不是對同一段音訊進行第二次 STT 呼叫。

Deepgram、ElevenLabs、Mistral、OpenAI 與 xAI 也會註冊 Voice Call 串流 STT 提供者,因此即時電話音訊可轉送給選定供應商,而不必等待錄音完成。

對於即時使用者對話,請優先使用 Talk 模式。批次音訊附件會留在媒體路徑上;瀏覽器即時通訊、原生按住說話、電話與會議音訊應使用 Talk 事件,以及 Gateway 返回的工作階段範圍目錄。

提供者對應(供應商如何分布於各介面)

Google

圖片、影片、音樂、批次 TTS、後端即時語音,以及媒體理解介面。

OpenAI

圖片、影片、批次 TTS、批次 STT、Voice Call 串流 STT、後端即時語音,以及記憶嵌入介面。

DeepInfra

聊天/模型路由、圖片產生/編輯、文字轉影片、批次 TTS、批次 STT、圖片媒體理解,以及記憶嵌入介面。DeepInfra 原生的重新排序/分類/物件偵測模型要等到 OpenClaw 擁有這些類別的專用提供者合約後,才會註冊。

xAI

圖片、影片、搜尋、程式碼執行、批次 TTS、批次 STT,以及 Voice Call 串流 STT。xAI Realtime 語音是上游能力,但在共用即時語音合約能表示它之前,不會在 OpenClaw 中註冊。

相關