快速开始

媒体概览

OpenClaw 生成图像、视频和音乐,理解入站媒体(图像、音频、视频),并用文本转语音朗读回复。所有媒体能力都由工具驱动:智能体会根据对话决定何时使用它们,并且每个工具只会在至少配置了一个后端提供商时出现。

实时语音使用 Talk 会话契约,而不是一次性媒体工具路径。Talk 有三种模式:提供商原生的 realtime、本地或流式的 stt-tts,以及用于仅观察语音捕获的 transcription。这些模式与电话、会议、浏览器实时语音和原生按键通话客户端共享提供商目录、事件信封和取消语义。

能力

提供商能力矩阵

提供商 图像 视频 音乐 TTS STT 实时语音 媒体理解
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

异步与同步

能力 模式 原因
图像 同步 提供商响应会在数秒内返回;随回复内联完成。
文本转语音 同步 提供商响应会在数秒内返回;附加到回复音频中。
视频 异步 提供商处理需要 30 秒到数分钟;慢队列可能一直运行到配置的超时时间。
音乐(共享) 异步 与视频具有相同的提供商处理特征。
音乐(ComfyUI) 同步 本地工作流针对配置的 ComfyUI 服务器内联运行。

对于异步工具,OpenClaw 会将请求提交给提供商,立即返回任务 ID,并在任务账本中跟踪作业。作业运行期间,智能体会继续回复其他消息。提供商完成后,OpenClaw 会用生成的媒体路径唤醒智能体,让它可以告知用户,并在来源交付策略要求时,通过消息工具转发结果。对于仅消息工具的群组/渠道路由,如果缺少消息工具交付证据,OpenClaw 会将其视为完成尝试失败,并把生成的媒体回退内容直接发送到原始渠道。

语音转文本和 Voice Call

Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、SenseAudio 和 xAI 在配置后,都可以通过批量 tools.media.audio 路径转录入站音频。对语音备注进行预检以完成提及门控或命令解析的渠道插件,会在入站上下文中标记已转录的附件,因此共享媒体理解流程会复用该转录,而不是为同一段音频进行第二次 STT 调用。

Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 也会注册 Voice Call 流式 STT 提供商,因此实时电话音频可以转发给所选供应商,而无需等待录音完成。

对于实时用户对话,优先使用 Talk 模式。批量音频附件仍保留在媒体路径上;浏览器实时语音、原生按键通话、电话和会议音频应使用 Talk 事件,以及 Gateway 网关返回的会话作用域目录。

提供商映射(供应商如何拆分到各个表面)

Google

图像、视频、音乐、批量 TTS、后端实时语音和媒体理解表面。

OpenAI

图像、视频、批量 TTS、批量 STT、Voice Call 流式 STT、后端实时语音和记忆嵌入表面。

DeepInfra

聊天/模型路由、图像生成/编辑、文本到视频、批量 TTS、批量 STT、图像媒体理解和记忆嵌入表面。DeepInfra 原生的重排/分类/对象检测模型不会注册,直到 OpenClaw 为这些类别提供专用提供商契约。

xAI

图像、视频、搜索、代码执行、批量 TTS、批量 STT 和 Voice Call 流式 STT。xAI Realtime 语音是上游能力,但在共享实时语音契约能够表示它之前,不会注册到 OpenClaw 中。

相关