Tools
メディア概要
OpenClaw は画像、動画、音楽を生成し、受信メディア (画像、音声、動画)を理解し、テキスト読み上げで返信を音声として読み上げます。すべての メディア機能はツール駆動です。エージェントは会話に基づいて使用タイミングを判断し、 各ツールは少なくとも1つのバックエンド プロバイダーが設定されている場合にのみ表示されます。
ライブ音声は、ワンショットのメディアツール
パスではなく、Talk セッション契約を使用します。Talk には3つのモードがあります。プロバイダーネイティブの realtime、ローカルまたはストリーミングの
stt-tts、観察のみの音声キャプチャ用の transcription です。これらのモードは、
電話、会議、ブラウザーのリアルタイム、ネイティブのプッシュツートーククライアントと、
プロバイダーカタログ、イベントエンベロープ、キャンセルセマンティクスを共有します。
機能
テキストプロンプトまたは参照画像から
image_generate 経由で画像を作成、編集します。同期実行 - 返信内でインラインに完了します。
video_generate 経由でテキストから動画、画像から動画、動画から動画を生成します。
非同期実行 - バックグラウンドで実行され、準備ができると結果を投稿します。
music_generate 経由で音楽またはオーディオトラックを生成します。共有
プロバイダーでは非同期です。ComfyUI ワークフローパスは同期的に実行されます。
tts ツールと
messages.tts 設定を使用して、送信返信を音声オーディオに変換します。同期実行です。
ビジョン対応モデル プロバイダーと専用メディア理解 Plugin を使用して、受信画像、音声、動画を要約します。
バッチ STT または音声通話 ストリーミング STT プロバイダーを通じて受信音声メッセージを書き起こします。
プロバイダー機能マトリックス
| プロバイダー | 画像 | 動画 | 音楽 | TTS | STT | リアルタイム音声 | メディア理解 |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
非同期と同期
| 機能 | モード | 理由 |
|---|---|---|
| 画像 | 同期 | プロバイダーのレスポンスは数秒で返り、返信内でインラインに完了します。 |
| テキスト読み上げ | 同期 | プロバイダーのレスポンスは数秒で返り、返信音声に添付されます。 |
| 動画 | 非同期 | プロバイダー処理には30秒から数分かかります。遅いキューは設定されたタイムアウトまで実行されることがあります。 |
| 音楽(共有) | 非同期 | 動画と同じプロバイダー処理特性です。 |
| 音楽(ComfyUI) | 同期 | ローカルワークフローは、設定された ComfyUI サーバーに対してインラインで実行されます。 |
非同期ツールでは、OpenClaw はリクエストをプロバイダーに送信し、タスク ID を即座に返して、タスク台帳でジョブを追跡します。エージェントはジョブの実行中も 他のメッセージへの応答を続けます。プロバイダーが完了すると、 OpenClaw は生成されたメディアパスとともにエージェントを起動し、エージェントが ユーザーに知らせ、ソース配信ポリシーで必要な場合は、 メッセージツールを通じて結果を中継できるようにします。メッセージツール専用のグループ/チャンネルルートでは、OpenClaw は メッセージツールによる配信証拠の欠落を完了試行の失敗として扱い、 生成されたメディアのフォールバックを元のチャンネルへ直接送信します。
音声テキスト変換と音声通話
Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、SenseAudio、xAI は、設定されている場合、
バッチ tools.media.audio パスを通じて受信音声を書き起こせます。
メンションゲートやコマンド
解析のために音声メモを事前確認するチャンネル Plugin は、受信コンテキスト上で文字起こし済み添付ファイルをマークするため、共有
メディア理解パスは同じ音声に対して2回目の
STT 呼び出しを行う代わりに、その文字起こしを再利用します。
Deepgram、ElevenLabs、Mistral、OpenAI、xAI は音声通話 ストリーミング STT プロバイダーも登録するため、ライブ電話音声を、録音完了を待たずに選択された ベンダーへ転送できます。
ライブのユーザー会話には、Talk モードを優先してください。バッチ音声 添付ファイルはメディアパスに残ります。ブラウザーのリアルタイム、ネイティブのプッシュツートーク、 電話、会議音声は Talk イベントと、Gateway から返されるセッションスコープの カタログを使用する必要があります。
プロバイダーマッピング(ベンダーがサーフェス間でどう分割されるか)
画像、動画、音楽、バッチ TTS、バックエンドのリアルタイム音声、 メディア理解サーフェス。
OpenAI
画像、動画、バッチ TTS、バッチ STT、音声通話ストリーミング STT、バックエンドの リアルタイム音声、メモリ埋め込みサーフェス。
DeepInfra
チャット/モデルルーティング、画像生成/編集、テキストから動画、バッチ TTS、 バッチ STT、画像メディア理解、メモリ埋め込みサーフェス。 DeepInfra ネイティブの再ランキング/分類/物体検出モデルは、それらの カテゴリ専用のプロバイダー契約が OpenClaw に用意されるまで 登録されません。
xAI
画像、動画、検索、コード実行、バッチ TTS、バッチ STT、音声 通話ストリーミング STT。xAI Realtime 音声はアップストリーム機能ですが、 共有リアルタイム音声契約で表現できるようになるまで、 OpenClaw には登録されません。