Tools
Огляд медіа
OpenClaw генерує зображення, відео й музику, розуміє вхідні медіа (зображення, аудіо, відео) та озвучує відповіді за допомогою синтезу мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли їх використовувати, залежно від розмови, і кожен інструмент з’являється лише тоді, коли налаштовано принаймні одного базового провайдера.
Живе мовлення використовує контракт Talk-сесії замість шляху одноразового медіаінструмента.
Talk має три режими: провайдерний realtime, локальний або потоковий
stt-tts і transcription для мовленнєвого захоплення лише для спостереження. Ці режими
спільно використовують каталоги провайдерів, конверти подій і семантику скасування з
телефонією, зустрічами, браузерним realtime і нативними клієнтами push-to-talk.
Можливості
Створюйте й редагуйте зображення з текстових підказок або референсних зображень через
image_generate. Синхронно — завершується вбудовано разом із відповіддю.
Текст-у-відео, зображення-у-відео та відео-у-відео через video_generate.
Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.
Генеруйте музику або аудіодоріжки через music_generate. Асинхронно на спільних
провайдерах; шлях робочого процесу ComfyUI виконується синхронно.
Перетворюйте вихідні відповіді на озвучене аудіо через інструмент tts плюс
конфігурацію messages.tts. Синхронно.
Узагальнюйте вхідні зображення, аудіо й відео за допомогою провайдерів моделей із підтримкою зору та спеціалізованих plugins розуміння медіа.
Транскрибуйте вхідні голосові повідомлення через пакетний STT або провайдерів потокового STT для Voice Call.
Матриця можливостей провайдерів
| Провайдер | Зображення | Відео | Музика | TTS | STT | Realtime voice | Розуміння медіа |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Асинхронно чи синхронно
| Можливість | Режим | Чому |
|---|---|---|
| Зображення | Синхронно | Відповіді провайдера повертаються за секунди; завершується вбудовано разом із відповіддю. |
| Синтез мовлення | Синхронно | Відповіді провайдера повертаються за секунди; додається до аудіо відповіді. |
| Відео | Асинхронно | Обробка провайдером займає від 30 с до кількох хвилин; повільні черги можуть працювати до налаштованого тайм-ауту. |
| Музика (спільна) | Асинхронно | Та сама характеристика обробки провайдером, що й для відео. |
| Музика (ComfyUI) | Синхронно | Локальний робочий процес виконується вбудовано на налаштованому сервері ComfyUI. |
Для асинхронних інструментів OpenClaw надсилає запит провайдеру, негайно повертає ідентифікатор завдання й відстежує роботу в журналі завдань. Агент продовжує відповідати на інші повідомлення, поки робота виконується. Коли провайдер завершує, OpenClaw пробуджує агента зі шляхами до згенерованих медіа, щоб він міг повідомити користувача і, коли це вимагається політикою доставки джерела, передати результат через інструмент повідомлень. Для групових/канальних маршрутів лише з інструментом повідомлень OpenClaw вважає відсутність доказу доставки інструментом повідомлень невдалою спробою завершення й надсилає резервні згенеровані медіа безпосередньо в оригінальний канал.
Перетворення мовлення на текст і Voice Call
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio та xAI можуть транскрибувати
вхідне аудіо через пакетний шлях tools.media.audio, коли їх налаштовано.
Channel plugins, які попередньо перевіряють голосову нотатку для mention gating або розбору
команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний
прохід розуміння медіа повторно використовує цей транскрипт замість другого виклику
STT для того самого аудіо.
Deepgram, ElevenLabs, Mistral, OpenAI і xAI також реєструють провайдерів потокового STT для Voice Call, тож живе телефонне аудіо можна переспрямувати вибраному постачальнику без очікування завершеного запису.
Для живих розмов із користувачем надавайте перевагу режиму Talk. Пакетні аудіо вкладення залишаються на медіашляху; браузерний realtime, нативний push-to-talk, телефонія та аудіо зустрічей мають використовувати події Talk і сесійні каталоги, які повертає Gateway.
Зіставлення провайдерів (як постачальники розподіляються між поверхнями)
Зображення, відео, музика, пакетний TTS, backend realtime voice і поверхні розуміння медіа.
OpenAI
Зображення, відео, пакетний TTS, пакетний STT, потоковий STT для Voice Call, backend realtime voice і поверхні embedding пам’яті.
DeepInfra
Маршрутизація чату/моделей, генерація/редагування зображень, текст-у-відео, пакетний TTS, пакетний STT, розуміння медіа зображень і поверхні embedding пам’яті. Нативні для DeepInfra моделі rerank/classification/object-detection не реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих категорій.
xAI
Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для Voice Call. xAI Realtime voice є upstream-можливістю, але її не зареєстровано в OpenClaw, доки спільний контракт realtime-voice не зможе її представляти.