Tools

Огляд медіа

OpenClaw генерує зображення, відео й музику, розуміє вхідні медіа (зображення, аудіо, відео) та озвучує відповіді за допомогою синтезу мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли їх використовувати, залежно від розмови, і кожен інструмент з’являється лише тоді, коли налаштовано принаймні одного базового провайдера.

Живе мовлення використовує контракт Talk-сесії замість шляху одноразового медіаінструмента. Talk має три режими: провайдерний realtime, локальний або потоковий stt-tts і transcription для мовленнєвого захоплення лише для спостереження. Ці режими спільно використовують каталоги провайдерів, конверти подій і семантику скасування з телефонією, зустрічами, браузерним realtime і нативними клієнтами push-to-talk.

Можливості

Генерація зображень

Створюйте й редагуйте зображення з текстових підказок або референсних зображень через image_generate. Синхронно — завершується вбудовано разом із відповіддю.

Генерація відео

Текст-у-відео, зображення-у-відео та відео-у-відео через video_generate. Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.

Генерація музики

Генеруйте музику або аудіодоріжки через music_generate. Асинхронно на спільних провайдерах; шлях робочого процесу ComfyUI виконується синхронно.

Синтез мовлення

Перетворюйте вихідні відповіді на озвучене аудіо через інструмент tts плюс конфігурацію messages.tts. Синхронно.

Розуміння медіа

Узагальнюйте вхідні зображення, аудіо й відео за допомогою провайдерів моделей із підтримкою зору та спеціалізованих plugins розуміння медіа.

Перетворення мовлення на текст

Транскрибуйте вхідні голосові повідомлення через пакетний STT або провайдерів потокового STT для Voice Call.

Матриця можливостей провайдерів

Провайдер Зображення Відео Музика TTS STT Realtime voice Розуміння медіа
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

Асинхронно чи синхронно

Можливість Режим Чому
Зображення Синхронно Відповіді провайдера повертаються за секунди; завершується вбудовано разом із відповіддю.
Синтез мовлення Синхронно Відповіді провайдера повертаються за секунди; додається до аудіо відповіді.
Відео Асинхронно Обробка провайдером займає від 30 с до кількох хвилин; повільні черги можуть працювати до налаштованого тайм-ауту.
Музика (спільна) Асинхронно Та сама характеристика обробки провайдером, що й для відео.
Музика (ComfyUI) Синхронно Локальний робочий процес виконується вбудовано на налаштованому сервері ComfyUI.

Для асинхронних інструментів OpenClaw надсилає запит провайдеру, негайно повертає ідентифікатор завдання й відстежує роботу в журналі завдань. Агент продовжує відповідати на інші повідомлення, поки робота виконується. Коли провайдер завершує, OpenClaw пробуджує агента зі шляхами до згенерованих медіа, щоб він міг повідомити користувача і, коли це вимагається політикою доставки джерела, передати результат через інструмент повідомлень. Для групових/канальних маршрутів лише з інструментом повідомлень OpenClaw вважає відсутність доказу доставки інструментом повідомлень невдалою спробою завершення й надсилає резервні згенеровані медіа безпосередньо в оригінальний канал.

Перетворення мовлення на текст і Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio та xAI можуть транскрибувати вхідне аудіо через пакетний шлях tools.media.audio, коли їх налаштовано. Channel plugins, які попередньо перевіряють голосову нотатку для mention gating або розбору команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний прохід розуміння медіа повторно використовує цей транскрипт замість другого виклику STT для того самого аудіо.

Deepgram, ElevenLabs, Mistral, OpenAI і xAI також реєструють провайдерів потокового STT для Voice Call, тож живе телефонне аудіо можна переспрямувати вибраному постачальнику без очікування завершеного запису.

Для живих розмов із користувачем надавайте перевагу режиму Talk. Пакетні аудіо вкладення залишаються на медіашляху; браузерний realtime, нативний push-to-talk, телефонія та аудіо зустрічей мають використовувати події Talk і сесійні каталоги, які повертає Gateway.

Зіставлення провайдерів (як постачальники розподіляються між поверхнями)

Google

Зображення, відео, музика, пакетний TTS, backend realtime voice і поверхні розуміння медіа.

OpenAI

Зображення, відео, пакетний TTS, пакетний STT, потоковий STT для Voice Call, backend realtime voice і поверхні embedding пам’яті.

DeepInfra

Маршрутизація чату/моделей, генерація/редагування зображень, текст-у-відео, пакетний TTS, пакетний STT, розуміння медіа зображень і поверхні embedding пам’яті. Нативні для DeepInfra моделі rerank/classification/object-detection не реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих категорій.

xAI

Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для Voice Call. xAI Realtime voice є upstream-можливістю, але її не зареєстровано в OpenClaw, доки спільний контракт realtime-voice не зможе її представляти.

Пов’язане