Tools
Генерація зображень
Інструмент image_generate дає агенту змогу створювати та редагувати зображення за допомогою ваших
налаштованих провайдерів. Згенеровані зображення автоматично надсилаються як медіавкладення
у відповіді агента.
Швидкий старт
Налаштуйте автентифікацію
Задайте API-ключ принаймні для одного провайдера (наприклад, OPENAI_API_KEY,
GEMINI_API_KEY, OPENROUTER_API_KEY) або ввійдіть через OpenAI Codex OAuth.
Виберіть модель за замовчуванням (необов’язково)
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
},
},
},
}
Codex OAuth використовує те саме посилання на модель openai/gpt-image-2. Коли
налаштовано OAuth-профіль openai-codex, OpenClaw спрямовує запити зображень
через цей OAuth-профіль замість того, щоб спершу пробувати
OPENAI_API_KEY. Явна конфігурація models.providers.openai (API-ключ,
власна/Azure базова URL-адреса) знову вмикає прямий маршрут OpenAI Images API.
Попросіть агента
"Згенеруй зображення дружнього робота-маскота."
Агент автоматично викликає image_generate. Список дозволених інструментів
не потрібен - він увімкнений за замовчуванням, коли доступний провайдер.
Поширені маршрути
| Ціль | Посилання на модель | Автентифікація |
|---|---|---|
| Генерація зображень OpenAI з оплатою через API | openai/gpt-image-2 |
OPENAI_API_KEY |
| Генерація зображень OpenAI з автентифікацією передплати Codex | openai/gpt-image-2 |
OpenAI Codex OAuth |
| OpenAI PNG/WebP із прозорим тлом | openai/gpt-image-1.5 |
OPENAI_API_KEY або OpenAI Codex OAuth |
| Генерація зображень DeepInfra | deepinfra/black-forest-labs/FLUX-1-schnell |
DEEPINFRA_API_KEY |
| Генерація зображень OpenRouter | openrouter/google/gemini-3.1-flash-image-preview |
OPENROUTER_API_KEY |
| Генерація зображень LiteLLM | litellm/gpt-image-2 |
LITELLM_API_KEY |
| Генерація зображень Google Gemini | google/gemini-3.1-flash-image-preview |
GEMINI_API_KEY або GOOGLE_API_KEY |
Той самий інструмент image_generate обробляє перетворення тексту на зображення та редагування
за референсними зображеннями. Використовуйте image для одного референсу або images для кількох референсів.
Підказки виводу, які підтримує провайдер, як-от quality, outputFormat і
background, передаються, коли доступні, і повідомляються як проігноровані, коли
провайдер їх не підтримує. Вбудована підтримка прозорого тла
специфічна для OpenAI; інші провайдери все одно можуть зберігати альфа-канал PNG, якщо їхній
бекенд його видає.
Підтримувані провайдери
| Провайдер | Модель за замовчуванням | Підтримка редагування | Автентифікація |
|---|---|---|---|
| ComfyUI | workflow |
Так (1 зображення, налаштовано робочим процесом) | COMFY_API_KEY або COMFY_CLOUD_API_KEY для хмари |
| DeepInfra | black-forest-labs/FLUX-1-schnell |
Так (1 зображення) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev |
Так | FAL_KEY |
gemini-3.1-flash-image-preview |
Так | GEMINI_API_KEY або GOOGLE_API_KEY |
|
| LiteLLM | gpt-image-2 |
Так (до 5 вхідних зображень) | LITELLM_API_KEY |
| MiniMax | image-01 |
Так (референс об’єкта) | MINIMAX_API_KEY або MiniMax OAuth (minimax-portal) |
| OpenAI | gpt-image-2 |
Так (до 4 зображень) | OPENAI_API_KEY або OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview |
Так (до 5 вхідних зображень) | OPENROUTER_API_KEY |
| Vydra | grok-imagine |
Ні | VYDRA_API_KEY |
| xAI | grok-imagine-image |
Так (до 5 зображень) | XAI_API_KEY |
Використовуйте action: "list", щоб переглянути доступних провайдерів і моделі під час виконання:
/tool image_generate action=list
Можливості провайдерів
| Можливість | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| Генерація (макс. кількість) | Визначається робочим процесом | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| Редагування / референс | 1 зображення (робочий процес) | 1 зображення | 1 зображення | До 5 зображень | 1 зображення (реф. об’єкта) | До 5 зображень | - | До 5 зображень |
| Керування розміром | - | ✓ | ✓ | ✓ | - | До 4K | - | - |
| Співвідношення сторін | - | - | ✓ (лише генерація) | ✓ | ✓ | - | - | ✓ |
| Роздільна здатність (1K/2K/4K) | - | - | ✓ | ✓ | - | - | - | 1K, 2K |
Параметри інструмента
promptstringrequiredПромпт для генерації зображення. Обов’язковий для action: "generate".
action"generate" | "list"Використовуйте "list", щоб переглянути доступних провайдерів і моделі під час виконання.
modelstringПеревизначення провайдера/моделі (наприклад, openai/gpt-image-2). Використовуйте
openai/gpt-image-1.5 для прозорих фонів OpenAI.
imagestringШлях або URL до одного референсного зображення для режиму редагування.
imagesstring[]Кілька референсних зображень для режиму редагування (до 5 у провайдерів, що підтримують це).
sizestringПідказка розміру: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.
aspectRatiostringСпіввідношення сторін: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.
resolution"1K" | "2K" | "4K"quality"low" | "medium" | "high" | "auto"Підказка якості, коли провайдер її підтримує.
outputFormat"png" | "jpeg" | "webp"Підказка формату виводу, коли провайдер її підтримує.
background"transparent" | "opaque" | "auto"Підказка тла, коли провайдер її підтримує. Використовуйте transparent з
outputFormat: "png" або "webp" для провайдерів, що підтримують прозорість.
countnumbertimeoutMsnumberfilenamestringopenaiobjectПідказки лише для OpenAI: background, moderation, outputCompression і user.
Конфігурація
Вибір моделі
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
fallbacks: [
"openrouter/google/gemini-3.1-flash-image-preview",
"google/gemini-3.1-flash-image-preview",
"fal/fal-ai/flux/dev",
],
},
},
},
}
Порядок вибору провайдера
OpenClaw пробує провайдерів у такому порядку:
- Параметр
modelз виклику інструмента (якщо агент його вказує). imageGenerationModel.primaryз конфігурації.imageGenerationModel.fallbacksза порядком.- Автовиявлення - лише значення за замовчуванням провайдерів із підтриманою автентифікацією:
- спочатку поточний провайдер за замовчуванням;
- решта зареєстрованих провайдерів генерації зображень у порядку ідентифікаторів провайдерів.
Якщо провайдер зазнає невдачі (помилка автентифікації, обмеження частоти тощо), автоматично пробується наступний налаштований кандидат. Якщо всі зазнають невдачі, помилка містить подробиці кожної спроби.
Перевизначення моделі для окремого виклику є точними
Перевизначення model для окремого виклику пробує лише цього провайдера/модель і
не переходить до налаштованих primary/fallback або автовиявлених провайдерів.
Автовиявлення враховує автентифікацію
Значення провайдера за замовчуванням потрапляє до списку кандидатів лише тоді, коли OpenClaw може
фактично автентифікувати цього провайдера. Задайте
agents.defaults.mediaGenerationAutoProviderFallback: false, щоб використовувати лише
явні записи model, primary і fallbacks.
Тайм-аути
Задайте agents.defaults.imageGenerationModel.timeoutMs для повільних бекендів
зображень. Параметр інструмента timeoutMs для окремого виклику перевизначає налаштоване
значення за замовчуванням.
Перевірка під час виконання
Використовуйте action: "list", щоб переглянути поточно зареєстрованих провайдерів,
їхні моделі за замовчуванням і підказки env-var для автентифікації.
Редагування зображень
OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI та xAI підтримують редагування референсних зображень. Передайте шлях або URL до референсного зображення:
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI, OpenRouter, Google і xAI підтримують до 5 референсних зображень через параметр
images. fal, MiniMax і ComfyUI підтримують 1.
Детальні огляди провайдерів
OpenAI gpt-image-2 (і gpt-image-1.5)
Генерація зображень OpenAI за замовчуванням використовує openai/gpt-image-2. Якщо
налаштовано OAuth-профіль openai-codex, OpenClaw повторно використовує той самий
OAuth-профіль, який застосовується чат-моделями підписки Codex, і надсилає
запит зображення через бекенд Codex Responses. Застарілі базові URL-адреси Codex,
як-от https://chatgpt.com/backend-api, канонізуються до
https://chatgpt.com/backend-api/codex для запитів зображень. OpenClaw
не виконує непомітний відкат до OPENAI_API_KEY для цього запиту -
щоб примусово спрямувати маршрутизацію напряму через OpenAI Images API, налаштуйте
models.providers.openai явно з API-ключем, власною базовою URL-адресою
або кінцевою точкою Azure.
Моделі openai/gpt-image-1.5, openai/gpt-image-1 і
openai/gpt-image-1-mini все ще можна вибрати явно. Використовуйте
gpt-image-1.5 для виводу PNG/WebP із прозорим фоном; поточний
API gpt-image-2 відхиляє background: "transparent".
gpt-image-2 підтримує як генерацію зображення з тексту, так і
редагування за референсним зображенням через той самий інструмент image_generate.
OpenClaw пересилає prompt, count, size, quality, outputFormat
і референсні зображення до OpenAI. OpenAI не отримує
aspectRatio або resolution напряму; коли можливо, OpenClaw зіставляє
їх із підтримуваним size, інакше інструмент повідомляє про них як про
проігноровані перевизначення.
Специфічні для OpenAI параметри розташовані в об’єкті openai:
{
"quality": "low",
"outputFormat": "jpeg",
"openai": {
"background": "opaque",
"moderation": "low",
"outputCompression": 60,
"user": "end-user-42"
}
}
openai.background приймає transparent, opaque або auto;
прозорий вивід потребує outputFormat png або webp і
моделі зображень OpenAI, здатної працювати з прозорістю. OpenClaw маршрутизує стандартні
запити gpt-image-2 із прозорим фоном до gpt-image-1.5.
openai.outputCompression застосовується до виводу JPEG/WebP.
Підказка верхнього рівня background є нейтральною щодо провайдера й наразі зіставляється
з тим самим полем запиту OpenAI background, коли вибрано провайдера OpenAI.
Провайдери, які не оголошують підтримку фону, повертають
її в ignoredOverrides замість отримання непідтримуваного параметра.
Щоб маршрутизувати генерацію зображень OpenAI через розгортання Azure OpenAI
замість api.openai.com, див.
кінцеві точки Azure OpenAI.
Моделі зображень OpenRouter
Генерація зображень OpenRouter використовує той самий OPENROUTER_API_KEY і
маршрутизується через API зображень чат-доповнень OpenRouter. Вибирайте
моделі зображень OpenRouter із префіксом openrouter/:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openrouter/google/gemini-3.1-flash-image-preview",
},
},
},
}
OpenClaw пересилає prompt, count, референсні зображення та
сумісні з Gemini підказки aspectRatio / resolution до OpenRouter.
Поточні вбудовані скорочення моделей зображень OpenRouter включають
google/gemini-3.1-flash-image-preview,
google/gemini-3-pro-image-preview і openai/gpt-5.4-image-2. Використовуйте
action: "list", щоб побачити, що надає ваш налаштований Plugin.
Подвійна автентифікація MiniMax
Генерація зображень MiniMax доступна через обидва вбудовані шляхи автентифікації MiniMax:
minimax/image-01для налаштувань з API-ключемminimax-portal/image-01для налаштувань OAuth
xAI grok-imagine-image
Вбудований провайдер xAI використовує /v1/images/generations для запитів лише з промптом
і /v1/images/edits, коли присутній image або images.
- Моделі:
xai/grok-imagine-image,xai/grok-imagine-image-pro - Кількість: до 4
- Референси: один
imageабо до п’ятиimages - Співвідношення сторін:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Роздільності:
1K,2K - Вивід: повертається як вкладення зображень, керовані OpenClaw
OpenClaw навмисно не надає нативні для xAI quality, mask,
user або додаткові лише нативні співвідношення сторін, доки ці елементи керування не з’являться
у спільному міжпровайдерному контракті image_generate.
Приклади
Згенерувати (4K ландшафт)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
Згенерувати (прозорий PNG)
/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent
Еквівалент CLI:
openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json
Згенерувати (два квадратні)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2
Редагувати (один референс)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536
Редагувати (кілька референсів)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024
Ті самі прапорці --output-format і --background доступні в
openclaw infer image edit; --openai-background залишається
специфічним для OpenAI псевдонімом. Вбудовані провайдери, крім OpenAI, наразі не оголошують
явного керування фоном, тому background: "transparent" для них повідомляється
як проігнорований.
Пов’язане
- Огляд інструментів - усі доступні інструменти агента
- ComfyUI - налаштування локального робочого процесу ComfyUI і Comfy Cloud
- fal - налаштування провайдера зображень і відео fal
- Google (Gemini) - налаштування провайдера зображень Gemini
- MiniMax - налаштування провайдера зображень MiniMax
- OpenAI - налаштування провайдера OpenAI Images
- Vydra - налаштування зображень, відео та мовлення Vydra
- xAI - налаштування зображень, відео, пошуку, виконання коду та TTS Grok
- Довідник конфігурації - конфігурація
imageGenerationModel - Моделі - конфігурація моделей і відмовостійке перемикання