Tools

Генерація зображень

Інструмент image_generate дає агенту змогу створювати та редагувати зображення за допомогою ваших налаштованих провайдерів. Згенеровані зображення автоматично надсилаються як медіавкладення у відповіді агента.

Швидкий старт

Налаштуйте автентифікацію

Задайте API-ключ принаймні для одного провайдера (наприклад, OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) або ввійдіть через OpenAI Codex OAuth.

Виберіть модель за замовчуванням (необов’язково)

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
      },
    },
  },
}

Codex OAuth використовує те саме посилання на модель openai/gpt-image-2. Коли налаштовано OAuth-профіль openai-codex, OpenClaw спрямовує запити зображень через цей OAuth-профіль замість того, щоб спершу пробувати OPENAI_API_KEY. Явна конфігурація models.providers.openai (API-ключ, власна/Azure базова URL-адреса) знову вмикає прямий маршрут OpenAI Images API.

Попросіть агента

"Згенеруй зображення дружнього робота-маскота."

Агент автоматично викликає image_generate. Список дозволених інструментів не потрібен - він увімкнений за замовчуванням, коли доступний провайдер.

Поширені маршрути

Ціль	Посилання на модель	Автентифікація
Генерація зображень OpenAI з оплатою через API	`openai/gpt-image-2`	`OPENAI_API_KEY`
Генерація зображень OpenAI з автентифікацією передплати Codex	`openai/gpt-image-2`	OpenAI Codex OAuth
OpenAI PNG/WebP із прозорим тлом	`openai/gpt-image-1.5`	`OPENAI_API_KEY` або OpenAI Codex OAuth
Генерація зображень DeepInfra	`deepinfra/black-forest-labs/FLUX-1-schnell`	`DEEPINFRA_API_KEY`
Генерація зображень OpenRouter	`openrouter/google/gemini-3.1-flash-image-preview`	`OPENROUTER_API_KEY`
Генерація зображень LiteLLM	`litellm/gpt-image-2`	`LITELLM_API_KEY`
Генерація зображень Google Gemini	`google/gemini-3.1-flash-image-preview`	`GEMINI_API_KEY` або `GOOGLE_API_KEY`

Той самий інструмент image_generate обробляє перетворення тексту на зображення та редагування за референсними зображеннями. Використовуйте image для одного референсу або images для кількох референсів. Підказки виводу, які підтримує провайдер, як-от quality, outputFormat і background, передаються, коли доступні, і повідомляються як проігноровані, коли провайдер їх не підтримує. Вбудована підтримка прозорого тла специфічна для OpenAI; інші провайдери все одно можуть зберігати альфа-канал PNG, якщо їхній бекенд його видає.

Підтримувані провайдери

Провайдер	Модель за замовчуванням	Підтримка редагування	Автентифікація
ComfyUI	`workflow`	Так (1 зображення, налаштовано робочим процесом)	`COMFY_API_KEY` або `COMFY_CLOUD_API_KEY` для хмари
DeepInfra	`black-forest-labs/FLUX-1-schnell`	Так (1 зображення)	`DEEPINFRA_API_KEY`
fal	`fal-ai/flux/dev`	Так	`FAL_KEY`
Google	`gemini-3.1-flash-image-preview`	Так	`GEMINI_API_KEY` або `GOOGLE_API_KEY`
LiteLLM	`gpt-image-2`	Так (до 5 вхідних зображень)	`LITELLM_API_KEY`
MiniMax	`image-01`	Так (референс об’єкта)	`MINIMAX_API_KEY` або MiniMax OAuth (`minimax-portal`)
OpenAI	`gpt-image-2`	Так (до 4 зображень)	`OPENAI_API_KEY` або OpenAI Codex OAuth
OpenRouter	`google/gemini-3.1-flash-image-preview`	Так (до 5 вхідних зображень)	`OPENROUTER_API_KEY`
Vydra	`grok-imagine`	Ні	`VYDRA_API_KEY`
xAI	`grok-imagine-image`	Так (до 5 зображень)	`XAI_API_KEY`

Використовуйте action: "list", щоб переглянути доступних провайдерів і моделі під час виконання:

/tool image_generate action=list

Можливості провайдерів

Можливість	ComfyUI	DeepInfra	fal	Google	MiniMax	OpenAI	Vydra	xAI
Генерація (макс. кількість)	Визначається робочим процесом	4	4	4	9	4	1	4
Редагування / референс	1 зображення (робочий процес)	1 зображення	1 зображення	До 5 зображень	1 зображення (реф. об’єкта)	До 5 зображень	-	До 5 зображень
Керування розміром	-	✓	✓	✓	-	До 4K	-	-
Співвідношення сторін	-	-	✓ (лише генерація)	✓	✓	-	-	✓
Роздільна здатність (1K/2K/4K)	-	-	✓	✓	-	-	-	1K, 2K

Параметри інструмента

promptstringrequired

Промпт для генерації зображення. Обов’язковий для action: "generate".

action"generate" | "list"

Використовуйте "list", щоб переглянути доступних провайдерів і моделі під час виконання.

modelstring

Перевизначення провайдера/моделі (наприклад, openai/gpt-image-2). Використовуйте openai/gpt-image-1.5 для прозорих фонів OpenAI.

imagestring

Шлях або URL до одного референсного зображення для режиму редагування.

imagesstring[]

Кілька референсних зображень для режиму редагування (до 5 у провайдерів, що підтримують це).

sizestring

Підказка розміру: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.

aspectRatiostring

Співвідношення сторін: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.

resolution"1K" | "2K" | "4K"

quality"low" | "medium" | "high" | "auto"

Підказка якості, коли провайдер її підтримує.

outputFormat"png" | "jpeg" | "webp"

Підказка формату виводу, коли провайдер її підтримує.

background"transparent" | "opaque" | "auto"

Підказка тла, коли провайдер її підтримує. Використовуйте transparent з outputFormat: "png" або "webp" для провайдерів, що підтримують прозорість.

countnumber

timeoutMsnumber

filenamestring

openaiobject

Підказки лише для OpenAI: background, moderation, outputCompression і user.

Note

Не всі провайдери підтримують усі параметри. Коли резервний провайдер підтримує близький варіант геометрії замість точно запитаного, OpenClaw перед поданням зіставляє його з найближчим підтримуваним розміром, співвідношенням сторін або роздільною здатністю. Непідтримувані підказки виводу відкидаються для провайдерів, які не оголошують підтримку, і повідомляються в результаті інструмента. Результати інструмента повідомляють застосовані налаштування; details.normalization фіксує будь-яке перетворення із запитаного в застосоване.

Конфігурація

Вибір моделі

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
        fallbacks: [
          "openrouter/google/gemini-3.1-flash-image-preview",
          "google/gemini-3.1-flash-image-preview",
          "fal/fal-ai/flux/dev",
        ],
      },
    },
  },
}

Порядок вибору провайдера

OpenClaw пробує провайдерів у такому порядку:

Параметр model з виклику інструмента (якщо агент його вказує).
imageGenerationModel.primary з конфігурації.
imageGenerationModel.fallbacks за порядком.
Автовиявлення - лише значення за замовчуванням провайдерів із підтриманою автентифікацією:
- спочатку поточний провайдер за замовчуванням;
- решта зареєстрованих провайдерів генерації зображень у порядку ідентифікаторів провайдерів.

Якщо провайдер зазнає невдачі (помилка автентифікації, обмеження частоти тощо), автоматично пробується наступний налаштований кандидат. Якщо всі зазнають невдачі, помилка містить подробиці кожної спроби.

Перевизначення моделі для окремого виклику є точними

Перевизначення model для окремого виклику пробує лише цього провайдера/модель і не переходить до налаштованих primary/fallback або автовиявлених провайдерів.

Автовиявлення враховує автентифікацію

Значення провайдера за замовчуванням потрапляє до списку кандидатів лише тоді, коли OpenClaw може фактично автентифікувати цього провайдера. Задайте agents.defaults.mediaGenerationAutoProviderFallback: false, щоб використовувати лише явні записи model, primary і fallbacks.

Тайм-аути

Задайте agents.defaults.imageGenerationModel.timeoutMs для повільних бекендів зображень. Параметр інструмента timeoutMs для окремого виклику перевизначає налаштоване значення за замовчуванням.

Перевірка під час виконання

Використовуйте action: "list", щоб переглянути поточно зареєстрованих провайдерів, їхні моделі за замовчуванням і підказки env-var для автентифікації.

Редагування зображень

OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI та xAI підтримують редагування референсних зображень. Передайте шлях або URL до референсного зображення:

"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

OpenAI, OpenRouter, Google і xAI підтримують до 5 референсних зображень через параметр images. fal, MiniMax і ComfyUI підтримують 1.

Детальні огляди провайдерів

OpenAI gpt-image-2 (і gpt-image-1.5)

Генерація зображень OpenAI за замовчуванням використовує openai/gpt-image-2. Якщо налаштовано OAuth-профіль openai-codex, OpenClaw повторно використовує той самий OAuth-профіль, який застосовується чат-моделями підписки Codex, і надсилає запит зображення через бекенд Codex Responses. Застарілі базові URL-адреси Codex, як-от https://chatgpt.com/backend-api, канонізуються до https://chatgpt.com/backend-api/codex для запитів зображень. OpenClaw не виконує непомітний відкат до OPENAI_API_KEY для цього запиту - щоб примусово спрямувати маршрутизацію напряму через OpenAI Images API, налаштуйте models.providers.openai явно з API-ключем, власною базовою URL-адресою або кінцевою точкою Azure.

Моделі openai/gpt-image-1.5, openai/gpt-image-1 і openai/gpt-image-1-mini все ще можна вибрати явно. Використовуйте gpt-image-1.5 для виводу PNG/WebP із прозорим фоном; поточний API gpt-image-2 відхиляє background: "transparent".

gpt-image-2 підтримує як генерацію зображення з тексту, так і редагування за референсним зображенням через той самий інструмент image_generate. OpenClaw пересилає prompt, count, size, quality, outputFormat і референсні зображення до OpenAI. OpenAI не отримує aspectRatio або resolution напряму; коли можливо, OpenClaw зіставляє їх із підтримуваним size, інакше інструмент повідомляє про них як про проігноровані перевизначення.

Специфічні для OpenAI параметри розташовані в об’єкті openai:

{
  "quality": "low",
  "outputFormat": "jpeg",
  "openai": {
    "background": "opaque",
    "moderation": "low",
    "outputCompression": 60,
    "user": "end-user-42"
  }
}

openai.background приймає transparent, opaque або auto; прозорий вивід потребує outputFormat png або webp і моделі зображень OpenAI, здатної працювати з прозорістю. OpenClaw маршрутизує стандартні запити gpt-image-2 із прозорим фоном до gpt-image-1.5. openai.outputCompression застосовується до виводу JPEG/WebP.

Підказка верхнього рівня background є нейтральною щодо провайдера й наразі зіставляється з тим самим полем запиту OpenAI background, коли вибрано провайдера OpenAI. Провайдери, які не оголошують підтримку фону, повертають її в ignoredOverrides замість отримання непідтримуваного параметра.

Щоб маршрутизувати генерацію зображень OpenAI через розгортання Azure OpenAI замість api.openai.com, див. кінцеві точки Azure OpenAI.

Моделі зображень OpenRouter

Генерація зображень OpenRouter використовує той самий OPENROUTER_API_KEY і маршрутизується через API зображень чат-доповнень OpenRouter. Вибирайте моделі зображень OpenRouter із префіксом openrouter/:

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openrouter/google/gemini-3.1-flash-image-preview",
      },
    },
  },
}

OpenClaw пересилає prompt, count, референсні зображення та сумісні з Gemini підказки aspectRatio / resolution до OpenRouter. Поточні вбудовані скорочення моделей зображень OpenRouter включають google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview і openai/gpt-5.4-image-2. Використовуйте action: "list", щоб побачити, що надає ваш налаштований Plugin.

Подвійна автентифікація MiniMax

Генерація зображень MiniMax доступна через обидва вбудовані шляхи автентифікації MiniMax:

minimax/image-01 для налаштувань з API-ключем
minimax-portal/image-01 для налаштувань OAuth

xAI grok-imagine-image

Вбудований провайдер xAI використовує /v1/images/generations для запитів лише з промптом і /v1/images/edits, коли присутній image або images.

Моделі: xai/grok-imagine-image, xai/grok-imagine-image-pro
Кількість: до 4
Референси: один image або до п’яти images
Співвідношення сторін: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
Роздільності: 1K, 2K
Вивід: повертається як вкладення зображень, керовані OpenClaw

OpenClaw навмисно не надає нативні для xAI quality, mask, user або додаткові лише нативні співвідношення сторін, доки ці елементи керування не з’являться у спільному міжпровайдерному контракті image_generate.

Приклади

Згенерувати (4K ландшафт)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

Згенерувати (прозорий PNG)

/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

Еквівалент CLI:

openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json

Згенерувати (два квадратні)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

Редагувати (один референс)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

Редагувати (кілька референсів)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

Ті самі прапорці --output-format і --background доступні в openclaw infer image edit; --openai-background залишається специфічним для OpenAI псевдонімом. Вбудовані провайдери, крім OpenAI, наразі не оголошують явного керування фоном, тому background: "transparent" для них повідомляється як проігнорований.

Пов’язане

Огляд інструментів - усі доступні інструменти агента
ComfyUI - налаштування локального робочого процесу ComfyUI і Comfy Cloud
fal - налаштування провайдера зображень і відео fal
Google (Gemini) - налаштування провайдера зображень Gemini
MiniMax - налаштування провайдера зображень MiniMax
OpenAI - налаштування провайдера OpenAI Images
Vydra - налаштування зображень, відео та мовлення Vydra
xAI - налаштування зображень, відео, пошуку, виконання коду та TTS Grok
Довідник конфігурації - конфігурація imageGenerationModel
Моделі - конфігурація моделей і відмовостійке перемикання

# Швидкий старт

Налаштуйте автентифікацію

Виберіть модель за замовчуванням (необов’язково)

Попросіть агента

# Поширені маршрути

# Підтримувані провайдери

# Можливості провайдерів

# Параметри інструмента

# Конфігурація

# Вибір моделі

# Порядок вибору провайдера

# Редагування зображень

# Детальні огляди провайдерів

# Приклади