Tools
Generowanie obrazów
Narzędzie image_generate pozwala agentowi tworzyć i edytować obrazy przy użyciu
skonfigurowanych dostawców. Wygenerowane obrazy są automatycznie dostarczane jako załączniki multimedialne
w odpowiedzi agenta.
Szybki start
Skonfiguruj uwierzytelnianie
Ustaw klucz API dla co najmniej jednego dostawcy (na przykład OPENAI_API_KEY,
GEMINI_API_KEY, OPENROUTER_API_KEY) albo zaloguj się przez OpenAI Codex OAuth.
Wybierz model domyślny (opcjonalnie)
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
},
},
},
}
Codex OAuth używa tego samego odwołania do modelu openai/gpt-image-2. Gdy skonfigurowany jest
profil OAuth openai-codex, OpenClaw kieruje żądania obrazów
przez ten profil OAuth zamiast najpierw próbować
OPENAI_API_KEY. Jawna konfiguracja models.providers.openai (klucz API,
niestandardowy/Azure bazowy URL) ponownie wybiera bezpośrednią trasę
OpenAI Images API.
Zapytaj agenta
"Wygeneruj obraz przyjaznej maskotki robota."
Agent wywołuje image_generate automatycznie. Nie trzeba dodawać narzędzia do listy dozwolonych
- jest domyślnie włączone, gdy dostępny jest dostawca.
Typowe trasy
| Cel | Odwołanie do modelu | Uwierzytelnianie |
|---|---|---|
| Generowanie obrazów OpenAI z rozliczeniem przez API | openai/gpt-image-2 |
OPENAI_API_KEY |
| Generowanie obrazów OpenAI z uwierzytelnianiem subskrypcji Codex | openai/gpt-image-2 |
OpenAI Codex OAuth |
| OpenAI PNG/WebP z przezroczystym tłem | openai/gpt-image-1.5 |
OPENAI_API_KEY lub OpenAI Codex OAuth |
| Generowanie obrazów DeepInfra | deepinfra/black-forest-labs/FLUX-1-schnell |
DEEPINFRA_API_KEY |
| Generowanie obrazów OpenRouter | openrouter/google/gemini-3.1-flash-image-preview |
OPENROUTER_API_KEY |
| Generowanie obrazów LiteLLM | litellm/gpt-image-2 |
LITELLM_API_KEY |
| Generowanie obrazów Google Gemini | google/gemini-3.1-flash-image-preview |
GEMINI_API_KEY lub GOOGLE_API_KEY |
To samo narzędzie image_generate obsługuje generowanie obrazu z tekstu oraz edycję
obrazu referencyjnego. Użyj image dla jednej referencji albo images dla wielu referencji.
Wskazówki wyjściowe obsługiwane przez dostawcę, takie jak quality, outputFormat i
background, są przekazywane, gdy są dostępne, oraz zgłaszane jako zignorowane, gdy
dostawca ich nie obsługuje. Wbudowana obsługa przezroczystego tła jest
specyficzna dla OpenAI; inni dostawcy mogą nadal zachować kanał alfa PNG, jeśli ich
backend go emituje.
Obsługiwani dostawcy
| Dostawca | Model domyślny | Obsługa edycji | Uwierzytelnianie |
|---|---|---|---|
| ComfyUI | workflow |
Tak (1 obraz, skonfigurowane przez workflow) | COMFY_API_KEY lub COMFY_CLOUD_API_KEY dla chmury |
| DeepInfra | black-forest-labs/FLUX-1-schnell |
Tak (1 obraz) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev |
Tak | FAL_KEY |
gemini-3.1-flash-image-preview |
Tak | GEMINI_API_KEY lub GOOGLE_API_KEY |
|
| LiteLLM | gpt-image-2 |
Tak (do 5 obrazów wejściowych) | LITELLM_API_KEY |
| MiniMax | image-01 |
Tak (referencja tematu) | MINIMAX_API_KEY lub MiniMax OAuth (minimax-portal) |
| OpenAI | gpt-image-2 |
Tak (do 4 obrazów) | OPENAI_API_KEY lub OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview |
Tak (do 5 obrazów wejściowych) | OPENROUTER_API_KEY |
| Vydra | grok-imagine |
Nie | VYDRA_API_KEY |
| xAI | grok-imagine-image |
Tak (do 5 obrazów) | XAI_API_KEY |
Użyj action: "list", aby sprawdzić dostępnych dostawców i modele w czasie działania:
/tool image_generate action=list
Możliwości dostawców
| Możliwość | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| Generowanie (maks. liczba) | Zdefiniowane przez workflow | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| Edycja / referencja | 1 obraz (workflow) | 1 obraz | 1 obraz | Do 5 obrazów | 1 obraz (referencja tematu) | Do 5 obrazów | - | Do 5 obrazów |
| Kontrola rozmiaru | - | ✓ | ✓ | ✓ | - | Do 4K | - | - |
| Proporcje | - | - | ✓ (tylko generowanie) | ✓ | ✓ | - | - | ✓ |
| Rozdzielczość (1K/2K/4K) | - | - | ✓ | ✓ | - | - | - | 1K, 2K |
Parametry narzędzia
promptstringrequiredPrompt generowania obrazu. Wymagany dla action: "generate".
action"generate" | "list"Użyj "list", aby sprawdzić dostępnych dostawców i modele w czasie działania.
modelstringNadpisanie dostawcy/modelu (np. openai/gpt-image-2). Użyj
openai/gpt-image-1.5 dla przezroczystych teł OpenAI.
imagestringŚcieżka albo URL pojedynczego obrazu referencyjnego dla trybu edycji.
imagesstring[]Wiele obrazów referencyjnych dla trybu edycji (do 5 u obsługujących dostawców).
sizestringWskazówka rozmiaru: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.
aspectRatiostringProporcje: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.
resolution"1K" | "2K" | "4K"quality"low" | "medium" | "high" | "auto"Wskazówka jakości, gdy dostawca ją obsługuje.
outputFormat"png" | "jpeg" | "webp"Wskazówka formatu wyjściowego, gdy dostawca ją obsługuje.
background"transparent" | "opaque" | "auto"Wskazówka tła, gdy dostawca ją obsługuje. Użyj transparent z
outputFormat: "png" albo "webp" dla dostawców obsługujących przezroczystość.
countnumbertimeoutMsnumberfilenamestringopenaiobjectWskazówki tylko dla OpenAI: background, moderation, outputCompression i user.
Konfiguracja
Wybór modelu
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
fallbacks: [
"openrouter/google/gemini-3.1-flash-image-preview",
"google/gemini-3.1-flash-image-preview",
"fal/fal-ai/flux/dev",
],
},
},
},
}
Kolejność wyboru dostawców
OpenClaw próbuje dostawców w tej kolejności:
- Parametr
modelz wywołania narzędzia (jeśli agent go określi). imageGenerationModel.primaryz konfiguracji.imageGenerationModel.fallbacksw kolejności.- Automatyczne wykrywanie - tylko domyślni dostawcy z działającym uwierzytelnianiem:
- najpierw bieżący domyślny dostawca;
- pozostali zarejestrowani dostawcy generowania obrazów w kolejności identyfikatorów dostawców.
Jeśli dostawca zawiedzie (błąd uwierzytelniania, limit szybkości itd.), następny skonfigurowany kandydat jest próbowany automatycznie. Jeśli wszyscy zawiodą, błąd zawiera szczegóły z każdej próby.
Nadpisania modelu dla pojedynczego wywołania są dokładne
Nadpisanie model dla pojedynczego wywołania próbuje tylko tego dostawcy/modelu i
nie przechodzi dalej do skonfigurowanego modelu głównego/zapasowego ani automatycznie wykrytych dostawców.
Automatyczne wykrywanie uwzględnia uwierzytelnianie
Domyślny dostawca trafia na listę kandydatów tylko wtedy, gdy OpenClaw może
faktycznie uwierzytelnić tego dostawcę. Ustaw
agents.defaults.mediaGenerationAutoProviderFallback: false, aby używać tylko
jawnych wpisów model, primary i fallbacks.
Limity czasu
Ustaw agents.defaults.imageGenerationModel.timeoutMs dla wolnych backendów
obrazów. Parametr narzędzia timeoutMs dla pojedynczego wywołania nadpisuje skonfigurowaną
wartość domyślną.
Sprawdzanie w czasie działania
Użyj action: "list", aby sprawdzić aktualnie zarejestrowanych dostawców,
ich modele domyślne oraz wskazówki dotyczące zmiennych środowiskowych uwierzytelniania.
Edycja obrazów
OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI i xAI obsługują edycję obrazów referencyjnych. Przekaż ścieżkę albo URL obrazu referencyjnego:
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI, OpenRouter, Google i xAI obsługują do 5 obrazów referencyjnych przez
parametr images. fal, MiniMax i ComfyUI obsługują 1.
Szczegółowe omówienia dostawców
OpenAI gpt-image-2 (i gpt-image-1.5)
Generowanie obrazów OpenAI domyślnie używa openai/gpt-image-2. Jeśli
skonfigurowano profil OAuth openai-codex, OpenClaw ponownie używa tego
samego profilu OAuth, którego używają modele czatu subskrypcji Codex, i wysyła
żądanie obrazu przez backend Codex Responses. Starsze bazowe adresy URL Codex,
takie jak https://chatgpt.com/backend-api, są kanonizowane do
https://chatgpt.com/backend-api/codex dla żądań obrazów. OpenClaw
nie przełącza się po cichu na OPENAI_API_KEY dla tego żądania -
aby wymusić bezpośrednie kierowanie przez OpenAI Images API, skonfiguruj
models.providers.openai jawnie za pomocą klucza API, niestandardowego bazowego adresu URL
lub punktu końcowego Azure.
Modele openai/gpt-image-1.5, openai/gpt-image-1 i
openai/gpt-image-1-mini nadal można wybrać jawnie. Użyj
gpt-image-1.5 do danych wyjściowych PNG/WebP z przezroczystym tłem; obecne
API gpt-image-2 odrzuca background: "transparent".
gpt-image-2 obsługuje zarówno generowanie tekst-na-obraz, jak i
edycję obrazu referencyjnego przez to samo narzędzie image_generate.
OpenClaw przekazuje do OpenAI prompt, count, size, quality, outputFormat
oraz obrazy referencyjne. OpenAI nie otrzymuje bezpośrednio
aspectRatio ani resolution; gdy to możliwe, OpenClaw mapuje
je na obsługiwane size, w przeciwnym razie narzędzie zgłasza je jako
zignorowane nadpisania.
Opcje specyficzne dla OpenAI znajdują się pod obiektem openai:
{
"quality": "low",
"outputFormat": "jpeg",
"openai": {
"background": "opaque",
"moderation": "low",
"outputCompression": 60,
"user": "end-user-42"
}
}
openai.background przyjmuje transparent, opaque albo auto;
przezroczyste dane wyjściowe wymagają outputFormat png albo webp oraz
modelu obrazów OpenAI obsługującego przezroczystość. OpenClaw kieruje domyślne
żądania gpt-image-2 z przezroczystym tłem do gpt-image-1.5.
openai.outputCompression dotyczy danych wyjściowych JPEG/WebP.
Wskazówka najwyższego poziomu background jest neutralna względem dostawcy i obecnie mapuje się
na to samo pole żądania OpenAI background, gdy wybrany jest dostawca OpenAI.
Dostawcy, którzy nie deklarują obsługi tła, zwracają
ją w ignoredOverrides zamiast otrzymywać nieobsługiwany parametr.
Aby kierować generowanie obrazów OpenAI przez wdrożenie Azure OpenAI
zamiast api.openai.com, zobacz
punkty końcowe Azure OpenAI.
Modele obrazów OpenRouter
Generowanie obrazów OpenRouter używa tego samego OPENROUTER_API_KEY i
jest kierowane przez API obrazów uzupełnień czatu OpenRouter. Wybieraj
modele obrazów OpenRouter z prefiksem openrouter/:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openrouter/google/gemini-3.1-flash-image-preview",
},
},
},
}
OpenClaw przekazuje do OpenRouter prompt, count, obrazy referencyjne oraz
wskazówki aspectRatio / resolution zgodne z Gemini.
Obecne wbudowane skróty modeli obrazów OpenRouter obejmują
google/gemini-3.1-flash-image-preview,
google/gemini-3-pro-image-preview oraz openai/gpt-5.4-image-2. Użyj
action: "list", aby zobaczyć, co udostępnia skonfigurowany Plugin.
Podwójne uwierzytelnianie MiniMax
Generowanie obrazów MiniMax jest dostępne przez obie wbudowane ścieżki uwierzytelniania MiniMax:
minimax/image-01dla konfiguracji z kluczem APIminimax-portal/image-01dla konfiguracji OAuth
xAI grok-imagine-image
Wbudowany dostawca xAI używa /v1/images/generations dla żądań wyłącznie z promptem
oraz /v1/images/edits, gdy obecne jest image albo images.
- Modele:
xai/grok-imagine-image,xai/grok-imagine-image-pro - Liczba: do 4
- Referencje: jedno
imagealbo do pięciuimages - Proporcje obrazu:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Rozdzielczości:
1K,2K - Dane wyjściowe: zwracane jako załączniki obrazów zarządzane przez OpenClaw
OpenClaw celowo nie udostępnia natywnych dla xAI pól quality, mask,
user ani dodatkowych proporcji obrazu wyłącznie natywnych, dopóki te kontrolki nie będą istnieć
we wspólnym kontrakcie między dostawcami image_generate.
Przykłady
Generowanie (krajobraz 4K)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
Generowanie (przezroczysty PNG)
/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent
Równoważne CLI:
openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json
Generowanie (dwa kwadratowe)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2
Edycja (jedna referencja)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536
Edycja (wiele referencji)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024
Te same flagi --output-format i --background są dostępne w
openclaw infer image edit; --openai-background pozostaje
aliasem specyficznym dla OpenAI. Wbudowani dostawcy inni niż OpenAI nie deklarują dziś
jawnej kontroli tła, więc background: "transparent" jest dla nich zgłaszane
jako zignorowane.
Powiązane
- Przegląd narzędzi - wszystkie dostępne narzędzia agentów
- ComfyUI - konfiguracja lokalnego przepływu pracy ComfyUI i Comfy Cloud
- fal - konfiguracja dostawcy obrazów i wideo fal
- Google (Gemini) - konfiguracja dostawcy obrazów Gemini
- MiniMax - konfiguracja dostawcy obrazów MiniMax
- OpenAI - konfiguracja dostawcy OpenAI Images
- Vydra - konfiguracja obrazów, wideo i mowy Vydra
- xAI - konfiguracja obrazów, wideo, wyszukiwania, wykonywania kodu i TTS Grok
- Informacje o konfiguracji - konfiguracja
imageGenerationModel - Modele - konfiguracja modeli i przełączanie awaryjne