Tools

Generowanie obrazów

Narzędzie image_generate pozwala agentowi tworzyć i edytować obrazy przy użyciu skonfigurowanych dostawców. Wygenerowane obrazy są automatycznie dostarczane jako załączniki multimedialne w odpowiedzi agenta.

Szybki start

Skonfiguruj uwierzytelnianie

Ustaw klucz API dla co najmniej jednego dostawcy (na przykład OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) albo zaloguj się przez OpenAI Codex OAuth.

Wybierz model domyślny (opcjonalnie)

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
      },
    },
  },
}

Codex OAuth używa tego samego odwołania do modelu openai/gpt-image-2. Gdy skonfigurowany jest profil OAuth openai-codex, OpenClaw kieruje żądania obrazów przez ten profil OAuth zamiast najpierw próbować OPENAI_API_KEY. Jawna konfiguracja models.providers.openai (klucz API, niestandardowy/Azure bazowy URL) ponownie wybiera bezpośrednią trasę OpenAI Images API.

Zapytaj agenta

"Wygeneruj obraz przyjaznej maskotki robota."

Agent wywołuje image_generate automatycznie. Nie trzeba dodawać narzędzia do listy dozwolonych

jest domyślnie włączone, gdy dostępny jest dostawca.

Typowe trasy

Cel	Odwołanie do modelu	Uwierzytelnianie
Generowanie obrazów OpenAI z rozliczeniem przez API	`openai/gpt-image-2`	`OPENAI_API_KEY`
Generowanie obrazów OpenAI z uwierzytelnianiem subskrypcji Codex	`openai/gpt-image-2`	OpenAI Codex OAuth
OpenAI PNG/WebP z przezroczystym tłem	`openai/gpt-image-1.5`	`OPENAI_API_KEY` lub OpenAI Codex OAuth
Generowanie obrazów DeepInfra	`deepinfra/black-forest-labs/FLUX-1-schnell`	`DEEPINFRA_API_KEY`
Generowanie obrazów OpenRouter	`openrouter/google/gemini-3.1-flash-image-preview`	`OPENROUTER_API_KEY`
Generowanie obrazów LiteLLM	`litellm/gpt-image-2`	`LITELLM_API_KEY`
Generowanie obrazów Google Gemini	`google/gemini-3.1-flash-image-preview`	`GEMINI_API_KEY` lub `GOOGLE_API_KEY`

To samo narzędzie image_generate obsługuje generowanie obrazu z tekstu oraz edycję obrazu referencyjnego. Użyj image dla jednej referencji albo images dla wielu referencji. Wskazówki wyjściowe obsługiwane przez dostawcę, takie jak quality, outputFormat i background, są przekazywane, gdy są dostępne, oraz zgłaszane jako zignorowane, gdy dostawca ich nie obsługuje. Wbudowana obsługa przezroczystego tła jest specyficzna dla OpenAI; inni dostawcy mogą nadal zachować kanał alfa PNG, jeśli ich backend go emituje.

Obsługiwani dostawcy

Dostawca	Model domyślny	Obsługa edycji	Uwierzytelnianie
ComfyUI	`workflow`	Tak (1 obraz, skonfigurowane przez workflow)	`COMFY_API_KEY` lub `COMFY_CLOUD_API_KEY` dla chmury
DeepInfra	`black-forest-labs/FLUX-1-schnell`	Tak (1 obraz)	`DEEPINFRA_API_KEY`
fal	`fal-ai/flux/dev`	Tak	`FAL_KEY`
Google	`gemini-3.1-flash-image-preview`	Tak	`GEMINI_API_KEY` lub `GOOGLE_API_KEY`
LiteLLM	`gpt-image-2`	Tak (do 5 obrazów wejściowych)	`LITELLM_API_KEY`
MiniMax	`image-01`	Tak (referencja tematu)	`MINIMAX_API_KEY` lub MiniMax OAuth (`minimax-portal`)
OpenAI	`gpt-image-2`	Tak (do 4 obrazów)	`OPENAI_API_KEY` lub OpenAI Codex OAuth
OpenRouter	`google/gemini-3.1-flash-image-preview`	Tak (do 5 obrazów wejściowych)	`OPENROUTER_API_KEY`
Vydra	`grok-imagine`	Nie	`VYDRA_API_KEY`
xAI	`grok-imagine-image`	Tak (do 5 obrazów)	`XAI_API_KEY`

Użyj action: "list", aby sprawdzić dostępnych dostawców i modele w czasie działania:

/tool image_generate action=list

Możliwości dostawców

Możliwość	ComfyUI	DeepInfra	fal	Google	MiniMax	OpenAI	Vydra	xAI
Generowanie (maks. liczba)	Zdefiniowane przez workflow	4	4	4	9	4	1	4
Edycja / referencja	1 obraz (workflow)	1 obraz	1 obraz	Do 5 obrazów	1 obraz (referencja tematu)	Do 5 obrazów	-	Do 5 obrazów
Kontrola rozmiaru	-	✓	✓	✓	-	Do 4K	-	-
Proporcje	-	-	✓ (tylko generowanie)	✓	✓	-	-	✓
Rozdzielczość (1K/2K/4K)	-	-	✓	✓	-	-	-	1K, 2K

Parametry narzędzia

promptstringrequired

Prompt generowania obrazu. Wymagany dla action: "generate".

action"generate" | "list"

Użyj "list", aby sprawdzić dostępnych dostawców i modele w czasie działania.

modelstring

Nadpisanie dostawcy/modelu (np. openai/gpt-image-2). Użyj openai/gpt-image-1.5 dla przezroczystych teł OpenAI.

imagestring

Ścieżka albo URL pojedynczego obrazu referencyjnego dla trybu edycji.

imagesstring[]

Wiele obrazów referencyjnych dla trybu edycji (do 5 u obsługujących dostawców).

sizestring

Wskazówka rozmiaru: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.

aspectRatiostring

Proporcje: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.

resolution"1K" | "2K" | "4K"

quality"low" | "medium" | "high" | "auto"

Wskazówka jakości, gdy dostawca ją obsługuje.

outputFormat"png" | "jpeg" | "webp"

Wskazówka formatu wyjściowego, gdy dostawca ją obsługuje.

background"transparent" | "opaque" | "auto"

Wskazówka tła, gdy dostawca ją obsługuje. Użyj transparent z outputFormat: "png" albo "webp" dla dostawców obsługujących przezroczystość.

countnumber

timeoutMsnumber

filenamestring

openaiobject

Wskazówki tylko dla OpenAI: background, moderation, outputCompression i user.

Konfiguracja

Wybór modelu

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
        fallbacks: [
          "openrouter/google/gemini-3.1-flash-image-preview",
          "google/gemini-3.1-flash-image-preview",
          "fal/fal-ai/flux/dev",
        ],
      },
    },
  },
}

Kolejność wyboru dostawców

OpenClaw próbuje dostawców w tej kolejności:

Parametr model z wywołania narzędzia (jeśli agent go określi).
imageGenerationModel.primary z konfiguracji.
imageGenerationModel.fallbacks w kolejności.
Automatyczne wykrywanie - tylko domyślni dostawcy z działającym uwierzytelnianiem:
- najpierw bieżący domyślny dostawca;
- pozostali zarejestrowani dostawcy generowania obrazów w kolejności identyfikatorów dostawców.

Jeśli dostawca zawiedzie (błąd uwierzytelniania, limit szybkości itd.), następny skonfigurowany kandydat jest próbowany automatycznie. Jeśli wszyscy zawiodą, błąd zawiera szczegóły z każdej próby.

Nadpisania modelu dla pojedynczego wywołania są dokładne

Nadpisanie model dla pojedynczego wywołania próbuje tylko tego dostawcy/modelu i nie przechodzi dalej do skonfigurowanego modelu głównego/zapasowego ani automatycznie wykrytych dostawców.

Automatyczne wykrywanie uwzględnia uwierzytelnianie

Domyślny dostawca trafia na listę kandydatów tylko wtedy, gdy OpenClaw może faktycznie uwierzytelnić tego dostawcę. Ustaw agents.defaults.mediaGenerationAutoProviderFallback: false, aby używać tylko jawnych wpisów model, primary i fallbacks.

Limity czasu

Ustaw agents.defaults.imageGenerationModel.timeoutMs dla wolnych backendów obrazów. Parametr narzędzia timeoutMs dla pojedynczego wywołania nadpisuje skonfigurowaną wartość domyślną.

Sprawdzanie w czasie działania

Użyj action: "list", aby sprawdzić aktualnie zarejestrowanych dostawców, ich modele domyślne oraz wskazówki dotyczące zmiennych środowiskowych uwierzytelniania.

Edycja obrazów

OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI i xAI obsługują edycję obrazów referencyjnych. Przekaż ścieżkę albo URL obrazu referencyjnego:

"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

OpenAI, OpenRouter, Google i xAI obsługują do 5 obrazów referencyjnych przez parametr images. fal, MiniMax i ComfyUI obsługują 1.

Szczegółowe omówienia dostawców

OpenAI gpt-image-2 (i gpt-image-1.5)

Generowanie obrazów OpenAI domyślnie używa openai/gpt-image-2. Jeśli skonfigurowano profil OAuth openai-codex, OpenClaw ponownie używa tego samego profilu OAuth, którego używają modele czatu subskrypcji Codex, i wysyła żądanie obrazu przez backend Codex Responses. Starsze bazowe adresy URL Codex, takie jak https://chatgpt.com/backend-api, są kanonizowane do https://chatgpt.com/backend-api/codex dla żądań obrazów. OpenClaw nie przełącza się po cichu na OPENAI_API_KEY dla tego żądania - aby wymusić bezpośrednie kierowanie przez OpenAI Images API, skonfiguruj models.providers.openai jawnie za pomocą klucza API, niestandardowego bazowego adresu URL lub punktu końcowego Azure.

Modele openai/gpt-image-1.5, openai/gpt-image-1 i openai/gpt-image-1-mini nadal można wybrać jawnie. Użyj gpt-image-1.5 do danych wyjściowych PNG/WebP z przezroczystym tłem; obecne API gpt-image-2 odrzuca background: "transparent".

gpt-image-2 obsługuje zarówno generowanie tekst-na-obraz, jak i edycję obrazu referencyjnego przez to samo narzędzie image_generate. OpenClaw przekazuje do OpenAI prompt, count, size, quality, outputFormat oraz obrazy referencyjne. OpenAI nie otrzymuje bezpośrednio aspectRatio ani resolution; gdy to możliwe, OpenClaw mapuje je na obsługiwane size, w przeciwnym razie narzędzie zgłasza je jako zignorowane nadpisania.

Opcje specyficzne dla OpenAI znajdują się pod obiektem openai:

{
  "quality": "low",
  "outputFormat": "jpeg",
  "openai": {
    "background": "opaque",
    "moderation": "low",
    "outputCompression": 60,
    "user": "end-user-42"
  }
}

openai.background przyjmuje transparent, opaque albo auto; przezroczyste dane wyjściowe wymagają outputFormat png albo webp oraz modelu obrazów OpenAI obsługującego przezroczystość. OpenClaw kieruje domyślne żądania gpt-image-2 z przezroczystym tłem do gpt-image-1.5. openai.outputCompression dotyczy danych wyjściowych JPEG/WebP.

Wskazówka najwyższego poziomu background jest neutralna względem dostawcy i obecnie mapuje się na to samo pole żądania OpenAI background, gdy wybrany jest dostawca OpenAI. Dostawcy, którzy nie deklarują obsługi tła, zwracają ją w ignoredOverrides zamiast otrzymywać nieobsługiwany parametr.

Aby kierować generowanie obrazów OpenAI przez wdrożenie Azure OpenAI zamiast api.openai.com, zobacz punkty końcowe Azure OpenAI.

Modele obrazów OpenRouter

Generowanie obrazów OpenRouter używa tego samego OPENROUTER_API_KEY i jest kierowane przez API obrazów uzupełnień czatu OpenRouter. Wybieraj modele obrazów OpenRouter z prefiksem openrouter/:

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openrouter/google/gemini-3.1-flash-image-preview",
      },
    },
  },
}

OpenClaw przekazuje do OpenRouter prompt, count, obrazy referencyjne oraz wskazówki aspectRatio / resolution zgodne z Gemini. Obecne wbudowane skróty modeli obrazów OpenRouter obejmują google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview oraz openai/gpt-5.4-image-2. Użyj action: "list", aby zobaczyć, co udostępnia skonfigurowany Plugin.

Podwójne uwierzytelnianie MiniMax

Generowanie obrazów MiniMax jest dostępne przez obie wbudowane ścieżki uwierzytelniania MiniMax:

minimax/image-01 dla konfiguracji z kluczem API
minimax-portal/image-01 dla konfiguracji OAuth

xAI grok-imagine-image

Wbudowany dostawca xAI używa /v1/images/generations dla żądań wyłącznie z promptem oraz /v1/images/edits, gdy obecne jest image albo images.

Modele: xai/grok-imagine-image, xai/grok-imagine-image-pro
Liczba: do 4
Referencje: jedno image albo do pięciu images
Proporcje obrazu: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
Rozdzielczości: 1K, 2K
Dane wyjściowe: zwracane jako załączniki obrazów zarządzane przez OpenClaw

OpenClaw celowo nie udostępnia natywnych dla xAI pól quality, mask, user ani dodatkowych proporcji obrazu wyłącznie natywnych, dopóki te kontrolki nie będą istnieć we wspólnym kontrakcie między dostawcami image_generate.

Przykłady

Generowanie (krajobraz 4K)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

Generowanie (przezroczysty PNG)

/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

Równoważne CLI:

openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json

Generowanie (dwa kwadratowe)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

Edycja (jedna referencja)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

Edycja (wiele referencji)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

Te same flagi --output-format i --background są dostępne w openclaw infer image edit; --openai-background pozostaje aliasem specyficznym dla OpenAI. Wbudowani dostawcy inni niż OpenAI nie deklarują dziś jawnej kontroli tła, więc background: "transparent" jest dla nich zgłaszane jako zignorowane.

Powiązane

Przegląd narzędzi - wszystkie dostępne narzędzia agentów
ComfyUI - konfiguracja lokalnego przepływu pracy ComfyUI i Comfy Cloud
fal - konfiguracja dostawcy obrazów i wideo fal
Google (Gemini) - konfiguracja dostawcy obrazów Gemini
MiniMax - konfiguracja dostawcy obrazów MiniMax
OpenAI - konfiguracja dostawcy OpenAI Images
Vydra - konfiguracja obrazów, wideo i mowy Vydra
xAI - konfiguracja obrazów, wideo, wyszukiwania, wykonywania kodu i TTS Grok
Informacje o konfiguracji - konfiguracja imageGenerationModel
Modele - konfiguracja modeli i przełączanie awaryjne

# Szybki start

Skonfiguruj uwierzytelnianie

Wybierz model domyślny (opcjonalnie)

Zapytaj agenta

# Typowe trasy

# Obsługiwani dostawcy

# Możliwości dostawców

# Parametry narzędzia

# Konfiguracja

# Wybór modelu

# Kolejność wyboru dostawców

# Edycja obrazów

# Szczegółowe omówienia dostawców

# Przykłady