Tools

Generowanie obrazów

Narzędzie image_generate pozwala agentowi tworzyć i edytować obrazy przy użyciu skonfigurowanych dostawców. Wygenerowane obrazy są automatycznie dostarczane jako załączniki multimedialne w odpowiedzi agenta.

Szybki start

  • Skonfiguruj uwierzytelnianie

    Ustaw klucz API dla co najmniej jednego dostawcy (na przykład OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) albo zaloguj się przez OpenAI Codex OAuth.

  • Wybierz model domyślny (opcjonalnie)

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "openai/gpt-image-2",
            timeoutMs: 180_000,
          },
        },
      },
    }
    

    Codex OAuth używa tego samego odwołania do modelu openai/gpt-image-2. Gdy skonfigurowany jest profil OAuth openai-codex, OpenClaw kieruje żądania obrazów przez ten profil OAuth zamiast najpierw próbować OPENAI_API_KEY. Jawna konfiguracja models.providers.openai (klucz API, niestandardowy/Azure bazowy URL) ponownie wybiera bezpośrednią trasę OpenAI Images API.

  • Zapytaj agenta

    "Wygeneruj obraz przyjaznej maskotki robota."

    Agent wywołuje image_generate automatycznie. Nie trzeba dodawać narzędzia do listy dozwolonych

    • jest domyślnie włączone, gdy dostępny jest dostawca.
  • Typowe trasy

    Cel Odwołanie do modelu Uwierzytelnianie
    Generowanie obrazów OpenAI z rozliczeniem przez API openai/gpt-image-2 OPENAI_API_KEY
    Generowanie obrazów OpenAI z uwierzytelnianiem subskrypcji Codex openai/gpt-image-2 OpenAI Codex OAuth
    OpenAI PNG/WebP z przezroczystym tłem openai/gpt-image-1.5 OPENAI_API_KEY lub OpenAI Codex OAuth
    Generowanie obrazów DeepInfra deepinfra/black-forest-labs/FLUX-1-schnell DEEPINFRA_API_KEY
    Generowanie obrazów OpenRouter openrouter/google/gemini-3.1-flash-image-preview OPENROUTER_API_KEY
    Generowanie obrazów LiteLLM litellm/gpt-image-2 LITELLM_API_KEY
    Generowanie obrazów Google Gemini google/gemini-3.1-flash-image-preview GEMINI_API_KEY lub GOOGLE_API_KEY

    To samo narzędzie image_generate obsługuje generowanie obrazu z tekstu oraz edycję obrazu referencyjnego. Użyj image dla jednej referencji albo images dla wielu referencji. Wskazówki wyjściowe obsługiwane przez dostawcę, takie jak quality, outputFormat i background, są przekazywane, gdy są dostępne, oraz zgłaszane jako zignorowane, gdy dostawca ich nie obsługuje. Wbudowana obsługa przezroczystego tła jest specyficzna dla OpenAI; inni dostawcy mogą nadal zachować kanał alfa PNG, jeśli ich backend go emituje.

    Obsługiwani dostawcy

    Dostawca Model domyślny Obsługa edycji Uwierzytelnianie
    ComfyUI workflow Tak (1 obraz, skonfigurowane przez workflow) COMFY_API_KEY lub COMFY_CLOUD_API_KEY dla chmury
    DeepInfra black-forest-labs/FLUX-1-schnell Tak (1 obraz) DEEPINFRA_API_KEY
    fal fal-ai/flux/dev Tak FAL_KEY
    Google gemini-3.1-flash-image-preview Tak GEMINI_API_KEY lub GOOGLE_API_KEY
    LiteLLM gpt-image-2 Tak (do 5 obrazów wejściowych) LITELLM_API_KEY
    MiniMax image-01 Tak (referencja tematu) MINIMAX_API_KEY lub MiniMax OAuth (minimax-portal)
    OpenAI gpt-image-2 Tak (do 4 obrazów) OPENAI_API_KEY lub OpenAI Codex OAuth
    OpenRouter google/gemini-3.1-flash-image-preview Tak (do 5 obrazów wejściowych) OPENROUTER_API_KEY
    Vydra grok-imagine Nie VYDRA_API_KEY
    xAI grok-imagine-image Tak (do 5 obrazów) XAI_API_KEY

    Użyj action: "list", aby sprawdzić dostępnych dostawców i modele w czasie działania:

    /tool image_generate action=list
    

    Możliwości dostawców

    Możliwość ComfyUI DeepInfra fal Google MiniMax OpenAI Vydra xAI
    Generowanie (maks. liczba) Zdefiniowane przez workflow 4 4 4 9 4 1 4
    Edycja / referencja 1 obraz (workflow) 1 obraz 1 obraz Do 5 obrazów 1 obraz (referencja tematu) Do 5 obrazów - Do 5 obrazów
    Kontrola rozmiaru - - Do 4K - -
    Proporcje - - ✓ (tylko generowanie) - -
    Rozdzielczość (1K/2K/4K) - - - - - 1K, 2K

    Parametry narzędzia

    promptstringrequired

    Prompt generowania obrazu. Wymagany dla action: "generate".

    action"generate" | "list"

    Użyj "list", aby sprawdzić dostępnych dostawców i modele w czasie działania.

    modelstring

    Nadpisanie dostawcy/modelu (np. openai/gpt-image-2). Użyj openai/gpt-image-1.5 dla przezroczystych teł OpenAI.

    imagestring

    Ścieżka albo URL pojedynczego obrazu referencyjnego dla trybu edycji.

    imagesstring[]

    Wiele obrazów referencyjnych dla trybu edycji (do 5 u obsługujących dostawców).

    sizestring

    Wskazówka rozmiaru: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.

    aspectRatiostring

    Proporcje: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.

    resolution"1K" | "2K" | "4K"
    quality"low" | "medium" | "high" | "auto"

    Wskazówka jakości, gdy dostawca ją obsługuje.

    outputFormat"png" | "jpeg" | "webp"

    Wskazówka formatu wyjściowego, gdy dostawca ją obsługuje.

    background"transparent" | "opaque" | "auto"

    Wskazówka tła, gdy dostawca ją obsługuje. Użyj transparent z outputFormat: "png" albo "webp" dla dostawców obsługujących przezroczystość.

    countnumber
    timeoutMsnumber
    filenamestring
    openaiobject

    Wskazówki tylko dla OpenAI: background, moderation, outputCompression i user.

    Konfiguracja

    Wybór modelu

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "openai/gpt-image-2",
            timeoutMs: 180_000,
            fallbacks: [
              "openrouter/google/gemini-3.1-flash-image-preview",
              "google/gemini-3.1-flash-image-preview",
              "fal/fal-ai/flux/dev",
            ],
          },
        },
      },
    }
    

    Kolejność wyboru dostawców

    OpenClaw próbuje dostawców w tej kolejności:

    1. Parametr model z wywołania narzędzia (jeśli agent go określi).
    2. imageGenerationModel.primary z konfiguracji.
    3. imageGenerationModel.fallbacks w kolejności.
    4. Automatyczne wykrywanie - tylko domyślni dostawcy z działającym uwierzytelnianiem:
      • najpierw bieżący domyślny dostawca;
      • pozostali zarejestrowani dostawcy generowania obrazów w kolejności identyfikatorów dostawców.

    Jeśli dostawca zawiedzie (błąd uwierzytelniania, limit szybkości itd.), następny skonfigurowany kandydat jest próbowany automatycznie. Jeśli wszyscy zawiodą, błąd zawiera szczegóły z każdej próby.

    Nadpisania modelu dla pojedynczego wywołania są dokładne

    Nadpisanie model dla pojedynczego wywołania próbuje tylko tego dostawcy/modelu i nie przechodzi dalej do skonfigurowanego modelu głównego/zapasowego ani automatycznie wykrytych dostawców.

    Automatyczne wykrywanie uwzględnia uwierzytelnianie

    Domyślny dostawca trafia na listę kandydatów tylko wtedy, gdy OpenClaw może faktycznie uwierzytelnić tego dostawcę. Ustaw agents.defaults.mediaGenerationAutoProviderFallback: false, aby używać tylko jawnych wpisów model, primary i fallbacks.

    Limity czasu

    Ustaw agents.defaults.imageGenerationModel.timeoutMs dla wolnych backendów obrazów. Parametr narzędzia timeoutMs dla pojedynczego wywołania nadpisuje skonfigurowaną wartość domyślną.

    Sprawdzanie w czasie działania

    Użyj action: "list", aby sprawdzić aktualnie zarejestrowanych dostawców, ich modele domyślne oraz wskazówki dotyczące zmiennych środowiskowych uwierzytelniania.

    Edycja obrazów

    OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI i xAI obsługują edycję obrazów referencyjnych. Przekaż ścieżkę albo URL obrazu referencyjnego:

    "Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
    

    OpenAI, OpenRouter, Google i xAI obsługują do 5 obrazów referencyjnych przez parametr images. fal, MiniMax i ComfyUI obsługują 1.

    Szczegółowe omówienia dostawców

    OpenAI gpt-image-2 (i gpt-image-1.5)

    Generowanie obrazów OpenAI domyślnie używa openai/gpt-image-2. Jeśli skonfigurowano profil OAuth openai-codex, OpenClaw ponownie używa tego samego profilu OAuth, którego używają modele czatu subskrypcji Codex, i wysyła żądanie obrazu przez backend Codex Responses. Starsze bazowe adresy URL Codex, takie jak https://chatgpt.com/backend-api, są kanonizowane do https://chatgpt.com/backend-api/codex dla żądań obrazów. OpenClaw nie przełącza się po cichu na OPENAI_API_KEY dla tego żądania - aby wymusić bezpośrednie kierowanie przez OpenAI Images API, skonfiguruj models.providers.openai jawnie za pomocą klucza API, niestandardowego bazowego adresu URL lub punktu końcowego Azure.

    Modele openai/gpt-image-1.5, openai/gpt-image-1 i openai/gpt-image-1-mini nadal można wybrać jawnie. Użyj gpt-image-1.5 do danych wyjściowych PNG/WebP z przezroczystym tłem; obecne API gpt-image-2 odrzuca background: "transparent".

    gpt-image-2 obsługuje zarówno generowanie tekst-na-obraz, jak i edycję obrazu referencyjnego przez to samo narzędzie image_generate. OpenClaw przekazuje do OpenAI prompt, count, size, quality, outputFormat oraz obrazy referencyjne. OpenAI nie otrzymuje bezpośrednio aspectRatio ani resolution; gdy to możliwe, OpenClaw mapuje je na obsługiwane size, w przeciwnym razie narzędzie zgłasza je jako zignorowane nadpisania.

    Opcje specyficzne dla OpenAI znajdują się pod obiektem openai:

    {
      "quality": "low",
      "outputFormat": "jpeg",
      "openai": {
        "background": "opaque",
        "moderation": "low",
        "outputCompression": 60,
        "user": "end-user-42"
      }
    }
    

    openai.background przyjmuje transparent, opaque albo auto; przezroczyste dane wyjściowe wymagają outputFormat png albo webp oraz modelu obrazów OpenAI obsługującego przezroczystość. OpenClaw kieruje domyślne żądania gpt-image-2 z przezroczystym tłem do gpt-image-1.5. openai.outputCompression dotyczy danych wyjściowych JPEG/WebP.

    Wskazówka najwyższego poziomu background jest neutralna względem dostawcy i obecnie mapuje się na to samo pole żądania OpenAI background, gdy wybrany jest dostawca OpenAI. Dostawcy, którzy nie deklarują obsługi tła, zwracają ją w ignoredOverrides zamiast otrzymywać nieobsługiwany parametr.

    Aby kierować generowanie obrazów OpenAI przez wdrożenie Azure OpenAI zamiast api.openai.com, zobacz punkty końcowe Azure OpenAI.

    Modele obrazów OpenRouter

    Generowanie obrazów OpenRouter używa tego samego OPENROUTER_API_KEY i jest kierowane przez API obrazów uzupełnień czatu OpenRouter. Wybieraj modele obrazów OpenRouter z prefiksem openrouter/:

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "openrouter/google/gemini-3.1-flash-image-preview",
          },
        },
      },
    }
    

    OpenClaw przekazuje do OpenRouter prompt, count, obrazy referencyjne oraz wskazówki aspectRatio / resolution zgodne z Gemini. Obecne wbudowane skróty modeli obrazów OpenRouter obejmują google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview oraz openai/gpt-5.4-image-2. Użyj action: "list", aby zobaczyć, co udostępnia skonfigurowany Plugin.

    Podwójne uwierzytelnianie MiniMax

    Generowanie obrazów MiniMax jest dostępne przez obie wbudowane ścieżki uwierzytelniania MiniMax:

    • minimax/image-01 dla konfiguracji z kluczem API
    • minimax-portal/image-01 dla konfiguracji OAuth
    xAI grok-imagine-image

    Wbudowany dostawca xAI używa /v1/images/generations dla żądań wyłącznie z promptem oraz /v1/images/edits, gdy obecne jest image albo images.

    • Modele: xai/grok-imagine-image, xai/grok-imagine-image-pro
    • Liczba: do 4
    • Referencje: jedno image albo do pięciu images
    • Proporcje obrazu: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
    • Rozdzielczości: 1K, 2K
    • Dane wyjściowe: zwracane jako załączniki obrazów zarządzane przez OpenClaw

    OpenClaw celowo nie udostępnia natywnych dla xAI pól quality, mask, user ani dodatkowych proporcji obrazu wyłącznie natywnych, dopóki te kontrolki nie będą istnieć we wspólnym kontrakcie między dostawcami image_generate.

    Przykłady

    Generowanie (krajobraz 4K)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
    

    Generowanie (przezroczysty PNG)

    /tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent
    

    Równoważne CLI:

    openclaw infer image generate \
    --model openai/gpt-image-1.5 \
    --output-format png \
    --background transparent \
    --prompt "A simple red circle sticker on a transparent background" \
    --json
    

    Generowanie (dwa kwadratowe)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2
    

    Edycja (jedna referencja)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536
    

    Edycja (wiele referencji)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024
    

    Te same flagi --output-format i --background są dostępne w openclaw infer image edit; --openai-background pozostaje aliasem specyficznym dla OpenAI. Wbudowani dostawcy inni niż OpenAI nie deklarują dziś jawnej kontroli tła, więc background: "transparent" jest dla nich zgłaszane jako zignorowane.

    Powiązane

    • Przegląd narzędzi - wszystkie dostępne narzędzia agentów
    • ComfyUI - konfiguracja lokalnego przepływu pracy ComfyUI i Comfy Cloud
    • fal - konfiguracja dostawcy obrazów i wideo fal
    • Google (Gemini) - konfiguracja dostawcy obrazów Gemini
    • MiniMax - konfiguracja dostawcy obrazów MiniMax
    • OpenAI - konfiguracja dostawcy OpenAI Images
    • Vydra - konfiguracja obrazów, wideo i mowy Vydra
    • xAI - konfiguracja obrazów, wideo, wyszukiwania, wykonywania kodu i TTS Grok
    • Informacje o konfiguracji - konfiguracja imageGenerationModel
    • Modele - konfiguracja modeli i przełączanie awaryjne