Tools

Geração de imagens

A ferramenta image_generate permite que o agente crie e edite imagens usando seus provedores configurados. As imagens geradas são entregues automaticamente como anexos de mídia na resposta do agente.

Início rápido

Configurar autenticação

Defina uma chave de API para pelo menos um provedor (por exemplo OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) ou entre com OpenAI Codex OAuth.

Escolher um modelo padrão (opcional)

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
      },
    },
  },
}

Codex OAuth usa a mesma referência de modelo openai/gpt-image-2. Quando um perfil OAuth openai-codex está configurado, o OpenClaw encaminha solicitações de imagem por esse perfil OAuth em vez de tentar primeiro OPENAI_API_KEY. Configuração explícita de models.providers.openai (chave de API, URL base personalizada/Azure) volta a optar pela rota direta da OpenAI Images API.

Perguntar ao agente

"Gere uma imagem de um mascote robô amigável."

O agente chama image_generate automaticamente. Não é necessário permitir a ferramenta em uma lista; ela é habilitada por padrão quando um provedor está disponível.

Rotas comuns

Objetivo	Referência de modelo	Autenticação
Geração de imagens OpenAI com cobrança por API	`openai/gpt-image-2`	`OPENAI_API_KEY`
Geração de imagens OpenAI com autenticação de assinatura Codex	`openai/gpt-image-2`	OpenAI Codex OAuth
PNG/WebP com fundo transparente da OpenAI	`openai/gpt-image-1.5`	`OPENAI_API_KEY` ou OpenAI Codex OAuth
Geração de imagens DeepInfra	`deepinfra/black-forest-labs/FLUX-1-schnell`	`DEEPINFRA_API_KEY`
Geração de imagens OpenRouter	`openrouter/google/gemini-3.1-flash-image-preview`	`OPENROUTER_API_KEY`
Geração de imagens LiteLLM	`litellm/gpt-image-2`	`LITELLM_API_KEY`
Geração de imagens Google Gemini	`google/gemini-3.1-flash-image-preview`	`GEMINI_API_KEY` ou `GOOGLE_API_KEY`

A mesma ferramenta image_generate lida com texto para imagem e edição com imagem de referência. Use image para uma referência ou images para várias referências. Dicas de saída aceitas pelo provedor, como quality, outputFormat e background, são encaminhadas quando disponíveis e relatadas como ignoradas quando um provedor não oferece suporte a elas. O suporte integrado a fundo transparente é específico da OpenAI; outros provedores ainda podem preservar o alfa de PNG se o backend deles o emitir.

Provedores compatíveis

Provedor	Modelo padrão	Suporte a edição	Autenticação
ComfyUI	`workflow`	Sim (1 imagem, configurada por workflow)	`COMFY_API_KEY` ou `COMFY_CLOUD_API_KEY` para nuvem
DeepInfra	`black-forest-labs/FLUX-1-schnell`	Sim (1 imagem)	`DEEPINFRA_API_KEY`
fal	`fal-ai/flux/dev`	Sim	`FAL_KEY`
Google	`gemini-3.1-flash-image-preview`	Sim	`GEMINI_API_KEY` ou `GOOGLE_API_KEY`
LiteLLM	`gpt-image-2`	Sim (até 5 imagens de entrada)	`LITELLM_API_KEY`
MiniMax	`image-01`	Sim (referência de assunto)	`MINIMAX_API_KEY` ou MiniMax OAuth (`minimax-portal`)
OpenAI	`gpt-image-2`	Sim (até 4 imagens)	`OPENAI_API_KEY` ou OpenAI Codex OAuth
OpenRouter	`google/gemini-3.1-flash-image-preview`	Sim (até 5 imagens de entrada)	`OPENROUTER_API_KEY`
Vydra	`grok-imagine`	Não	`VYDRA_API_KEY`
xAI	`grok-imagine-image`	Sim (até 5 imagens)	`XAI_API_KEY`

Use action: "list" para inspecionar provedores e modelos disponíveis em tempo de execução:

/tool image_generate action=list

Capacidades dos provedores

Capacidade	ComfyUI	DeepInfra	fal	Google	MiniMax	OpenAI	Vydra	xAI
Gerar (contagem máx.)	Definido por workflow	4	4	4	9	4	1	4
Editar / referência	1 imagem (workflow)	1 imagem	1 imagem	Até 5 imagens	1 imagem (ref. de assunto)	Até 5 imagens	-	Até 5 imagens
Controle de tamanho	-	✓	✓	✓	-	Até 4K	-	-
Proporção	-	-	✓ (somente gerar)	✓	✓	-	-	✓
Resolução (1K/2K/4K)	-	-	✓	✓	-	-	-	1K, 2K

Parâmetros da ferramenta

promptstringrequired

Prompt de geração de imagem. Obrigatório para action: "generate".

action"generate" | "list"

Use "list" para inspecionar provedores e modelos disponíveis em tempo de execução.

modelstring

Substituição de provedor/modelo (por exemplo, openai/gpt-image-2). Use openai/gpt-image-1.5 para fundos transparentes da OpenAI.

imagestring

Caminho ou URL de uma única imagem de referência para o modo de edição.

imagesstring[]

Várias imagens de referência para o modo de edição (até 5 em provedores compatíveis).

sizestring

Dica de tamanho: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.

aspectRatiostring

Proporção: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.

resolution"1K" | "2K" | "4K"

quality"low" | "medium" | "high" | "auto"

Dica de qualidade quando o provedor oferece suporte.

outputFormat"png" | "jpeg" | "webp"

Dica de formato de saída quando o provedor oferece suporte.

background"transparent" | "opaque" | "auto"

Dica de fundo quando o provedor oferece suporte. Use transparent com outputFormat: "png" ou "webp" para provedores compatíveis com transparência.

countnumber

timeoutMsnumber

filenamestring

openaiobject

Dicas exclusivas da OpenAI: background, moderation, outputCompression e user.

Configuração

Seleção de modelo

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openai/gpt-image-2",
        timeoutMs: 180_000,
        fallbacks: [
          "openrouter/google/gemini-3.1-flash-image-preview",
          "google/gemini-3.1-flash-image-preview",
          "fal/fal-ai/flux/dev",
        ],
      },
    },
  },
}

Ordem de seleção de provedores

O OpenClaw tenta provedores nesta ordem:

Parâmetro model da chamada da ferramenta (se o agente especificar um).
imageGenerationModel.primary da configuração.
imageGenerationModel.fallbacks em ordem.
Detecção automática - somente padrões de provedor com autenticação:
- provedor padrão atual primeiro;
- demais provedores registrados de geração de imagens em ordem de id do provedor.

Se um provedor falhar (erro de autenticação, limite de taxa etc.), o próximo candidato configurado será tentado automaticamente. Se todos falharem, o erro incluirá detalhes de cada tentativa.

Substituições de modelo por chamada são exatas

Uma substituição de model por chamada tenta apenas aquele provedor/modelo e não continua para provedores primário/fallback configurados ou detectados automaticamente.

A detecção automática considera autenticação

Um padrão de provedor só entra na lista de candidatos quando o OpenClaw consegue autenticar esse provedor de fato. Defina agents.defaults.mediaGenerationAutoProviderFallback: false para usar apenas entradas explícitas de model, primary e fallbacks.

Tempos limite

Defina agents.defaults.imageGenerationModel.timeoutMs para backends de imagem lentos. Um parâmetro de ferramenta timeoutMs por chamada substitui o padrão configurado.

Inspecionar em tempo de execução

Use action: "list" para inspecionar os provedores registrados no momento, seus modelos padrão e dicas de variáveis de ambiente de autenticação.

Edição de imagens

OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI e xAI oferecem suporte à edição de imagens de referência. Passe um caminho ou URL de imagem de referência:

"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

OpenAI, OpenRouter, Google e xAI oferecem suporte a até 5 imagens de referência pelo parâmetro images. fal, MiniMax e ComfyUI oferecem suporte a 1.

Aprofundamentos sobre provedores

OpenAI gpt-image-2 (and gpt-image-1.5)

A geração de imagens da OpenAI usa openai/gpt-image-2 por padrão. Se um perfil OAuth openai-codex estiver configurado, o OpenClaw reutiliza o mesmo perfil OAuth usado pelos modelos de chat por assinatura do Codex e envia a solicitação de imagem pelo backend Codex Responses. URLs base legadas do Codex, como https://chatgpt.com/backend-api, são canonizadas para https://chatgpt.com/backend-api/codex em solicitações de imagem. O OpenClaw não recorre silenciosamente a OPENAI_API_KEY para essa solicitação - para forçar o roteamento direto pela OpenAI Images API, configure models.providers.openai explicitamente com uma chave de API, URL base personalizada ou endpoint do Azure.

Os modelos openai/gpt-image-1.5, openai/gpt-image-1 e openai/gpt-image-1-mini ainda podem ser selecionados explicitamente. Use gpt-image-1.5 para saída PNG/WebP com fundo transparente; a API atual do gpt-image-2 rejeita background: "transparent".

gpt-image-2 oferece suporte tanto à geração de texto para imagem quanto à edição com imagem de referência pela mesma ferramenta image_generate. O OpenClaw encaminha prompt, count, size, quality, outputFormat e imagens de referência para a OpenAI. A OpenAI não recebe aspectRatio ou resolution diretamente; quando possível, o OpenClaw mapeia esses valores para um size compatível, caso contrário a ferramenta os relata como substituições ignoradas.

As opções específicas da OpenAI ficam no objeto openai:

{
  "quality": "low",
  "outputFormat": "jpeg",
  "openai": {
    "background": "opaque",
    "moderation": "low",
    "outputCompression": 60,
    "user": "end-user-42"
  }
}

openai.background aceita transparent, opaque ou auto; saídas transparentes exigem outputFormat png ou webp e um modelo de imagem da OpenAI compatível com transparência. O OpenClaw roteia solicitações padrão de fundo transparente do gpt-image-2 para o gpt-image-1.5. openai.outputCompression se aplica a saídas JPEG/WebP.

A dica de nível superior background é neutra quanto a provedor e atualmente é mapeada para o mesmo campo de solicitação background da OpenAI quando o provedor OpenAI é selecionado. Provedores que não declaram suporte a fundo a retornam em ignoredOverrides em vez de receberem o parâmetro incompatível.

Para rotear a geração de imagens da OpenAI por uma implantação do Azure OpenAI em vez de api.openai.com, consulte endpoints do Azure OpenAI.

OpenRouter image models

A geração de imagens do OpenRouter usa a mesma OPENROUTER_API_KEY e roteia pela API de imagens de conclusões de chat do OpenRouter. Selecione modelos de imagem do OpenRouter com o prefixo openrouter/:

{
  agents: {
    defaults: {
      imageGenerationModel: {
        primary: "openrouter/google/gemini-3.1-flash-image-preview",
      },
    },
  },
}

O OpenClaw encaminha prompt, count, imagens de referência e dicas compatíveis com Gemini de aspectRatio / resolution para o OpenRouter. Os atalhos atuais de modelos de imagem integrados do OpenRouter incluem google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview e openai/gpt-5.4-image-2. Use action: "list" para ver o que seu Plugin configurado expõe.

MiniMax dual-auth

A geração de imagens da MiniMax está disponível pelos dois caminhos de autenticação MiniMax integrados:

minimax/image-01 para configurações com chave de API
minimax-portal/image-01 para configurações com OAuth

xAI grok-imagine-image

O provedor xAI integrado usa /v1/images/generations para solicitações somente com prompt e /v1/images/edits quando image ou images está presente.

Modelos: xai/grok-imagine-image, xai/grok-imagine-image-pro
Contagem: até 4
Referências: uma image ou até cinco images
Proporções: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
Resoluções: 1K, 2K
Saídas: retornadas como anexos de imagem gerenciados pelo OpenClaw

O OpenClaw intencionalmente não expõe quality, mask, user nativos da xAI nem proporções extras somente nativas até que esses controles existam no contrato compartilhado entre provedores image_generate.

Exemplos

Generate (4K landscape)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

Generate (transparent PNG)

/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

CLI equivalente:

openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json

Generate (two square)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

Edit (one reference)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

Edit (multiple references)

/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

As mesmas flags --output-format e --background estão disponíveis em openclaw infer image edit; --openai-background permanece como um alias específico da OpenAI. Provedores integrados que não sejam a OpenAI não declaram controle explícito de fundo hoje, então background: "transparent" é relatado como ignorado para eles.

Relacionados

Visão geral de ferramentas - todas as ferramentas de agente disponíveis
ComfyUI - configuração de fluxo de trabalho local do ComfyUI e Comfy Cloud
fal - configuração do provedor de imagem e vídeo fal
Google (Gemini) - configuração do provedor de imagens Gemini
MiniMax - configuração do provedor de imagens MiniMax
OpenAI - configuração do provedor OpenAI Images
Vydra - configuração de imagem, vídeo e fala da Vydra
xAI - configuração de imagem, vídeo, pesquisa, execução de código e TTS do Grok
Referência de configuração - configuração de imageGenerationModel
Modelos - configuração de modelos e failover

# Início rápido

Configurar autenticação

Escolher um modelo padrão (opcional)

Perguntar ao agente

# Rotas comuns

# Provedores compatíveis

# Capacidades dos provedores

# Parâmetros da ferramenta

# Configuração

# Seleção de modelo

# Ordem de seleção de provedores

# Edição de imagens

# Aprofundamentos sobre provedores

# Exemplos