Tools
Geração de imagens
A ferramenta image_generate permite que o agente crie e edite imagens usando seus provedores configurados. As imagens geradas são entregues automaticamente como anexos de mídia na resposta do agente.
Início rápido
Configurar autenticação
Defina uma chave de API para pelo menos um provedor (por exemplo OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) ou entre com OpenAI Codex OAuth.
Escolher um modelo padrão (opcional)
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
},
},
},
}
Codex OAuth usa a mesma referência de modelo openai/gpt-image-2. Quando um perfil OAuth openai-codex está configurado, o OpenClaw encaminha solicitações de imagem por esse perfil OAuth em vez de tentar primeiro OPENAI_API_KEY. Configuração explícita de models.providers.openai (chave de API, URL base personalizada/Azure) volta a optar pela rota direta da OpenAI Images API.
Perguntar ao agente
"Gere uma imagem de um mascote robô amigável."
O agente chama image_generate automaticamente. Não é necessário permitir a ferramenta em uma lista; ela é habilitada por padrão quando um provedor está disponível.
Rotas comuns
| Objetivo | Referência de modelo | Autenticação |
|---|---|---|
| Geração de imagens OpenAI com cobrança por API | openai/gpt-image-2 |
OPENAI_API_KEY |
| Geração de imagens OpenAI com autenticação de assinatura Codex | openai/gpt-image-2 |
OpenAI Codex OAuth |
| PNG/WebP com fundo transparente da OpenAI | openai/gpt-image-1.5 |
OPENAI_API_KEY ou OpenAI Codex OAuth |
| Geração de imagens DeepInfra | deepinfra/black-forest-labs/FLUX-1-schnell |
DEEPINFRA_API_KEY |
| Geração de imagens OpenRouter | openrouter/google/gemini-3.1-flash-image-preview |
OPENROUTER_API_KEY |
| Geração de imagens LiteLLM | litellm/gpt-image-2 |
LITELLM_API_KEY |
| Geração de imagens Google Gemini | google/gemini-3.1-flash-image-preview |
GEMINI_API_KEY ou GOOGLE_API_KEY |
A mesma ferramenta image_generate lida com texto para imagem e edição com imagem de referência. Use image para uma referência ou images para várias referências. Dicas de saída aceitas pelo provedor, como quality, outputFormat e background, são encaminhadas quando disponíveis e relatadas como ignoradas quando um provedor não oferece suporte a elas. O suporte integrado a fundo transparente é específico da OpenAI; outros provedores ainda podem preservar o alfa de PNG se o backend deles o emitir.
Provedores compatíveis
| Provedor | Modelo padrão | Suporte a edição | Autenticação |
|---|---|---|---|
| ComfyUI | workflow |
Sim (1 imagem, configurada por workflow) | COMFY_API_KEY ou COMFY_CLOUD_API_KEY para nuvem |
| DeepInfra | black-forest-labs/FLUX-1-schnell |
Sim (1 imagem) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev |
Sim | FAL_KEY |
gemini-3.1-flash-image-preview |
Sim | GEMINI_API_KEY ou GOOGLE_API_KEY |
|
| LiteLLM | gpt-image-2 |
Sim (até 5 imagens de entrada) | LITELLM_API_KEY |
| MiniMax | image-01 |
Sim (referência de assunto) | MINIMAX_API_KEY ou MiniMax OAuth (minimax-portal) |
| OpenAI | gpt-image-2 |
Sim (até 4 imagens) | OPENAI_API_KEY ou OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview |
Sim (até 5 imagens de entrada) | OPENROUTER_API_KEY |
| Vydra | grok-imagine |
Não | VYDRA_API_KEY |
| xAI | grok-imagine-image |
Sim (até 5 imagens) | XAI_API_KEY |
Use action: "list" para inspecionar provedores e modelos disponíveis em tempo de execução:
/tool image_generate action=list
Capacidades dos provedores
| Capacidade | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| Gerar (contagem máx.) | Definido por workflow | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| Editar / referência | 1 imagem (workflow) | 1 imagem | 1 imagem | Até 5 imagens | 1 imagem (ref. de assunto) | Até 5 imagens | - | Até 5 imagens |
| Controle de tamanho | - | ✓ | ✓ | ✓ | - | Até 4K | - | - |
| Proporção | - | - | ✓ (somente gerar) | ✓ | ✓ | - | - | ✓ |
| Resolução (1K/2K/4K) | - | - | ✓ | ✓ | - | - | - | 1K, 2K |
Parâmetros da ferramenta
promptstringrequiredPrompt de geração de imagem. Obrigatório para action: "generate".
action"generate" | "list"Use "list" para inspecionar provedores e modelos disponíveis em tempo de execução.
modelstringSubstituição de provedor/modelo (por exemplo, openai/gpt-image-2). Use openai/gpt-image-1.5 para fundos transparentes da OpenAI.
imagestringCaminho ou URL de uma única imagem de referência para o modo de edição.
imagesstring[]Várias imagens de referência para o modo de edição (até 5 em provedores compatíveis).
sizestringDica de tamanho: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.
aspectRatiostringProporção: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.
resolution"1K" | "2K" | "4K"quality"low" | "medium" | "high" | "auto"Dica de qualidade quando o provedor oferece suporte.
outputFormat"png" | "jpeg" | "webp"Dica de formato de saída quando o provedor oferece suporte.
background"transparent" | "opaque" | "auto"Dica de fundo quando o provedor oferece suporte. Use transparent com outputFormat: "png" ou "webp" para provedores compatíveis com transparência.
countnumbertimeoutMsnumberfilenamestringopenaiobjectDicas exclusivas da OpenAI: background, moderation, outputCompression e user.
Configuração
Seleção de modelo
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
fallbacks: [
"openrouter/google/gemini-3.1-flash-image-preview",
"google/gemini-3.1-flash-image-preview",
"fal/fal-ai/flux/dev",
],
},
},
},
}
Ordem de seleção de provedores
O OpenClaw tenta provedores nesta ordem:
- Parâmetro
modelda chamada da ferramenta (se o agente especificar um). imageGenerationModel.primaryda configuração.imageGenerationModel.fallbacksem ordem.- Detecção automática - somente padrões de provedor com autenticação:
- provedor padrão atual primeiro;
- demais provedores registrados de geração de imagens em ordem de id do provedor.
Se um provedor falhar (erro de autenticação, limite de taxa etc.), o próximo candidato configurado será tentado automaticamente. Se todos falharem, o erro incluirá detalhes de cada tentativa.
Substituições de modelo por chamada são exatas
Uma substituição de model por chamada tenta apenas aquele provedor/modelo e não continua para provedores primário/fallback configurados ou detectados automaticamente.
A detecção automática considera autenticação
Um padrão de provedor só entra na lista de candidatos quando o OpenClaw consegue autenticar esse provedor de fato. Defina agents.defaults.mediaGenerationAutoProviderFallback: false para usar apenas entradas explícitas de model, primary e fallbacks.
Tempos limite
Defina agents.defaults.imageGenerationModel.timeoutMs para backends de imagem lentos. Um parâmetro de ferramenta timeoutMs por chamada substitui o padrão configurado.
Inspecionar em tempo de execução
Use action: "list" para inspecionar os provedores registrados no momento, seus modelos padrão e dicas de variáveis de ambiente de autenticação.
Edição de imagens
OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI e xAI oferecem suporte à edição de imagens de referência. Passe um caminho ou URL de imagem de referência:
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI, OpenRouter, Google e xAI oferecem suporte a até 5 imagens de referência pelo parâmetro images. fal, MiniMax e ComfyUI oferecem suporte a 1.
Aprofundamentos sobre provedores
OpenAI gpt-image-2 (and gpt-image-1.5)
A geração de imagens da OpenAI usa openai/gpt-image-2 por padrão. Se um
perfil OAuth openai-codex estiver configurado, o OpenClaw reutiliza o mesmo
perfil OAuth usado pelos modelos de chat por assinatura do Codex e envia a
solicitação de imagem pelo backend Codex Responses. URLs base legadas do Codex,
como https://chatgpt.com/backend-api, são canonizadas para
https://chatgpt.com/backend-api/codex em solicitações de imagem. O OpenClaw
não recorre silenciosamente a OPENAI_API_KEY para essa solicitação -
para forçar o roteamento direto pela OpenAI Images API, configure
models.providers.openai explicitamente com uma chave de API, URL base
personalizada ou endpoint do Azure.
Os modelos openai/gpt-image-1.5, openai/gpt-image-1 e
openai/gpt-image-1-mini ainda podem ser selecionados explicitamente. Use
gpt-image-1.5 para saída PNG/WebP com fundo transparente; a API atual do
gpt-image-2 rejeita background: "transparent".
gpt-image-2 oferece suporte tanto à geração de texto para imagem quanto à
edição com imagem de referência pela mesma ferramenta image_generate.
O OpenClaw encaminha prompt, count, size, quality, outputFormat
e imagens de referência para a OpenAI. A OpenAI não recebe
aspectRatio ou resolution diretamente; quando possível, o OpenClaw
mapeia esses valores para um size compatível, caso contrário a ferramenta os
relata como substituições ignoradas.
As opções específicas da OpenAI ficam no objeto openai:
{
"quality": "low",
"outputFormat": "jpeg",
"openai": {
"background": "opaque",
"moderation": "low",
"outputCompression": 60,
"user": "end-user-42"
}
}
openai.background aceita transparent, opaque ou auto;
saídas transparentes exigem outputFormat png ou webp e um
modelo de imagem da OpenAI compatível com transparência. O OpenClaw roteia
solicitações padrão de fundo transparente do gpt-image-2 para o
gpt-image-1.5. openai.outputCompression se aplica a saídas JPEG/WebP.
A dica de nível superior background é neutra quanto a provedor e atualmente
é mapeada para o mesmo campo de solicitação background da OpenAI quando o
provedor OpenAI é selecionado. Provedores que não declaram suporte a fundo a
retornam em ignoredOverrides em vez de receberem o parâmetro incompatível.
Para rotear a geração de imagens da OpenAI por uma implantação do Azure OpenAI
em vez de api.openai.com, consulte
endpoints do Azure OpenAI.
OpenRouter image models
A geração de imagens do OpenRouter usa a mesma OPENROUTER_API_KEY e
roteia pela API de imagens de conclusões de chat do OpenRouter. Selecione
modelos de imagem do OpenRouter com o prefixo openrouter/:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openrouter/google/gemini-3.1-flash-image-preview",
},
},
},
}
O OpenClaw encaminha prompt, count, imagens de referência e dicas
compatíveis com Gemini de aspectRatio / resolution para o OpenRouter.
Os atalhos atuais de modelos de imagem integrados do OpenRouter incluem
google/gemini-3.1-flash-image-preview,
google/gemini-3-pro-image-preview e openai/gpt-5.4-image-2. Use
action: "list" para ver o que seu Plugin configurado expõe.
MiniMax dual-auth
A geração de imagens da MiniMax está disponível pelos dois caminhos de autenticação MiniMax integrados:
minimax/image-01para configurações com chave de APIminimax-portal/image-01para configurações com OAuth
xAI grok-imagine-image
O provedor xAI integrado usa /v1/images/generations para solicitações
somente com prompt e /v1/images/edits quando image ou images está presente.
- Modelos:
xai/grok-imagine-image,xai/grok-imagine-image-pro - Contagem: até 4
- Referências: uma
imageou até cincoimages - Proporções:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Resoluções:
1K,2K - Saídas: retornadas como anexos de imagem gerenciados pelo OpenClaw
O OpenClaw intencionalmente não expõe quality, mask, user nativos da xAI
nem proporções extras somente nativas até que esses controles existam no
contrato compartilhado entre provedores image_generate.
Exemplos
Generate (4K landscape)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
Generate (transparent PNG)
/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent
CLI equivalente:
openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json
Generate (two square)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2
Edit (one reference)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536
Edit (multiple references)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024
As mesmas flags --output-format e --background estão disponíveis em
openclaw infer image edit; --openai-background permanece como um alias
específico da OpenAI. Provedores integrados que não sejam a OpenAI não declaram
controle explícito de fundo hoje, então background: "transparent" é relatado
como ignorado para eles.
Relacionados
- Visão geral de ferramentas - todas as ferramentas de agente disponíveis
- ComfyUI - configuração de fluxo de trabalho local do ComfyUI e Comfy Cloud
- fal - configuração do provedor de imagem e vídeo fal
- Google (Gemini) - configuração do provedor de imagens Gemini
- MiniMax - configuração do provedor de imagens MiniMax
- OpenAI - configuração do provedor OpenAI Images
- Vydra - configuração de imagem, vídeo e fala da Vydra
- xAI - configuração de imagem, vídeo, pesquisa, execução de código e TTS do Grok
- Referência de configuração - configuração de
imageGenerationModel - Modelos - configuração de modelos e failover