Tools
การสร้างภาพ
เครื่องมือ image_generate ช่วยให้เอเจนต์สร้างและแก้ไขรูปภาพโดยใช้ผู้ให้บริการที่คุณกำหนดค่าไว้ รูปภาพที่สร้างขึ้นจะถูกส่งโดยอัตโนมัติเป็นไฟล์แนบสื่อในคำตอบของเอเจนต์
เริ่มต้นอย่างรวดเร็ว
กำหนดค่าการยืนยันตัวตน
ตั้งค่าคีย์ API สำหรับผู้ให้บริการอย่างน้อยหนึ่งราย (เช่น OPENAI_API_KEY,
GEMINI_API_KEY, OPENROUTER_API_KEY) หรือลงชื่อเข้าใช้ด้วย OpenAI Codex OAuth
เลือกโมเดลเริ่มต้น (ไม่บังคับ)
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
},
},
},
}
Codex OAuth ใช้การอ้างอิงโมเดล openai/gpt-image-2 เดียวกัน เมื่อกำหนดค่าโปรไฟล์ OAuth
openai-codex แล้ว OpenClaw จะกำหนดเส้นทางคำขอรูปภาพผ่านโปรไฟล์ OAuth นั้นแทนการลองใช้
OPENAI_API_KEY ก่อน การกำหนดค่า models.providers.openai อย่างชัดเจน (คีย์ API,
URL ฐานแบบกำหนดเอง/Azure) จะเลือกกลับไปใช้เส้นทาง OpenAI Images API โดยตรง
ถามเอเจนต์
"สร้างรูปภาพมาสคอตหุ่นยนต์ที่เป็นมิตร"
เอเจนต์จะเรียก image_generate โดยอัตโนมัติ ไม่จำเป็นต้องเพิ่มเครื่องมือในรายการอนุญาต
เพราะจะเปิดใช้เป็นค่าเริ่มต้นเมื่อมีผู้ให้บริการพร้อมใช้งาน
เส้นทางทั่วไป
| เป้าหมาย | การอ้างอิงโมเดล | การยืนยันตัวตน |
|---|---|---|
| การสร้างรูปภาพด้วย OpenAI พร้อมการเรียกเก็บเงินผ่าน API | openai/gpt-image-2 |
OPENAI_API_KEY |
| การสร้างรูปภาพด้วย OpenAI พร้อมการยืนยันตัวตนด้วยการสมัครสมาชิก Codex | openai/gpt-image-2 |
OpenAI Codex OAuth |
| PNG/WebP พื้นหลังโปร่งใสของ OpenAI | openai/gpt-image-1.5 |
OPENAI_API_KEY หรือ OpenAI Codex OAuth |
| การสร้างรูปภาพด้วย DeepInfra | deepinfra/black-forest-labs/FLUX-1-schnell |
DEEPINFRA_API_KEY |
| การสร้างรูปภาพด้วย OpenRouter | openrouter/google/gemini-3.1-flash-image-preview |
OPENROUTER_API_KEY |
| การสร้างรูปภาพด้วย LiteLLM | litellm/gpt-image-2 |
LITELLM_API_KEY |
| การสร้างรูปภาพด้วย Google Gemini | google/gemini-3.1-flash-image-preview |
GEMINI_API_KEY หรือ GOOGLE_API_KEY |
เครื่องมือ image_generate เดียวกันรองรับทั้งข้อความเป็นรูปภาพและการแก้ไขด้วยรูปภาพอ้างอิง ใช้ image สำหรับรูปภาพอ้างอิงหนึ่งรูป หรือ images สำหรับรูปภาพอ้างอิงหลายรูป คำแนะนำเอาต์พุตที่ผู้ให้บริการรองรับ เช่น quality, outputFormat และ background จะถูกส่งต่อเมื่อพร้อมใช้งาน และจะถูกรายงานว่าถูกละเว้นเมื่อผู้ให้บริการไม่รองรับ การรองรับพื้นหลังโปร่งใสที่รวมมาให้เป็นคุณสมบัติเฉพาะของ OpenAI ผู้ให้บริการรายอื่นอาจยังคงรักษา alpha ของ PNG ไว้ได้หากแบ็กเอนด์ของตนส่งออกมา
ผู้ให้บริการที่รองรับ
| ผู้ให้บริการ | โมเดลเริ่มต้น | การรองรับการแก้ไข | การยืนยันตัวตน |
|---|---|---|---|
| ComfyUI | workflow |
ใช่ (1 รูปภาพ, กำหนดค่าโดย workflow) | COMFY_API_KEY หรือ COMFY_CLOUD_API_KEY สำหรับคลาวด์ |
| DeepInfra | black-forest-labs/FLUX-1-schnell |
ใช่ (1 รูปภาพ) | DEEPINFRA_API_KEY |
| fal | fal-ai/flux/dev |
ใช่ | FAL_KEY |
gemini-3.1-flash-image-preview |
ใช่ | GEMINI_API_KEY หรือ GOOGLE_API_KEY |
|
| LiteLLM | gpt-image-2 |
ใช่ (รูปภาพอินพุตสูงสุด 5 รูป) | LITELLM_API_KEY |
| MiniMax | image-01 |
ใช่ (ข้อมูลอ้างอิงตัวแบบ) | MINIMAX_API_KEY หรือ MiniMax OAuth (minimax-portal) |
| OpenAI | gpt-image-2 |
ใช่ (สูงสุด 4 รูปภาพ) | OPENAI_API_KEY หรือ OpenAI Codex OAuth |
| OpenRouter | google/gemini-3.1-flash-image-preview |
ใช่ (รูปภาพอินพุตสูงสุด 5 รูป) | OPENROUTER_API_KEY |
| Vydra | grok-imagine |
ไม่ | VYDRA_API_KEY |
| xAI | grok-imagine-image |
ใช่ (สูงสุด 5 รูปภาพ) | XAI_API_KEY |
ใช้ action: "list" เพื่อตรวจสอบผู้ให้บริการและโมเดลที่พร้อมใช้งานในขณะรันไทม์:
/tool image_generate action=list
ความสามารถของผู้ให้บริการ
| ความสามารถ | ComfyUI | DeepInfra | fal | MiniMax | OpenAI | Vydra | xAI | |
|---|---|---|---|---|---|---|---|---|
| สร้าง (จำนวนสูงสุด) | กำหนดโดย workflow | 4 | 4 | 4 | 9 | 4 | 1 | 4 |
| แก้ไข / อ้างอิง | 1 รูปภาพ (workflow) | 1 รูปภาพ | 1 รูปภาพ | สูงสุด 5 รูปภาพ | 1 รูปภาพ (subject ref) | สูงสุด 5 รูปภาพ | - | สูงสุด 5 รูปภาพ |
| ควบคุมขนาด | - | ✓ | ✓ | ✓ | - | สูงสุด 4K | - | - |
| อัตราส่วนภาพ | - | - | ✓ (สร้างเท่านั้น) | ✓ | ✓ | - | - | ✓ |
| ความละเอียด (1K/2K/4K) | - | - | ✓ | ✓ | - | - | - | 1K, 2K |
พารามิเตอร์เครื่องมือ
promptstringrequiredพรอมป์สำหรับสร้างรูปภาพ จำเป็นสำหรับ action: "generate"
action"generate" | "list"ใช้ "list" เพื่อตรวจสอบผู้ให้บริการและโมเดลที่พร้อมใช้งานในขณะรันไทม์
modelstringการแทนที่ผู้ให้บริการ/โมเดล (เช่น openai/gpt-image-2) ใช้
openai/gpt-image-1.5 สำหรับพื้นหลัง OpenAI แบบโปร่งใส
imagestringพาธหรือ URL ของรูปภาพอ้างอิงเดียวสำหรับโหมดแก้ไข
imagesstring[]รูปภาพอ้างอิงหลายรูปสำหรับโหมดแก้ไข (สูงสุด 5 รูปในผู้ให้บริการที่รองรับ)
sizestringคำแนะนำขนาด: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160
aspectRatiostringอัตราส่วนภาพ: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
resolution"1K" | "2K" | "4K"quality"low" | "medium" | "high" | "auto"คำแนะนำคุณภาพเมื่อผู้ให้บริการรองรับ
outputFormat"png" | "jpeg" | "webp"คำแนะนำรูปแบบเอาต์พุตเมื่อผู้ให้บริการรองรับ
background"transparent" | "opaque" | "auto"คำแนะนำพื้นหลังเมื่อผู้ให้บริการรองรับ ใช้ transparent ร่วมกับ
outputFormat: "png" หรือ "webp" สำหรับผู้ให้บริการที่รองรับความโปร่งใส
countnumbertimeoutMsnumberfilenamestringopenaiobjectคำแนะนำเฉพาะ OpenAI: background, moderation, outputCompression และ user
การกำหนดค่า
การเลือกโมเดล
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openai/gpt-image-2",
timeoutMs: 180_000,
fallbacks: [
"openrouter/google/gemini-3.1-flash-image-preview",
"google/gemini-3.1-flash-image-preview",
"fal/fal-ai/flux/dev",
],
},
},
},
}
ลำดับการเลือกผู้ให้บริการ
OpenClaw จะลองผู้ให้บริการตามลำดับนี้:
- พารามิเตอร์
modelจากการเรียกเครื่องมือ (หากเอเจนต์ระบุไว้) imageGenerationModel.primaryจากการกำหนดค่าimageGenerationModel.fallbacksตามลำดับ- การตรวจจับอัตโนมัติ - เฉพาะค่าเริ่มต้นของผู้ให้บริการที่มีการยืนยันตัวตนรองรับ:
- ผู้ให้บริการเริ่มต้นปัจจุบันก่อน;
- ผู้ให้บริการสร้างรูปภาพที่ลงทะเบียนที่เหลือ ตามลำดับ provider-id
หากผู้ให้บริการล้มเหลว (ข้อผิดพลาดการยืนยันตัวตน, จำกัดอัตรา ฯลฯ) ระบบจะลองตัวเลือกถัดไปที่กำหนดค่าไว้โดยอัตโนมัติ หากทั้งหมดล้มเหลว ข้อผิดพลาดจะมีรายละเอียดจากแต่ละครั้งที่ลอง
การแทนที่โมเดลต่อการเรียกจะตรงตัว
การแทนที่ model ต่อการเรียกจะลองเฉพาะผู้ให้บริการ/โมเดลนั้นเท่านั้น และจะไม่ดำเนินต่อไปยัง primary/fallback ที่กำหนดค่าไว้หรือผู้ให้บริการที่ตรวจพบอัตโนมัติ
การตรวจจับอัตโนมัติคำนึงถึงการยืนยันตัวตน
ค่าเริ่มต้นของผู้ให้บริการจะเข้าสู่รายการตัวเลือกเฉพาะเมื่อ OpenClaw สามารถยืนยันตัวตนกับผู้ให้บริการนั้นได้จริง ตั้งค่า
agents.defaults.mediaGenerationAutoProviderFallback: false เพื่อใช้เฉพาะรายการ model, primary และ fallbacks ที่ระบุอย่างชัดเจน
ระยะหมดเวลา
ตั้งค่า agents.defaults.imageGenerationModel.timeoutMs สำหรับแบ็กเอนด์รูปภาพที่ช้า พารามิเตอร์เครื่องมือ timeoutMs ต่อการเรียกจะแทนที่ค่าเริ่มต้นที่กำหนดค่าไว้
ตรวจสอบในขณะรันไทม์
ใช้ action: "list" เพื่อตรวจสอบผู้ให้บริการที่ลงทะเบียนอยู่ในปัจจุบัน โมเดลเริ่มต้นของผู้ให้บริการเหล่านั้น และคำแนะนำ env-var สำหรับการยืนยันตัวตน
การแก้ไขรูปภาพ
OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI และ xAI รองรับการแก้ไขรูปภาพอ้างอิง ส่งพาธหรือ URL ของรูปภาพอ้างอิง:
"Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
OpenAI, OpenRouter, Google และ xAI รองรับรูปภาพอ้างอิงสูงสุด 5 รูปผ่านพารามิเตอร์
images ส่วน fal, MiniMax และ ComfyUI รองรับ 1 รูป
เจาะลึกผู้ให้บริการ
OpenAI gpt-image-2 (และ gpt-image-1.5)
การสร้างภาพของ OpenAI ใช้ค่าเริ่มต้นเป็น openai/gpt-image-2 หากมีการกำหนดค่าโปรไฟล์ OAuth ของ
openai-codex ไว้ OpenClaw จะใช้โปรไฟล์ OAuth เดียวกับที่โมเดลแชตแบบสมัครสมาชิกของ Codex ใช้ซ้ำ และส่ง
คำขอภาพผ่านแบ็กเอนด์ Codex Responses URL ฐานของ Codex แบบเดิม
เช่น https://chatgpt.com/backend-api จะถูกทำให้เป็นรูปแบบมาตรฐานเป็น
https://chatgpt.com/backend-api/codex สำหรับคำขอภาพ OpenClaw
ไม่ ย้อนกลับไปใช้ OPENAI_API_KEY แบบเงียบๆ สำหรับคำขอนั้น -
หากต้องการบังคับให้กำหนดเส้นทางผ่าน OpenAI Images API โดยตรง ให้กำหนดค่า
models.providers.openai อย่างชัดเจนด้วยคีย์ API, URL ฐานแบบกำหนดเอง,
หรือเอนด์พอยต์ Azure
ยังสามารถเลือกโมเดล openai/gpt-image-1.5, openai/gpt-image-1 และ
openai/gpt-image-1-mini ได้อย่างชัดเจน ใช้
gpt-image-1.5 สำหรับเอาต์พุต PNG/WebP พื้นหลังโปร่งใส; API
gpt-image-2 ปัจจุบันปฏิเสธ background: "transparent"
gpt-image-2 รองรับทั้งการสร้างภาพจากข้อความและ
การแก้ไขภาพอ้างอิงผ่านเครื่องมือ image_generate เดียวกัน
OpenClaw ส่งต่อ prompt, count, size, quality, outputFormat,
และภาพอ้างอิงไปยัง OpenAI โดยตรง OpenAI ไม่ได้ รับ
aspectRatio หรือ resolution โดยตรง; เมื่อเป็นไปได้ OpenClaw จะแมป
ค่าเหล่านั้นเป็น size ที่รองรับ ไม่เช่นนั้นเครื่องมือจะรายงานค่าเหล่านั้นเป็น
การแทนที่ที่ถูกละเว้น
ตัวเลือกเฉพาะของ OpenAI อยู่ใต้เออบเจ็กต์ openai:
{
"quality": "low",
"outputFormat": "jpeg",
"openai": {
"background": "opaque",
"moderation": "low",
"outputCompression": 60,
"user": "end-user-42"
}
}
openai.background รับค่า transparent, opaque หรือ auto;
เอาต์พุตโปร่งใสต้องใช้ outputFormat เป็น png หรือ webp และ
โมเดลภาพของ OpenAI ที่รองรับความโปร่งใส OpenClaw กำหนดเส้นทางคำขอ
พื้นหลังโปร่งใสของ gpt-image-2 ค่าเริ่มต้นไปยัง gpt-image-1.5
openai.outputCompression ใช้กับเอาต์พุต JPEG/WebP
คำใบ้ background ระดับบนสุดเป็นกลางต่อผู้ให้บริการ และในปัจจุบันแมป
ไปยังฟิลด์คำขอ background เดียวกันของ OpenAI เมื่อเลือกผู้ให้บริการ OpenAI
ผู้ให้บริการที่ไม่ได้ประกาศการรองรับพื้นหลังจะคืนค่านี้ใน
ignoredOverrides แทนที่จะได้รับพารามิเตอร์ที่ไม่รองรับ
หากต้องการกำหนดเส้นทางการสร้างภาพของ OpenAI ผ่านการปรับใช้ Azure OpenAI
แทน api.openai.com โปรดดู
เอนด์พอยต์ Azure OpenAI
โมเดลภาพ OpenRouter
การสร้างภาพของ OpenRouter ใช้ OPENROUTER_API_KEY เดียวกัน และ
กำหนดเส้นทางผ่าน API ภาพของแชตคอมพลีชันของ OpenRouter เลือก
โมเดลภาพ OpenRouter ด้วยคำนำหน้า openrouter/:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "openrouter/google/gemini-3.1-flash-image-preview",
},
},
},
}
OpenClaw ส่งต่อ prompt, count, ภาพอ้างอิง และคำใบ้
aspectRatio / resolution ที่เข้ากันได้กับ Gemini ไปยัง OpenRouter
ชอร์ตคัตโมเดลภาพ OpenRouter ที่มีมาให้ในปัจจุบัน ได้แก่
google/gemini-3.1-flash-image-preview,
google/gemini-3-pro-image-preview และ openai/gpt-5.4-image-2 ใช้
action: "list" เพื่อดูว่า Plugin ที่คุณกำหนดค่าเปิดเผยอะไรบ้าง
MiniMax การยืนยันตัวตนคู่
การสร้างภาพ MiniMax พร้อมใช้งานผ่านเส้นทางการยืนยันตัวตน MiniMax ที่รวมมาให้ทั้งสองแบบ:
minimax/image-01สำหรับการตั้งค่าด้วยคีย์ APIminimax-portal/image-01สำหรับการตั้งค่าด้วย OAuth
xAI grok-imagine-image
ผู้ให้บริการ xAI ที่รวมมาให้ใช้ /v1/images/generations สำหรับคำขอที่มีเฉพาะพรอมต์
และใช้ /v1/images/edits เมื่อมี image หรือ images
- โมเดล:
xai/grok-imagine-image,xai/grok-imagine-image-pro - จำนวน: สูงสุด 4
- อ้างอิง: หนึ่ง
imageหรือสูงสุดห้าimages - อัตราส่วนภาพ:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - ความละเอียด:
1K,2K - เอาต์พุต: ส่งคืนเป็นไฟล์แนบภาพที่ OpenClaw จัดการ
OpenClaw ตั้งใจไม่เปิดเผย quality, mask,
user ที่เป็นของ xAI โดยเฉพาะ หรืออัตราส่วนภาพเพิ่มเติมที่มีเฉพาะแบบเนทีฟ
จนกว่าตัวควบคุมเหล่านั้นจะมีอยู่ในสัญญา image_generate ข้ามผู้ให้บริการที่ใช้ร่วมกัน
ตัวอย่าง
สร้าง (แนวนอน 4K)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
สร้าง (PNG โปร่งใส)
/tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent
CLI ที่เทียบเท่า:
openclaw infer image generate \
--model openai/gpt-image-1.5 \
--output-format png \
--background transparent \
--prompt "A simple red circle sticker on a transparent background" \
--json
สร้าง (สี่เหลี่ยมจัตุรัสสองภาพ)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2
แก้ไข (อ้างอิงหนึ่งภาพ)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536
แก้ไข (อ้างอิงหลายภาพ)
/tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024
แฟล็ก --output-format และ --background เดียวกันพร้อมใช้งานบน
openclaw infer image edit; --openai-background ยังคงเป็นนามแฝง
เฉพาะของ OpenAI ผู้ให้บริการที่รวมมาให้รายอื่นนอกเหนือจาก OpenAI ยังไม่ได้ประกาศ
การควบคุมพื้นหลังอย่างชัดเจนในปัจจุบัน ดังนั้น background: "transparent" จึงถูกรายงาน
ว่าถูกละเว้นสำหรับผู้ให้บริการเหล่านั้น
ที่เกี่ยวข้อง
- ภาพรวมเครื่องมือ - เครื่องมือเอเจนต์ทั้งหมดที่พร้อมใช้งาน
- ComfyUI - การตั้งค่าเวิร์กโฟลว์ ComfyUI ภายในเครื่องและ Comfy Cloud
- fal - การตั้งค่าผู้ให้บริการภาพและวิดีโอ fal
- Google (Gemini) - การตั้งค่าผู้ให้บริการภาพ Gemini
- MiniMax - การตั้งค่าผู้ให้บริการภาพ MiniMax
- OpenAI - การตั้งค่าผู้ให้บริการ OpenAI Images
- Vydra - การตั้งค่าภาพ วิดีโอ และเสียงพูดของ Vydra
- xAI - การตั้งค่าภาพ วิดีโอ การค้นหา การเรียกใช้โค้ด และ TTS ของ Grok
- ข้อมูลอ้างอิงการกำหนดค่า - การกำหนดค่า
imageGenerationModel - โมเดล - การกำหนดค่าโมเดลและการสลับเมื่อเกิดข้อผิดพลาด