Tools

การสร้างภาพ

เครื่องมือ image_generate ช่วยให้เอเจนต์สร้างและแก้ไขรูปภาพโดยใช้ผู้ให้บริการที่คุณกำหนดค่าไว้ รูปภาพที่สร้างขึ้นจะถูกส่งโดยอัตโนมัติเป็นไฟล์แนบสื่อในคำตอบของเอเจนต์

เริ่มต้นอย่างรวดเร็ว

  • กำหนดค่าการยืนยันตัวตน

    ตั้งค่าคีย์ API สำหรับผู้ให้บริการอย่างน้อยหนึ่งราย (เช่น OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) หรือลงชื่อเข้าใช้ด้วย OpenAI Codex OAuth

  • เลือกโมเดลเริ่มต้น (ไม่บังคับ)

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "openai/gpt-image-2",
            timeoutMs: 180_000,
          },
        },
      },
    }
    

    Codex OAuth ใช้การอ้างอิงโมเดล openai/gpt-image-2 เดียวกัน เมื่อกำหนดค่าโปรไฟล์ OAuth openai-codex แล้ว OpenClaw จะกำหนดเส้นทางคำขอรูปภาพผ่านโปรไฟล์ OAuth นั้นแทนการลองใช้ OPENAI_API_KEY ก่อน การกำหนดค่า models.providers.openai อย่างชัดเจน (คีย์ API, URL ฐานแบบกำหนดเอง/Azure) จะเลือกกลับไปใช้เส้นทาง OpenAI Images API โดยตรง

  • ถามเอเจนต์

    "สร้างรูปภาพมาสคอตหุ่นยนต์ที่เป็นมิตร"

    เอเจนต์จะเรียก image_generate โดยอัตโนมัติ ไม่จำเป็นต้องเพิ่มเครื่องมือในรายการอนุญาต เพราะจะเปิดใช้เป็นค่าเริ่มต้นเมื่อมีผู้ให้บริการพร้อมใช้งาน

  • เส้นทางทั่วไป

    เป้าหมาย การอ้างอิงโมเดล การยืนยันตัวตน
    การสร้างรูปภาพด้วย OpenAI พร้อมการเรียกเก็บเงินผ่าน API openai/gpt-image-2 OPENAI_API_KEY
    การสร้างรูปภาพด้วย OpenAI พร้อมการยืนยันตัวตนด้วยการสมัครสมาชิก Codex openai/gpt-image-2 OpenAI Codex OAuth
    PNG/WebP พื้นหลังโปร่งใสของ OpenAI openai/gpt-image-1.5 OPENAI_API_KEY หรือ OpenAI Codex OAuth
    การสร้างรูปภาพด้วย DeepInfra deepinfra/black-forest-labs/FLUX-1-schnell DEEPINFRA_API_KEY
    การสร้างรูปภาพด้วย OpenRouter openrouter/google/gemini-3.1-flash-image-preview OPENROUTER_API_KEY
    การสร้างรูปภาพด้วย LiteLLM litellm/gpt-image-2 LITELLM_API_KEY
    การสร้างรูปภาพด้วย Google Gemini google/gemini-3.1-flash-image-preview GEMINI_API_KEY หรือ GOOGLE_API_KEY

    เครื่องมือ image_generate เดียวกันรองรับทั้งข้อความเป็นรูปภาพและการแก้ไขด้วยรูปภาพอ้างอิง ใช้ image สำหรับรูปภาพอ้างอิงหนึ่งรูป หรือ images สำหรับรูปภาพอ้างอิงหลายรูป คำแนะนำเอาต์พุตที่ผู้ให้บริการรองรับ เช่น quality, outputFormat และ background จะถูกส่งต่อเมื่อพร้อมใช้งาน และจะถูกรายงานว่าถูกละเว้นเมื่อผู้ให้บริการไม่รองรับ การรองรับพื้นหลังโปร่งใสที่รวมมาให้เป็นคุณสมบัติเฉพาะของ OpenAI ผู้ให้บริการรายอื่นอาจยังคงรักษา alpha ของ PNG ไว้ได้หากแบ็กเอนด์ของตนส่งออกมา

    ผู้ให้บริการที่รองรับ

    ผู้ให้บริการ โมเดลเริ่มต้น การรองรับการแก้ไข การยืนยันตัวตน
    ComfyUI workflow ใช่ (1 รูปภาพ, กำหนดค่าโดย workflow) COMFY_API_KEY หรือ COMFY_CLOUD_API_KEY สำหรับคลาวด์
    DeepInfra black-forest-labs/FLUX-1-schnell ใช่ (1 รูปภาพ) DEEPINFRA_API_KEY
    fal fal-ai/flux/dev ใช่ FAL_KEY
    Google gemini-3.1-flash-image-preview ใช่ GEMINI_API_KEY หรือ GOOGLE_API_KEY
    LiteLLM gpt-image-2 ใช่ (รูปภาพอินพุตสูงสุด 5 รูป) LITELLM_API_KEY
    MiniMax image-01 ใช่ (ข้อมูลอ้างอิงตัวแบบ) MINIMAX_API_KEY หรือ MiniMax OAuth (minimax-portal)
    OpenAI gpt-image-2 ใช่ (สูงสุด 4 รูปภาพ) OPENAI_API_KEY หรือ OpenAI Codex OAuth
    OpenRouter google/gemini-3.1-flash-image-preview ใช่ (รูปภาพอินพุตสูงสุด 5 รูป) OPENROUTER_API_KEY
    Vydra grok-imagine ไม่ VYDRA_API_KEY
    xAI grok-imagine-image ใช่ (สูงสุด 5 รูปภาพ) XAI_API_KEY

    ใช้ action: "list" เพื่อตรวจสอบผู้ให้บริการและโมเดลที่พร้อมใช้งานในขณะรันไทม์:

    /tool image_generate action=list
    

    ความสามารถของผู้ให้บริการ

    ความสามารถ ComfyUI DeepInfra fal Google MiniMax OpenAI Vydra xAI
    สร้าง (จำนวนสูงสุด) กำหนดโดย workflow 4 4 4 9 4 1 4
    แก้ไข / อ้างอิง 1 รูปภาพ (workflow) 1 รูปภาพ 1 รูปภาพ สูงสุด 5 รูปภาพ 1 รูปภาพ (subject ref) สูงสุด 5 รูปภาพ - สูงสุด 5 รูปภาพ
    ควบคุมขนาด - - สูงสุด 4K - -
    อัตราส่วนภาพ - - ✓ (สร้างเท่านั้น) - -
    ความละเอียด (1K/2K/4K) - - - - - 1K, 2K

    พารามิเตอร์เครื่องมือ

    promptstringrequired

    พรอมป์สำหรับสร้างรูปภาพ จำเป็นสำหรับ action: "generate"

    action"generate" | "list"

    ใช้ "list" เพื่อตรวจสอบผู้ให้บริการและโมเดลที่พร้อมใช้งานในขณะรันไทม์

    modelstring

    การแทนที่ผู้ให้บริการ/โมเดล (เช่น openai/gpt-image-2) ใช้ openai/gpt-image-1.5 สำหรับพื้นหลัง OpenAI แบบโปร่งใส

    imagestring

    พาธหรือ URL ของรูปภาพอ้างอิงเดียวสำหรับโหมดแก้ไข

    imagesstring[]

    รูปภาพอ้างอิงหลายรูปสำหรับโหมดแก้ไข (สูงสุด 5 รูปในผู้ให้บริการที่รองรับ)

    sizestring

    คำแนะนำขนาด: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160

    aspectRatiostring

    อัตราส่วนภาพ: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9

    resolution"1K" | "2K" | "4K"
    quality"low" | "medium" | "high" | "auto"

    คำแนะนำคุณภาพเมื่อผู้ให้บริการรองรับ

    outputFormat"png" | "jpeg" | "webp"

    คำแนะนำรูปแบบเอาต์พุตเมื่อผู้ให้บริการรองรับ

    background"transparent" | "opaque" | "auto"

    คำแนะนำพื้นหลังเมื่อผู้ให้บริการรองรับ ใช้ transparent ร่วมกับ outputFormat: "png" หรือ "webp" สำหรับผู้ให้บริการที่รองรับความโปร่งใส

    countnumber
    timeoutMsnumber
    filenamestring
    openaiobject

    คำแนะนำเฉพาะ OpenAI: background, moderation, outputCompression และ user

    การกำหนดค่า

    การเลือกโมเดล

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "openai/gpt-image-2",
            timeoutMs: 180_000,
            fallbacks: [
              "openrouter/google/gemini-3.1-flash-image-preview",
              "google/gemini-3.1-flash-image-preview",
              "fal/fal-ai/flux/dev",
            ],
          },
        },
      },
    }
    

    ลำดับการเลือกผู้ให้บริการ

    OpenClaw จะลองผู้ให้บริการตามลำดับนี้:

    1. พารามิเตอร์ model จากการเรียกเครื่องมือ (หากเอเจนต์ระบุไว้)
    2. imageGenerationModel.primary จากการกำหนดค่า
    3. imageGenerationModel.fallbacks ตามลำดับ
    4. การตรวจจับอัตโนมัติ - เฉพาะค่าเริ่มต้นของผู้ให้บริการที่มีการยืนยันตัวตนรองรับ:
      • ผู้ให้บริการเริ่มต้นปัจจุบันก่อน;
      • ผู้ให้บริการสร้างรูปภาพที่ลงทะเบียนที่เหลือ ตามลำดับ provider-id

    หากผู้ให้บริการล้มเหลว (ข้อผิดพลาดการยืนยันตัวตน, จำกัดอัตรา ฯลฯ) ระบบจะลองตัวเลือกถัดไปที่กำหนดค่าไว้โดยอัตโนมัติ หากทั้งหมดล้มเหลว ข้อผิดพลาดจะมีรายละเอียดจากแต่ละครั้งที่ลอง

    การแทนที่โมเดลต่อการเรียกจะตรงตัว

    การแทนที่ model ต่อการเรียกจะลองเฉพาะผู้ให้บริการ/โมเดลนั้นเท่านั้น และจะไม่ดำเนินต่อไปยัง primary/fallback ที่กำหนดค่าไว้หรือผู้ให้บริการที่ตรวจพบอัตโนมัติ

    การตรวจจับอัตโนมัติคำนึงถึงการยืนยันตัวตน

    ค่าเริ่มต้นของผู้ให้บริการจะเข้าสู่รายการตัวเลือกเฉพาะเมื่อ OpenClaw สามารถยืนยันตัวตนกับผู้ให้บริการนั้นได้จริง ตั้งค่า agents.defaults.mediaGenerationAutoProviderFallback: false เพื่อใช้เฉพาะรายการ model, primary และ fallbacks ที่ระบุอย่างชัดเจน

    ระยะหมดเวลา

    ตั้งค่า agents.defaults.imageGenerationModel.timeoutMs สำหรับแบ็กเอนด์รูปภาพที่ช้า พารามิเตอร์เครื่องมือ timeoutMs ต่อการเรียกจะแทนที่ค่าเริ่มต้นที่กำหนดค่าไว้

    ตรวจสอบในขณะรันไทม์

    ใช้ action: "list" เพื่อตรวจสอบผู้ให้บริการที่ลงทะเบียนอยู่ในปัจจุบัน โมเดลเริ่มต้นของผู้ให้บริการเหล่านั้น และคำแนะนำ env-var สำหรับการยืนยันตัวตน

    การแก้ไขรูปภาพ

    OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI และ xAI รองรับการแก้ไขรูปภาพอ้างอิง ส่งพาธหรือ URL ของรูปภาพอ้างอิง:

    "Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"
    

    OpenAI, OpenRouter, Google และ xAI รองรับรูปภาพอ้างอิงสูงสุด 5 รูปผ่านพารามิเตอร์ images ส่วน fal, MiniMax และ ComfyUI รองรับ 1 รูป

    เจาะลึกผู้ให้บริการ

    OpenAI gpt-image-2 (และ gpt-image-1.5)

    การสร้างภาพของ OpenAI ใช้ค่าเริ่มต้นเป็น openai/gpt-image-2 หากมีการกำหนดค่าโปรไฟล์ OAuth ของ openai-codex ไว้ OpenClaw จะใช้โปรไฟล์ OAuth เดียวกับที่โมเดลแชตแบบสมัครสมาชิกของ Codex ใช้ซ้ำ และส่ง คำขอภาพผ่านแบ็กเอนด์ Codex Responses URL ฐานของ Codex แบบเดิม เช่น https://chatgpt.com/backend-api จะถูกทำให้เป็นรูปแบบมาตรฐานเป็น https://chatgpt.com/backend-api/codex สำหรับคำขอภาพ OpenClaw ไม่ ย้อนกลับไปใช้ OPENAI_API_KEY แบบเงียบๆ สำหรับคำขอนั้น - หากต้องการบังคับให้กำหนดเส้นทางผ่าน OpenAI Images API โดยตรง ให้กำหนดค่า models.providers.openai อย่างชัดเจนด้วยคีย์ API, URL ฐานแบบกำหนดเอง, หรือเอนด์พอยต์ Azure

    ยังสามารถเลือกโมเดล openai/gpt-image-1.5, openai/gpt-image-1 และ openai/gpt-image-1-mini ได้อย่างชัดเจน ใช้ gpt-image-1.5 สำหรับเอาต์พุต PNG/WebP พื้นหลังโปร่งใส; API gpt-image-2 ปัจจุบันปฏิเสธ background: "transparent"

    gpt-image-2 รองรับทั้งการสร้างภาพจากข้อความและ การแก้ไขภาพอ้างอิงผ่านเครื่องมือ image_generate เดียวกัน OpenClaw ส่งต่อ prompt, count, size, quality, outputFormat, และภาพอ้างอิงไปยัง OpenAI โดยตรง OpenAI ไม่ได้ รับ aspectRatio หรือ resolution โดยตรง; เมื่อเป็นไปได้ OpenClaw จะแมป ค่าเหล่านั้นเป็น size ที่รองรับ ไม่เช่นนั้นเครื่องมือจะรายงานค่าเหล่านั้นเป็น การแทนที่ที่ถูกละเว้น

    ตัวเลือกเฉพาะของ OpenAI อยู่ใต้เออบเจ็กต์ openai:

    {
      "quality": "low",
      "outputFormat": "jpeg",
      "openai": {
        "background": "opaque",
        "moderation": "low",
        "outputCompression": 60,
        "user": "end-user-42"
      }
    }
    

    openai.background รับค่า transparent, opaque หรือ auto; เอาต์พุตโปร่งใสต้องใช้ outputFormat เป็น png หรือ webp และ โมเดลภาพของ OpenAI ที่รองรับความโปร่งใส OpenClaw กำหนดเส้นทางคำขอ พื้นหลังโปร่งใสของ gpt-image-2 ค่าเริ่มต้นไปยัง gpt-image-1.5 openai.outputCompression ใช้กับเอาต์พุต JPEG/WebP

    คำใบ้ background ระดับบนสุดเป็นกลางต่อผู้ให้บริการ และในปัจจุบันแมป ไปยังฟิลด์คำขอ background เดียวกันของ OpenAI เมื่อเลือกผู้ให้บริการ OpenAI ผู้ให้บริการที่ไม่ได้ประกาศการรองรับพื้นหลังจะคืนค่านี้ใน ignoredOverrides แทนที่จะได้รับพารามิเตอร์ที่ไม่รองรับ

    หากต้องการกำหนดเส้นทางการสร้างภาพของ OpenAI ผ่านการปรับใช้ Azure OpenAI แทน api.openai.com โปรดดู เอนด์พอยต์ Azure OpenAI

    โมเดลภาพ OpenRouter

    การสร้างภาพของ OpenRouter ใช้ OPENROUTER_API_KEY เดียวกัน และ กำหนดเส้นทางผ่าน API ภาพของแชตคอมพลีชันของ OpenRouter เลือก โมเดลภาพ OpenRouter ด้วยคำนำหน้า openrouter/:

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "openrouter/google/gemini-3.1-flash-image-preview",
          },
        },
      },
    }
    

    OpenClaw ส่งต่อ prompt, count, ภาพอ้างอิง และคำใบ้ aspectRatio / resolution ที่เข้ากันได้กับ Gemini ไปยัง OpenRouter ชอร์ตคัตโมเดลภาพ OpenRouter ที่มีมาให้ในปัจจุบัน ได้แก่ google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview และ openai/gpt-5.4-image-2 ใช้ action: "list" เพื่อดูว่า Plugin ที่คุณกำหนดค่าเปิดเผยอะไรบ้าง

    MiniMax การยืนยันตัวตนคู่

    การสร้างภาพ MiniMax พร้อมใช้งานผ่านเส้นทางการยืนยันตัวตน MiniMax ที่รวมมาให้ทั้งสองแบบ:

    • minimax/image-01 สำหรับการตั้งค่าด้วยคีย์ API
    • minimax-portal/image-01 สำหรับการตั้งค่าด้วย OAuth
    xAI grok-imagine-image

    ผู้ให้บริการ xAI ที่รวมมาให้ใช้ /v1/images/generations สำหรับคำขอที่มีเฉพาะพรอมต์ และใช้ /v1/images/edits เมื่อมี image หรือ images

    • โมเดล: xai/grok-imagine-image, xai/grok-imagine-image-pro
    • จำนวน: สูงสุด 4
    • อ้างอิง: หนึ่ง image หรือสูงสุดห้า images
    • อัตราส่วนภาพ: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
    • ความละเอียด: 1K, 2K
    • เอาต์พุต: ส่งคืนเป็นไฟล์แนบภาพที่ OpenClaw จัดการ

    OpenClaw ตั้งใจไม่เปิดเผย quality, mask, user ที่เป็นของ xAI โดยเฉพาะ หรืออัตราส่วนภาพเพิ่มเติมที่มีเฉพาะแบบเนทีฟ จนกว่าตัวควบคุมเหล่านั้นจะมีอยู่ในสัญญา image_generate ข้ามผู้ให้บริการที่ใช้ร่วมกัน

    ตัวอย่าง

    สร้าง (แนวนอน 4K)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1
    

    สร้าง (PNG โปร่งใส)

    /tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent
    

    CLI ที่เทียบเท่า:

    openclaw infer image generate \
    --model openai/gpt-image-1.5 \
    --output-format png \
    --background transparent \
    --prompt "A simple red circle sticker on a transparent background" \
    --json
    

    สร้าง (สี่เหลี่ยมจัตุรัสสองภาพ)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2
    

    แก้ไข (อ้างอิงหนึ่งภาพ)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536
    

    แก้ไข (อ้างอิงหลายภาพ)

    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024
    

    แฟล็ก --output-format และ --background เดียวกันพร้อมใช้งานบน openclaw infer image edit; --openai-background ยังคงเป็นนามแฝง เฉพาะของ OpenAI ผู้ให้บริการที่รวมมาให้รายอื่นนอกเหนือจาก OpenAI ยังไม่ได้ประกาศ การควบคุมพื้นหลังอย่างชัดเจนในปัจจุบัน ดังนั้น background: "transparent" จึงถูกรายงาน ว่าถูกละเว้นสำหรับผู้ให้บริการเหล่านั้น

    ที่เกี่ยวข้อง

    • ภาพรวมเครื่องมือ - เครื่องมือเอเจนต์ทั้งหมดที่พร้อมใช้งาน
    • ComfyUI - การตั้งค่าเวิร์กโฟลว์ ComfyUI ภายในเครื่องและ Comfy Cloud
    • fal - การตั้งค่าผู้ให้บริการภาพและวิดีโอ fal
    • Google (Gemini) - การตั้งค่าผู้ให้บริการภาพ Gemini
    • MiniMax - การตั้งค่าผู้ให้บริการภาพ MiniMax
    • OpenAI - การตั้งค่าผู้ให้บริการ OpenAI Images
    • Vydra - การตั้งค่าภาพ วิดีโอ และเสียงพูดของ Vydra
    • xAI - การตั้งค่าภาพ วิดีโอ การค้นหา การเรียกใช้โค้ด และ TTS ของ Grok
    • ข้อมูลอ้างอิงการกำหนดค่า - การกำหนดค่า imageGenerationModel
    • โมเดล - การกำหนดค่าโมเดลและการสลับเมื่อเกิดข้อผิดพลาด