Tools
ภาพรวมสื่อ
OpenClaw สร้างรูปภาพ วิดีโอ และเพลง ทำความเข้าใจสื่อขาเข้า (รูปภาพ เสียง วิดีโอ) และพูดตอบกลับด้วยเสียงผ่านข้อความเป็นเสียง ความสามารถด้าน สื่อทั้งหมดขับเคลื่อนด้วยเครื่องมือ: ตัวแทนจะตัดสินใจว่าจะใช้เมื่อใดตาม บทสนทนา และแต่ละเครื่องมือจะปรากฏเมื่อมีการตั้งค่าผู้ให้บริการเบื้องหลัง อย่างน้อยหนึ่งรายเท่านั้น
เสียงพูดแบบสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว
Talk มีสามโหมด: realtime แบบเนทีฟของผู้ให้บริการ, stt-tts แบบโลคัลหรือสตรีมมิง
และ transcription สำหรับการจับเสียงพูดแบบสังเกตการณ์เท่านั้น โหมดเหล่านี้
ใช้แคตตาล็อกผู้ให้บริการ ซองเหตุการณ์ และความหมายของการยกเลิกร่วมกับ
โทรศัพท์ การประชุม เรียลไทม์บนเบราว์เซอร์ และไคลเอนต์กดเพื่อพูดแบบเนทีฟ
ความสามารถ
สร้างและแก้ไขรูปภาพจากพรอมต์ข้อความหรือรูปภาพอ้างอิงผ่าน
image_generate แบบซิงโครนัส — เสร็จสิ้นในบรรทัดเดียวกับการตอบกลับ
ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน video_generate
แบบอะซิงโครนัส — ทำงานในพื้นหลังและโพสต์ผลลัพธ์เมื่อพร้อม
สร้างเพลงหรือแทร็กเสียงผ่าน music_generate แบบอะซิงโครนัสบน
ผู้ให้บริการที่ใช้ร่วมกัน; เส้นทางเวิร์กโฟลว์ ComfyUI ทำงานแบบซิงโครนัส
แปลงการตอบกลับขาออกเป็นเสียงพูดผ่านเครื่องมือ tts พร้อม
การตั้งค่า messages.tts แบบซิงโครนัส
สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ผู้ให้บริการโมเดลที่รองรับวิชัน และ Plugin เฉพาะสำหรับการทำความเข้าใจสื่อ
ถอดเสียงข้อความเสียงขาเข้าผ่านผู้ให้บริการ STT แบบแบตช์หรือ STT แบบสตรีมมิงสำหรับการโทรด้วยเสียง
เมทริกซ์ความสามารถของผู้ให้บริการ
| ผู้ให้บริการ | รูปภาพ | วิดีโอ | เพลง | TTS | STT | เสียงเรียลไทม์ | การทำความเข้าใจสื่อ |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
อะซิงโครนัสเทียบกับซิงโครนัส
| ความสามารถ | โหมด | เหตุผล |
|---|---|---|
| รูปภาพ | ซิงโครนัส | การตอบสนองจากผู้ให้บริการส่งกลับภายในไม่กี่วินาที; เสร็จสิ้นในบรรทัดเดียวกับการตอบกลับ |
| ข้อความเป็นเสียง | ซิงโครนัส | การตอบสนองจากผู้ให้บริการส่งกลับภายในไม่กี่วินาที; แนบกับเสียงของการตอบกลับ |
| วิดีโอ | อะซิงโครนัส | การประมวลผลของผู้ให้บริการใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้นานถึงระยะหมดเวลาที่ตั้งค่าไว้ |
| เพลง (ใช้ร่วมกัน) | อะซิงโครนัส | มีลักษณะการประมวลผลโดยผู้ให้บริการเหมือนกับวิดีโอ |
| เพลง (ComfyUI) | ซิงโครนัส | เวิร์กโฟลว์โลคัลทำงานในบรรทัดเดียวกับเซิร์ฟเวอร์ ComfyUI ที่ตั้งค่าไว้ |
สำหรับเครื่องมืออะซิงโครนัส OpenClaw จะส่งคำขอไปยังผู้ให้บริการ ส่งคืนรหัสงาน ทันที และติดตามงานในบัญชีแยกประเภทงาน ตัวแทนจะยังตอบกลับข้อความอื่นต่อไป ระหว่างที่งานทำงาน เมื่อผู้ให้บริการทำงานเสร็จ OpenClaw จะปลุกตัวแทนพร้อม เส้นทางสื่อที่สร้างขึ้น เพื่อให้ตัวแทนบอกผู้ใช้ได้ และเมื่อจำเป็นตามนโยบาย การส่งมอบจากแหล่งที่มา จะส่งต่อผลลัพธ์ผ่านเครื่องมือข้อความ สำหรับเส้นทาง กลุ่ม/ช่องทางที่ใช้เครื่องมือข้อความเท่านั้น OpenClaw จะถือว่าการไม่มีหลักฐาน การส่งมอบด้วยเครื่องมือข้อความเป็นความพยายามทำให้เสร็จที่ล้มเหลว และส่ง สื่อที่สร้างขึ้นเป็นทางสำรองโดยตรงไปยังช่องทางเดิม
เสียงเป็นข้อความและการโทรด้วยเสียง
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio และ xAI สามารถถอดเสียง
เสียงขาเข้าผ่านเส้นทาง tools.media.audio แบบแบตช์ได้ทั้งหมดเมื่อตั้งค่าแล้ว
Plugin ช่องทางที่ตรวจล่วงหน้าข้อความเสียงเพื่อการกั้นตามการกล่าวถึงหรือ
การแยกวิเคราะห์คำสั่งจะทำเครื่องหมายไฟล์แนบที่ถอดเสียงแล้วในบริบทขาเข้า
ดังนั้นรอบการทำความเข้าใจสื่อที่ใช้ร่วมกันจึงใช้ทรานสคริปต์นั้นซ้ำแทนการเรียก
STT ครั้งที่สองสำหรับเสียงเดียวกัน
Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียนผู้ให้บริการ STT แบบสตรีมมิงสำหรับการโทรด้วยเสียงด้วย ดังนั้นเสียงโทรศัพท์สดจึงส่งต่อไปยัง ผู้ให้บริการที่เลือกได้โดยไม่ต้องรอการบันทึกที่เสร็จสมบูรณ์
สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ โหมด Talk เป็นหลัก ไฟล์แนบเสียง แบบแบตช์ยังคงอยู่บนเส้นทางสื่อ; เรียลไทม์บนเบราว์เซอร์ การกดเพื่อพูดแบบเนทีฟ โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแคตตาล็อกที่มีขอบเขตตาม เซสชันซึ่ง Gateway ส่งกลับมา
การแมปผู้ให้บริการ (วิธีที่ผู้ขายแบ่งตามพื้นผิว)
พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบแบตช์ เสียงเรียลไทม์ฝั่งแบ็กเอนด์ และ การทำความเข้าใจสื่อ
OpenAI
พื้นผิวรูปภาพ วิดีโอ TTS แบบแบตช์ STT แบบแบตช์ STT แบบสตรีมมิงสำหรับ การโทรด้วยเสียง เสียงเรียลไทม์ฝั่งแบ็กเอนด์ และการฝังหน่วยความจำ
DeepInfra
พื้นผิวการกำหนดเส้นทางแชท/โมเดล การสร้าง/แก้ไขรูปภาพ ข้อความเป็นวิดีโอ TTS แบบแบตช์ STT แบบแบตช์ การทำความเข้าใจสื่อรูปภาพ และการฝังหน่วยความจำ โมเดล rerank/classification/object-detection แบบเนทีฟของ DeepInfra จะยังไม่ ถูกลงทะเบียนจนกว่า OpenClaw จะมีสัญญาผู้ให้บริการเฉพาะสำหรับหมวดหมู่เหล่านั้น
xAI
รูปภาพ วิดีโอ การค้นหา การประมวลผลโค้ด TTS แบบแบตช์ STT แบบแบตช์ และ STT แบบสตรีมมิงสำหรับการโทรด้วยเสียง เสียงเรียลไทม์ของ xAI เป็นความสามารถต้นทาง แต่จะยังไม่ถูกลงทะเบียนใน OpenClaw จนกว่าสัญญาเสียงเรียลไทม์ที่ใช้ร่วมกัน จะสามารถแทนความสามารถนั้นได้