Tools

Gambaran umum media

OpenClaw menghasilkan gambar, video, dan musik, memahami media masuk (gambar, audio, video), dan mengucapkan balasan dengan lantang melalui text-to-speech. Semua kemampuan media digerakkan oleh alat: agen memutuskan kapan menggunakannya berdasarkan percakapan, dan setiap alat hanya muncul ketika setidaknya satu penyedia pendukung telah dikonfigurasi.

Ucapan langsung menggunakan kontrak sesi Talk, bukan jalur alat media satu kali pakai. Talk memiliki tiga mode: realtime native penyedia, stt-tts lokal atau streaming, dan transcription untuk penangkapan ucapan hanya-observasi. Mode-mode tersebut berbagi katalog penyedia, amplop peristiwa, dan semantik pembatalan dengan telefoni, rapat, realtime browser, dan klien push-to-talk native.

Kemampuan

Pembuatan gambar

Buat dan edit gambar dari prompt teks atau gambar referensi melalui image_generate. Sinkron — selesai inline bersama balasan.

Pembuatan video

Teks-ke-video, gambar-ke-video, dan video-ke-video melalui video_generate. Asinkron — berjalan di latar belakang dan memposting hasil saat siap.

Pembuatan musik

Hasilkan musik atau trek audio melalui music_generate. Asinkron pada penyedia bersama; jalur alur kerja ComfyUI berjalan secara sinkron.

Text-to-speech

Konversi balasan keluar menjadi audio lisan melalui alat tts plus konfigurasi messages.tts. Sinkron.

Pemahaman media

Ringkas gambar, audio, dan video masuk menggunakan penyedia model berkemampuan visi serta Plugin khusus pemahaman media.

Speech-to-text

Transkripsikan pesan suara masuk melalui STT batch atau penyedia STT streaming Panggilan Suara.

Matriks kemampuan penyedia

Penyedia	Gambar	Video	Musik	TTS	STT	Suara realtime	Pemahaman media
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓			✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asinkron vs sinkron

Kemampuan	Mode	Alasan
Gambar	Sinkron	Respons penyedia kembali dalam hitungan detik; selesai inline bersama balasan.
Text-to-speech	Sinkron	Respons penyedia kembali dalam hitungan detik; dilampirkan ke audio balasan.
Video	Asinkron	Pemrosesan penyedia memerlukan 30 dtk hingga beberapa menit; antrean lambat dapat berjalan hingga timeout yang dikonfigurasi.
Musik (bersama)	Asinkron	Karakteristik pemrosesan penyedia yang sama seperti video.
Musik (ComfyUI)	Sinkron	Alur kerja lokal berjalan inline terhadap server ComfyUI yang dikonfigurasi.

Untuk alat asinkron, OpenClaw mengirimkan permintaan ke penyedia, segera mengembalikan id tugas, dan melacak pekerjaan dalam buku besar tugas. Agen terus merespons pesan lain saat pekerjaan berjalan. Ketika penyedia selesai, OpenClaw membangunkan agen dengan path media yang dihasilkan agar agen dapat memberi tahu pengguna dan, ketika diwajibkan oleh kebijakan pengiriman sumber, meneruskan hasil melalui alat pesan. Untuk rute grup/saluran khusus alat pesan, OpenClaw memperlakukan bukti pengiriman alat pesan yang hilang sebagai upaya penyelesaian yang gagal dan mengirim fallback media yang dihasilkan langsung ke saluran asli.

Speech-to-text dan Panggilan Suara

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio, dan xAI semuanya dapat mentranskripsikan audio masuk melalui jalur batch tools.media.audio ketika dikonfigurasi. Plugin saluran yang melakukan preflight catatan suara untuk gating mention atau parsing perintah menandai lampiran yang ditranskripsikan pada konteks masuk, sehingga pass pemahaman media bersama menggunakan kembali transkrip tersebut alih-alih membuat panggilan STT kedua untuk audio yang sama.

Deepgram, ElevenLabs, Mistral, OpenAI, dan xAI juga mendaftarkan penyedia STT streaming Panggilan Suara, sehingga audio telepon langsung dapat diteruskan ke vendor yang dipilih tanpa menunggu rekaman selesai.

Untuk percakapan pengguna langsung, prioritaskan mode Talk. Lampiran audio batch tetap berada di jalur media; realtime browser, push-to-talk native, telefoni, dan audio rapat harus menggunakan peristiwa Talk dan katalog bercakupan sesi yang dikembalikan oleh Gateway.

Pemetaan penyedia (cara vendor terbagi di berbagai permukaan)

Google

Permukaan gambar, video, musik, TTS batch, suara realtime backend, dan pemahaman media.

OpenAI

Permukaan gambar, video, TTS batch, STT batch, STT streaming Panggilan Suara, suara realtime backend, dan embedding memori.

DeepInfra

Permukaan routing chat/model, pembuatan/pengeditan gambar, teks-ke-video, TTS batch, STT batch, pemahaman media gambar, dan embedding memori. Model rerank/klasifikasi/deteksi objek native DeepInfra tidak didaftarkan sampai OpenClaw memiliki kontrak penyedia khusus untuk kategori tersebut.

xAI

Gambar, video, pencarian, eksekusi kode, TTS batch, STT batch, dan STT streaming Panggilan Suara. Suara xAI Realtime adalah kemampuan upstream tetapi tidak didaftarkan di OpenClaw sampai kontrak suara realtime bersama dapat merepresentasikannya.

Gambaran umum media

Kemampuan

Matriks kemampuan penyedia

Asinkron vs sinkron

Speech-to-text dan Panggilan Suara

Pemetaan penyedia (cara vendor terbagi di berbagai permukaan)

Terkait

Ask OpenClaw

# Kemampuan

# Matriks kemampuan penyedia

# Asinkron vs sinkron

# Speech-to-text dan Panggilan Suara

# Pemetaan penyedia (cara vendor terbagi di berbagai permukaan)

# Terkait

Kemampuan

Matriks kemampuan penyedia

Asinkron vs sinkron

Speech-to-text dan Panggilan Suara

Pemetaan penyedia (cara vendor terbagi di berbagai permukaan)

Terkait