Tools

Mediaoverzicht

OpenClaw genereert afbeeldingen, video's en muziek, begrijpt inkomende media (afbeeldingen, audio, video) en spreekt antwoorden hardop uit met tekst-naar-spraak. Alle mediamogelijkheden zijn toolgestuurd: de agent bepaalt op basis van het gesprek wanneer ze worden gebruikt, en elke tool verschijnt alleen wanneer minstens één onderliggende aanbieder is geconfigureerd.

Live spraak gebruikt het contract voor Talk-sessies in plaats van het pad voor een eenmalige mediatool. Talk heeft drie modi: provider-native realtime, lokaal of streamend stt-tts, en transcription voor alleen observerende spraakopname. Deze modi delen aanbiedercatalogi, event-enveloppen en annuleringssemantiek met telefonie, vergaderingen, browser-realtime en native push-to-talk-clients.

Mogelijkheden

Afbeeldingen genereren

Maak en bewerk afbeeldingen vanuit tekstprompts of referentieafbeeldingen via image_generate. Synchroon — wordt inline met het antwoord voltooid.

Video's genereren

Tekst-naar-video, afbeelding-naar-video en video-naar-video via video_generate. Asynchroon — draait op de achtergrond en plaatst het resultaat zodra het klaar is.

Muziek genereren

Genereer muziek of audiotracks via music_generate. Asynchroon bij gedeelde aanbieders; het ComfyUI-workflowpad draait synchroon.

Tekst-naar-spraak

Zet uitgaande antwoorden om naar gesproken audio via de tts-tool plus messages.tts-configuratie. Synchroon.

Mediabegrip

Vat inkomende afbeeldingen, audio en video samen met modelaanbieders met vision-mogelijkheden en speciale plugins voor mediabegrip.

Spraak-naar-tekst

Transcribeer inkomende spraakberichten via batch-STT of aanbieders voor streamende STT voor spraakoproepen.

Mogelijkhedenmatrix per aanbieder

Aanbieder	Afbeelding	Video	Muziek	TTS	STT	Realtime spraak	Mediabegrip
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Lokale CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓			✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asynchroon versus synchroon

Mogelijkheid	Modus	Waarom
Afbeelding	Synchroon	Antwoorden van de aanbieder komen binnen enkele seconden terug; wordt inline met het antwoord voltooid.
Tekst-naar-spraak	Synchroon	Antwoorden van de aanbieder komen binnen enkele seconden terug; gekoppeld aan de antwoordaudio.
Video	Asynchroon	Verwerking door de aanbieder duurt 30 s tot enkele minuten; trage wachtrijen kunnen doorlopen tot de geconfigureerde time-out.
Muziek (gedeeld)	Asynchroon	Dezelfde verwerkingskenmerken bij de aanbieder als video.
Muziek (ComfyUI)	Synchroon	Lokale workflow draait inline tegen de geconfigureerde ComfyUI-server.

Voor asynchrone tools dient OpenClaw de aanvraag in bij de aanbieder, retourneert onmiddellijk een taak-id en volgt de taak in het taakregister. De agent blijft reageren op andere berichten terwijl de taak draait. Wanneer de aanbieder klaar is, wekt OpenClaw de agent met de gegenereerde mediapaden, zodat die de gebruiker kan informeren en, wanneer vereist door het beleid voor bronlevering, het resultaat via de berichttool kan doorgeven. Voor groeps-/kanaalroutes met alleen een berichttool behandelt OpenClaw ontbrekend bewijs van levering via de berichttool als een mislukte voltooiingspoging en stuurt de gegenereerde mediafallback rechtstreeks naar het oorspronkelijke kanaal.

Spraak-naar-tekst en spraakoproep

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio en xAI kunnen allemaal inkomende audio transcriberen via het batchpad tools.media.audio wanneer dit is geconfigureerd. Kanaalplugins die een spraaknotitie vooraf controleren voor mention-gating of commandoparsing markeren de getranscribeerde bijlage op de inkomende context, zodat de gedeelde mediabegripstap dat transcript opnieuw gebruikt in plaats van een tweede STT-aanroep voor dezelfde audio te doen.

Deepgram, ElevenLabs, Mistral, OpenAI en xAI registreren ook aanbieders voor streamende STT voor spraakoproepen, zodat live telefoonaudio naar de geselecteerde leverancier kan worden doorgestuurd zonder te wachten op een voltooide opname.

Voor live gebruikersgesprekken geef je de voorkeur aan Talk-modus. Batch-audiobijlagen blijven op het mediapad; browser-realtime, native push-to-talk, telefonie en vergaderaudio moeten Talk-events en de sessiegebonden catalogi gebruiken die door de Gateway worden geretourneerd.

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Google

Oppervlakken voor afbeeldingen, video, muziek, batch-TTS, backend-realtime spraak en mediabegrip.

OpenAI

Oppervlakken voor afbeeldingen, video, batch-TTS, batch-STT, streamende STT voor spraakoproepen, backend-realtime spraak en geheugen-embeddings.

DeepInfra

Oppervlakken voor chat-/modelroutering, afbeeldingen genereren/bewerken, tekst-naar-video, batch-TTS, batch-STT, mediabegrip voor afbeeldingen en geheugen-embeddings. DeepInfra-native modellen voor herordening/classificatie/objectdetectie worden niet geregistreerd totdat OpenClaw speciale providercontracten voor die categorieën heeft.

xAI

Afbeeldingen, video, zoeken, code-uitvoering, batch-TTS, batch-STT en streamende STT voor spraakoproepen. xAI Realtime spraak is een upstream-mogelijkheid, maar wordt niet geregistreerd in OpenClaw totdat het gedeelde contract voor realtime-spraak deze kan vertegenwoordigen.

Mediaoverzicht

Mogelijkheden

Mogelijkhedenmatrix per aanbieder

Asynchroon versus synchroon

Spraak-naar-tekst en spraakoproep

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Gerelateerd

Ask OpenClaw

# Mogelijkheden

# Mogelijkhedenmatrix per aanbieder

# Asynchroon versus synchroon

# Spraak-naar-tekst en spraakoproep

# Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

# Gerelateerd

Mogelijkheden

Mogelijkhedenmatrix per aanbieder

Asynchroon versus synchroon

Spraak-naar-tekst en spraakoproep

Providertoewijzingen (hoe leveranciers over oppervlakken zijn verdeeld)

Gerelateerd