Tools

Aperçu des médias

OpenClaw génère des images, des vidéos et de la musique, comprend les médias entrants (images, audio, vidéo) et énonce les réponses à voix haute avec la synthèse vocale. Toutes les capacités multimédias sont pilotées par des outils : l’agent décide quand les utiliser selon la conversation, et chaque outil n’apparaît que lorsqu’au moins un fournisseur sous-jacent est configuré.

La parole en direct utilise le contrat de session Talk au lieu du chemin d’outil média ponctuel. Talk propose trois modes : realtime natif du fournisseur, stt-tts local ou en streaming, et transcription pour la capture vocale en observation seule. Ces modes partagent les catalogues de fournisseurs, les enveloppes d’événements et la sémantique d’annulation avec la téléphonie, les réunions, le temps réel dans le navigateur et les clients push-to-talk natifs.

Capacités

Génération d’images

Créez et modifiez des images à partir d’invites textuelles ou d’images de référence via image_generate. Synchrone — se termine directement dans la réponse.

Génération vidéo

Texte-vers-vidéo, image-vers-vidéo et vidéo-vers-vidéo via video_generate. Asynchrone — s’exécute en arrière-plan et publie le résultat lorsqu’il est prêt.

Génération musicale

Générez de la musique ou des pistes audio via music_generate. Asynchrone chez les fournisseurs partagés ; le chemin de workflow ComfyUI s’exécute de façon synchrone.

Synthèse vocale

Convertissez les réponses sortantes en audio parlé via l’outil tts et la configuration messages.tts. Synchrone.

Compréhension des médias

Résumez les images, l’audio et la vidéo entrants à l’aide de fournisseurs de modèles compatibles avec la vision et de plugins dédiés à la compréhension des médias.

Transcription vocale

Transcrivez les messages vocaux entrants via des fournisseurs STT par lots ou STT en streaming Voice Call.

Matrice des capacités des fournisseurs

Fournisseur	Image	Vidéo	Musique	TTS	STT	Voix en temps réel	Compréhension des médias
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓			✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asynchrone ou synchrone

Capacité	Mode	Pourquoi
Image	Synchrone	Les réponses du fournisseur reviennent en quelques secondes ; se termine directement dans la réponse.
Synthèse vocale	Synchrone	Les réponses du fournisseur reviennent en quelques secondes ; elles sont jointes à l’audio de réponse.
Vidéo	Asynchrone	Le traitement du fournisseur prend de 30 s à plusieurs minutes ; les files lentes peuvent aller jusqu’au délai configuré.
Musique (partagée)	Asynchrone	Même caractéristique de traitement fournisseur que la vidéo.
Musique (ComfyUI)	Synchrone	Le workflow local s’exécute directement contre le serveur ComfyUI configuré.

Pour les outils asynchrones, OpenClaw soumet la demande au fournisseur, renvoie immédiatement un identifiant de tâche et suit le job dans le registre des tâches. L’agent continue de répondre à d’autres messages pendant l’exécution du job. Lorsque le fournisseur termine, OpenClaw réveille l’agent avec les chemins des médias générés afin qu’il puisse en informer l’utilisateur et, lorsque la politique de livraison de la source l’exige, relayer le résultat via l’outil de message. Pour les routes de groupe/canal limitées à l’outil de message, OpenClaw considère l’absence de preuve de livraison par l’outil de message comme une tentative de finalisation échouée et envoie directement le média généré de secours au canal d’origine.

Transcription vocale et Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio et xAI peuvent tous transcrire l’audio entrant via le chemin par lots tools.media.audio lorsqu’ils sont configurés. Les plugins de canal qui précontrôlent une note vocale pour le filtrage des mentions ou l’analyse de commandes marquent la pièce jointe transcrite sur le contexte entrant, de sorte que la passe partagée de compréhension des médias réutilise cette transcription au lieu de lancer un second appel STT pour le même audio.

Deepgram, ElevenLabs, Mistral, OpenAI et xAI enregistrent aussi des fournisseurs STT en streaming Voice Call, ce qui permet de transmettre l’audio téléphonique en direct au fournisseur sélectionné sans attendre un enregistrement terminé.

Pour les conversations utilisateur en direct, privilégiez le mode Talk. Les pièces jointes audio par lots restent sur le chemin média ; le temps réel dans le navigateur, le push-to-talk natif, la téléphonie et l’audio de réunion doivent utiliser les événements Talk et les catalogues limités à la session renvoyés par le Gateway.

Mappages des fournisseurs (répartition des fournisseurs entre les surfaces)

Google

Surfaces d’image, de vidéo, de musique, de TTS par lots, de voix temps réel côté backend et de compréhension des médias.

OpenAI

Surfaces d’image, de vidéo, de TTS par lots, de STT par lots, de STT en streaming Voice Call, de voix temps réel côté backend et d’embeddings mémoire.

DeepInfra

Surfaces de routage chat/modèle, de génération/édition d’images, de texte-vers-vidéo, de TTS par lots, de STT par lots, de compréhension des médias image et d’embeddings mémoire. Les modèles DeepInfra natifs de reranking/classification/détection d’objets ne sont pas enregistrés tant qu’OpenClaw ne dispose pas de contrats fournisseur dédiés pour ces catégories.

xAI

Image, vidéo, recherche, exécution de code, TTS par lots, STT par lots et STT en streaming Voice Call. La voix xAI Realtime est une capacité amont, mais elle n’est pas enregistrée dans OpenClaw tant que le contrat partagé de voix en temps réel ne peut pas la représenter.

Aperçu des médias

Capacités

Matrice des capacités des fournisseurs

Asynchrone ou synchrone

Transcription vocale et Voice Call

Mappages des fournisseurs (répartition des fournisseurs entre les surfaces)

Associés

Ask OpenClaw

# Capacités

# Matrice des capacités des fournisseurs

# Asynchrone ou synchrone

# Transcription vocale et Voice Call

# Mappages des fournisseurs (répartition des fournisseurs entre les surfaces)

# Associés

Capacités

Matrice des capacités des fournisseurs

Asynchrone ou synchrone

Transcription vocale et Voice Call

Mappages des fournisseurs (répartition des fournisseurs entre les surfaces)

Associés