Tools

Panoramica dei media

OpenClaw genera immagini, video e musica, comprende i contenuti multimediali in ingresso (immagini, audio, video) e pronuncia le risposte ad alta voce con la sintesi vocale. Tutte le funzionalità multimediali sono basate su strumenti: l'agente decide quando usarle in base alla conversazione e ogni strumento appare solo quando è configurato almeno un provider di supporto.

Il parlato live usa il contratto di sessione Talk invece del percorso dello strumento multimediale one-shot. Talk ha tre modalità: realtime nativa del provider, stt-tts locale o in streaming e transcription per la cattura del parlato solo in osservazione. Queste modalità condividono cataloghi dei provider, envelope degli eventi e semantica di annullamento con telefonia, riunioni, realtime del browser e client push-to-talk nativi.

Funzionalità

Generazione di immagini

Crea e modifica immagini da prompt testuali o immagini di riferimento tramite image_generate. Sincrono: completa inline con la risposta.

Generazione di video

Da testo a video, da immagine a video e da video a video tramite video_generate. Asincrono: viene eseguito in background e pubblica il risultato quando è pronto.

Generazione di musica

Genera musica o tracce audio tramite music_generate. Asincrono sui provider condivisi; il percorso del workflow ComfyUI viene eseguito in modo sincrono.

Sintesi vocale

Converte le risposte in uscita in audio parlato tramite lo strumento tts più la configurazione messages.tts. Sincrono.

Comprensione dei contenuti multimediali

Riassume immagini, audio e video in ingresso usando provider di modelli con capacità di visione e Plugin dedicati alla comprensione dei contenuti multimediali.

Riconoscimento vocale

Trascrive i messaggi vocali in ingresso tramite STT batch o provider STT in streaming di Voice Call.

Matrice delle funzionalità dei provider

Provider	Immagine	Video	Musica	TTS	STT	Voce realtime	Comprensione multimediale
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓			✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asincrono e sincrono

Funzionalità	Modalità	Perché
Immagine	Sincrona	Le risposte del provider arrivano in pochi secondi; completa inline con la risposta.
Sintesi vocale	Sincrona	Le risposte del provider arrivano in pochi secondi; viene allegata all'audio della risposta.
Video	Asincrona	L'elaborazione del provider richiede da 30 s a diversi minuti; le code lente possono arrivare al timeout configurato.
Musica (condivisa)	Asincrona	Stessa caratteristica di elaborazione del provider dei video.
Musica (ComfyUI)	Sincrona	Il workflow locale viene eseguito inline contro il server ComfyUI configurato.

Per gli strumenti asincroni, OpenClaw invia la richiesta al provider, restituisce subito un ID attività e traccia il job nel registro delle attività. L'agente continua a rispondere ad altri messaggi mentre il job è in esecuzione. Quando il provider termina, OpenClaw risveglia l'agente con i percorsi dei contenuti multimediali generati così può informare l'utente e, quando richiesto dalla policy di consegna della sorgente, inoltrare il risultato tramite lo strumento messaggi. Per le route di gruppo/canale solo con strumento messaggi, OpenClaw considera l'assenza di prove di consegna dello strumento messaggi come un tentativo di completamento non riuscito e invia direttamente al canale originale il fallback dei contenuti multimediali generati.

Speech-to-text e Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, SenseAudio e xAI possono tutti trascrivere l'audio in ingresso tramite il percorso batch tools.media.audio quando configurati. I Plugin di canale che eseguono il preflight di una nota vocale per il gating delle menzioni o il parsing dei comandi marcano l'allegato trascritto nel contesto in ingresso, così il passaggio condiviso di comprensione dei contenuti multimediali riusa quella trascrizione invece di effettuare una seconda chiamata STT per lo stesso audio.

Deepgram, ElevenLabs, Mistral, OpenAI e xAI registrano anche provider STT in streaming di Voice Call, quindi l'audio telefonico live può essere inoltrato al vendor selezionato senza attendere una registrazione completata.

Per conversazioni utente live, preferisci la modalità Talk. Gli allegati audio batch restano sul percorso multimediale; realtime del browser, push-to-talk nativo, telefonia e audio delle riunioni devono usare gli eventi Talk e i cataloghi con ambito di sessione restituiti dal Gateway.

Mappature dei provider (come i vendor si dividono tra le superfici)

Google

Superfici di immagini, video, musica, TTS batch, voce realtime backend e comprensione dei contenuti multimediali.

OpenAI

Superfici di immagini, video, TTS batch, STT batch, STT in streaming di Voice Call, voce realtime backend e embedding della memoria.

DeepInfra

Routing chat/modello, generazione/modifica di immagini, testo-a-video, TTS batch, STT batch, comprensione multimediale delle immagini e superfici di embedding della memoria. I modelli DeepInfra nativi di rerank/classification/object-detection non vengono registrati finché OpenClaw non dispone di contratti provider dedicati per quelle categorie.

xAI

Immagine, video, ricerca, esecuzione di codice, TTS batch, STT batch e STT in streaming di Voice Call. La voce xAI Realtime è una funzionalità upstream, ma non è registrata in OpenClaw finché il contratto condiviso per la voce realtime non può rappresentarla.

Panoramica dei media

Funzionalità

Matrice delle funzionalità dei provider

Asincrono e sincrono

Speech-to-text e Voice Call

Mappature dei provider (come i vendor si dividono tra le superfici)

Correlati

Ask OpenClaw

# Funzionalità

# Matrice delle funzionalità dei provider

# Asincrono e sincrono

# Speech-to-text e Voice Call

# Mappature dei provider (come i vendor si dividono tra le superfici)

# Correlati

Funzionalità

Matrice delle funzionalità dei provider

Asincrono e sincrono

Speech-to-text e Voice Call

Mappature dei provider (come i vendor si dividono tra le superfici)

Correlati