Providers
xAI
OpenClaw distribuisce un Plugin provider xai incluso per i modelli Grok.
Per iniziare
Crea una chiave API
Crea una chiave API nella console xAI.
Imposta la tua chiave API
Imposta XAI_API_KEY, oppure esegui:
openclaw onboard --auth-choice xai-api-key
Scegli un modello
{
agents: { defaults: { model: { primary: "xai/grok-4.3" } } },
}
Catalogo integrato
OpenClaw include queste famiglie di modelli xAI pronte all'uso:
| Famiglia | ID modello |
|---|---|
| Grok 3 | grok-3, grok-3-fast, grok-3-mini, grok-3-mini-fast |
| Grok 4.3 | grok-4.3 |
| Grok 4 | grok-4, grok-4-0709 |
| Grok 4 Fast | grok-4-fast, grok-4-fast-non-reasoning |
| Grok 4.1 Fast | grok-4-1-fast, grok-4-1-fast-non-reasoning |
| Grok 4.20 Beta | grok-4.20-beta-latest-reasoning, grok-4.20-beta-latest-non-reasoning |
| Grok Code | grok-code-fast-1 |
Il Plugin risolve in avanti anche gli ID grok-4* e grok-code-fast* più recenti
quando seguono la stessa forma di API.
Copertura delle funzionalità di OpenClaw
Il Plugin incluso mappa l'attuale superficie dell'API pubblica di xAI sui contratti condivisi di provider e strumenti di OpenClaw. Le capacità che non rientrano nel contratto condiviso (per esempio TTS in streaming e voce in tempo reale) non sono esposte; consulta la tabella seguente.
| Capacità xAI | Superficie OpenClaw | Stato |
|---|---|---|
| Chat / Responses | provider di modelli xai/<model> |
Sì |
| Ricerca web lato server | provider web_search grok |
Sì |
| Ricerca X lato server | strumento x_search |
Sì |
| Esecuzione codice lato server | strumento code_execution |
Sì |
| Immagini | image_generate |
Sì |
| Video | video_generate |
Sì |
| Sintesi vocale batch | messages.tts.provider: "xai" / tts |
Sì |
| TTS in streaming | - | Non esposto; il contratto TTS di OpenClaw restituisce buffer audio completi |
| Riconoscimento vocale batch | tools.media.audio / comprensione dei media |
Sì |
| Riconoscimento vocale in streaming | Voice Call streaming.provider: "xai" |
Sì |
| Voce in tempo reale | - | Non ancora esposta; contratto sessione/WebSocket diverso |
| File / batch | Solo compatibilità API generica dei modelli | Non è uno strumento OpenClaw di prima classe |
Mappature modalità veloce
/fast on oppure agents.defaults.models["xai/<model>"].params.fastMode: true
riscrive le richieste xAI native come segue:
| Modello sorgente | Destinazione modalità veloce |
|---|---|
grok-3 |
grok-3-fast |
grok-3-mini |
grok-3-mini-fast |
grok-4 |
grok-4-fast |
grok-4-0709 |
grok-4-fast |
Alias di compatibilità legacy
Gli alias legacy vengono ancora normalizzati agli ID canonici inclusi:
| Alias legacy | ID canonico |
|---|---|
grok-4-fast-reasoning |
grok-4-fast |
grok-4-1-fast-reasoning |
grok-4-1-fast |
grok-4.20-reasoning |
grok-4.20-beta-latest-reasoning |
grok-4.20-non-reasoning |
grok-4.20-beta-latest-non-reasoning |
Funzionalità
Ricerca web
Anche il provider di ricerca web grok incluso usa XAI_API_KEY:
openclaw config set tools.web.search.provider grok
Generazione video
Il Plugin xai incluso registra la generazione video tramite lo strumento
condiviso video_generate.
- Modello video predefinito:
xai/grok-imagine-video - Modalità: text-to-video, image-to-video, generazione reference-image, modifica video remota ed estensione video remota
- Proporzioni:
1:1,16:9,9:16,4:3,3:4,3:2,2:3 - Risoluzioni:
480P,720P - Durata: 1-15 secondi per generazione/image-to-video, 1-10 secondi quando
si usano ruoli
reference_image, 2-10 secondi per l'estensione - Generazione reference-image: imposta
imageRolessureference_imageper ogni immagine fornita; xAI accetta fino a 7 immagini di questo tipo
Per usare xAI come provider video predefinito:
{
agents: {
defaults: {
videoGenerationModel: {
primary: "xai/grok-imagine-video",
},
},
},
}
Generazione immagini
Il Plugin xai incluso registra la generazione immagini tramite lo strumento
condiviso image_generate.
- Modello immagine predefinito:
xai/grok-imagine-image - Modello aggiuntivo:
xai/grok-imagine-image-pro - Modalità: text-to-image e modifica reference-image
- Input di riferimento: una
imageo fino a cinqueimages - Proporzioni:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Risoluzioni:
1K,2K - Conteggio: fino a 4 immagini
OpenClaw richiede a xAI risposte immagine b64_json in modo che i media
generati possano essere archiviati e consegnati tramite il normale percorso
degli allegati del canale. Le immagini di riferimento locali vengono
convertite in URL di dati; i riferimenti http(s) remoti vengono inoltrati.
Per usare xAI come provider immagine predefinito:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "xai/grok-imagine-image",
},
},
},
}
Sintesi vocale
Il Plugin xai incluso registra la sintesi vocale tramite la superficie
provider tts condivisa.
- Voci:
eve,ara,rex,sal,leo,una - Voce predefinita:
eve - Formati:
mp3,wav,pcm,mulaw,alaw - Lingua: codice BCP-47 o
auto - Velocità: override della velocità nativo del provider
- Il formato nativo per note vocali Opus non è supportato
Per usare xAI come provider TTS predefinito:
{
messages: {
tts: {
provider: "xai",
providers: {
xai: {
voiceId: "eve",
},
},
},
},
}
Riconoscimento vocale
Il Plugin xai incluso registra il riconoscimento vocale batch tramite la
superficie di trascrizione per comprensione dei media di OpenClaw.
- Modello predefinito:
grok-stt - Endpoint: REST xAI
/v1/stt - Percorso input: caricamento file audio multipart
- Supportato da OpenClaw ovunque la trascrizione audio in ingresso usi
tools.media.audio, inclusi segmenti di canali vocali Discord e allegati audio dei canali
Per forzare xAI per la trascrizione audio in ingresso:
{
tools: {
media: {
audio: {
models: [
{
type: "provider",
provider: "xai",
model: "grok-stt",
},
],
},
},
},
}
La lingua può essere fornita tramite la configurazione audio media condivisa o per singola richiesta di trascrizione. Gli indizi di prompt sono accettati dalla superficie condivisa di OpenClaw, ma l'integrazione STT REST di xAI inoltra solo file, modello e lingua perché questi si mappano chiaramente sull'attuale endpoint pubblico xAI.
Riconoscimento vocale in streaming
Il Plugin xai incluso registra anche un provider di trascrizione in tempo
reale per l'audio delle chiamate vocali live.
- Endpoint: WebSocket xAI
wss://api.x.ai/v1/stt - Codifica predefinita:
mulaw - Frequenza di campionamento predefinita:
8000 - Endpointing predefinito:
800ms - Trascrizioni intermedie: abilitate per impostazione predefinita
Il flusso multimediale Twilio di Voice Call invia frame audio G.711 µ-law, quindi il provider xAI può inoltrare quei frame direttamente senza transcodifica:
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "xai",
providers: {
xai: {
apiKey: "${XAI_API_KEY}",
endpointingMs: 800,
language: "en",
},
},
},
},
},
},
},
}
La configurazione di proprietà del provider si trova in
plugins.entries.voice-call.config.streaming.providers.xai. Le chiavi
supportate sono apiKey, baseUrl, sampleRate, encoding (pcm, mulaw o
alaw), interimResults, endpointingMs e language.
Configurazione di x_search
Il plugin xAI incluso espone x_search come strumento OpenClaw per cercare
contenuti X (precedentemente Twitter) tramite Grok.
Percorso di configurazione: plugins.entries.xai.config.xSearch
| Chiave | Tipo | Predefinito | Descrizione |
|---|---|---|---|
enabled |
boolean | - | Abilita o disabilita x_search |
model |
string | grok-4-1-fast |
Modello usato per le richieste x_search |
baseUrl |
string | - | Override dell'URL di base xAI Responses |
inlineCitations |
boolean | - | Include citazioni inline nei risultati |
maxTurns |
number | - | Numero massimo di turni di conversazione |
timeoutSeconds |
number | - | Timeout della richiesta in secondi |
cacheTtlMinutes |
number | - | Tempo di vita della cache in minuti |
{
plugins: {
entries: {
xai: {
config: {
xSearch: {
enabled: true,
model: "grok-4-1-fast",
baseUrl: "https://api.x.ai/v1",
inlineCitations: true,
},
},
},
},
},
}
Configurazione dell'esecuzione del codice
Il plugin xAI incluso espone code_execution come strumento OpenClaw per
l'esecuzione remota del codice nell'ambiente sandbox di xAI.
Percorso di configurazione: plugins.entries.xai.config.codeExecution
| Chiave | Tipo | Predefinito | Descrizione |
|---|---|---|---|
enabled |
boolean | true (se la chiave è disponibile) |
Abilita o disabilita l'esecuzione del codice |
model |
string | grok-4-1-fast |
Modello usato per le richieste di esecuzione del codice |
maxTurns |
number | - | Numero massimo di turni di conversazione |
timeoutSeconds |
number | - | Timeout della richiesta in secondi |
{
plugins: {
entries: {
xai: {
config: {
codeExecution: {
enabled: true,
model: "grok-4-1-fast",
},
},
},
},
},
}
Limiti noti
- L'autenticazione oggi avviene solo tramite chiave API. Non esiste ancora in OpenClaw un flusso OAuth xAI o con codice dispositivo.
grok-4.20-multi-agent-experimental-beta-0304non è supportato nel percorso normale del provider xAI perché richiede una superficie API upstream diversa dal trasporto xAI standard di OpenClaw.- La voce xAI Realtime non è ancora registrata come provider OpenClaw. Richiede un contratto di sessione vocale bidirezionale diverso da STT batch o dalla trascrizione in streaming.
qualitydell'immagine xAI,maskdell'immagine e ulteriori rapporti d'aspetto solo nativi non sono esposti finché lo strumento condivisoimage_generatenon avrà controlli cross-provider corrispondenti.
Note avanzate
- OpenClaw applica automaticamente correzioni di compatibilità specifiche per xAI allo schema degli strumenti e alle chiamate degli strumenti nel percorso runner condiviso.
- Le richieste xAI native usano per impostazione predefinita
tool_stream: true. Impostaagents.defaults.models["xai/<model>"].params.tool_streamsufalseper disabilitarlo. - Il wrapper xAI incluso rimuove flag strict dello schema degli strumenti non supportati e chiavi del payload di ragionamento prima di inviare richieste xAI native.
web_search,x_searchecode_executionsono esposti come strumenti OpenClaw. OpenClaw abilita lo specifico built-in xAI necessario dentro ogni richiesta dello strumento invece di collegare tutti gli strumenti nativi a ogni turno di chat.- Grok
web_searchleggeplugins.entries.xai.config.webSearch.baseUrl.x_searchleggeplugins.entries.xai.config.xSearch.baseUrl, quindi ripiega sull'URL di base della ricerca web Grok. x_searchecode_executionsono di proprietà del plugin xAI incluso invece che essere codificati direttamente nel runtime del modello core.code_executionè esecuzione remota nella sandbox xAI, nonexeclocale.
Test live
I percorsi multimediali xAI sono coperti da test unitari e suite live opzionali. I comandi
live caricano i segreti dalla tua shell di login, incluso ~/.profile, prima di
controllare XAI_API_KEY.
pnpm test extensions/xai
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 pnpm test:live -- extensions/xai/xai.live.test.ts
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 OPENCLAW_LIVE_IMAGE_GENERATION_PROVIDERS=xai pnpm test:live -- test/image-generation.runtime.live.test.ts
Il file live specifico del provider sintetizza TTS normale, TTS PCM adatto alla telefonia, trascrive audio tramite STT batch xAI, trasmette lo stesso PCM tramite STT xAI in tempo reale, genera output text-to-image e modifica un'immagine di riferimento. Il file live condiviso delle immagini verifica lo stesso provider xAI tramite il percorso di selezione runtime, fallback, normalizzazione e allegato multimediale di OpenClaw.