Providers
xAI
OpenClaw liefert ein gebündeltes xai-Provider-Plugin für Grok-Modelle aus.
Erste Schritte
Create an API key
Erstellen Sie einen API-Schlüssel in der xAI-Konsole.
Set your API key
Legen Sie XAI_API_KEY fest, oder führen Sie aus:
openclaw onboard --auth-choice xai-api-key
Pick a model
{
agents: { defaults: { model: { primary: "xai/grok-4.3" } } },
}
Integrierter Katalog
OpenClaw enthält diese xAI-Modellfamilien standardmäßig:
| Familie | Modell-IDs |
|---|---|
| Grok 3 | grok-3, grok-3-fast, grok-3-mini, grok-3-mini-fast |
| Grok 4.3 | grok-4.3 |
| Grok 4 | grok-4, grok-4-0709 |
| Grok 4 Fast | grok-4-fast, grok-4-fast-non-reasoning |
| Grok 4.1 Fast | grok-4-1-fast, grok-4-1-fast-non-reasoning |
| Grok 4.20 Beta | grok-4.20-beta-latest-reasoning, grok-4.20-beta-latest-non-reasoning |
| Grok Code | grok-code-fast-1 |
Das Plugin löst außerdem neuere grok-4*- und grok-code-fast*-IDs weiter auf, wenn
sie derselben API-Form folgen.
OpenClaw-Funktionsabdeckung
Das gebündelte Plugin bildet die aktuelle öffentliche API-Oberfläche von xAI auf die gemeinsamen Provider- und Tool-Verträge von OpenClaw ab. Funktionen, die nicht in den gemeinsamen Vertrag passen (zum Beispiel Streaming-TTS und Echtzeit-Sprache), werden nicht bereitgestellt - siehe die Tabelle unten.
| xAI-Fähigkeit | OpenClaw-Oberfläche | Status |
|---|---|---|
| Chat / Responses | xai/<model>-Modell-Provider |
Ja |
| Serverseitige Websuche | web_search-Provider grok |
Ja |
| Serverseitige X-Suche | x_search-Tool |
Ja |
| Serverseitige Codeausführung | code_execution-Tool |
Ja |
| Bilder | image_generate |
Ja |
| Videos | video_generate |
Ja |
| Batch-Text-zu-Sprache | messages.tts.provider: "xai" / tts |
Ja |
| Streaming-TTS | - | Nicht bereitgestellt; der TTS-Vertrag von OpenClaw gibt vollständige Audiopuffer zurück |
| Batch-Sprache-zu-Text | tools.media.audio / Medienverständnis |
Ja |
| Streaming-Sprache-zu-Text | Voice Call streaming.provider: "xai" |
Ja |
| Echtzeit-Sprache | - | Noch nicht bereitgestellt; anderer Sitzungs-/WebSocket-Vertrag |
| Dateien / Batches | Nur generische Modell-API-Kompatibilität | Kein erstklassiges OpenClaw-Tool |
Fast-Mode-Zuordnungen
/fast on oder agents.defaults.models["xai/<model>"].params.fastMode: true
schreibt native xAI-Anfragen wie folgt um:
| Quellmodell | Fast-Mode-Ziel |
|---|---|
grok-3 |
grok-3-fast |
grok-3-mini |
grok-3-mini-fast |
grok-4 |
grok-4-fast |
grok-4-0709 |
grok-4-fast |
Legacy-Kompatibilitätsaliase
Legacy-Aliase werden weiterhin auf die kanonischen gebündelten IDs normalisiert:
| Legacy-Alias | Kanonische ID |
|---|---|
grok-4-fast-reasoning |
grok-4-fast |
grok-4-1-fast-reasoning |
grok-4-1-fast |
grok-4.20-reasoning |
grok-4.20-beta-latest-reasoning |
grok-4.20-non-reasoning |
grok-4.20-beta-latest-non-reasoning |
Funktionen
Web search
Der gebündelte grok-Websuche-Provider verwendet ebenfalls XAI_API_KEY:
openclaw config set tools.web.search.provider grok
Video generation
Das gebündelte xai-Plugin registriert Videogenerierung über das gemeinsame
video_generate-Tool.
- Standard-Videomodell:
xai/grok-imagine-video - Modi: Text-zu-Video, Bild-zu-Video, Referenzbildgenerierung, entfernte Videobearbeitung und entfernte Videoerweiterung
- Seitenverhältnisse:
1:1,16:9,9:16,4:3,3:4,3:2,2:3 - Auflösungen:
480P,720P - Dauer: 1-15 Sekunden für Generierung/Bild-zu-Video, 1-10 Sekunden bei
Verwendung von
reference_image-Rollen, 2-10 Sekunden für Erweiterung - Referenzbildgenerierung: Setzen Sie
imageRolesfür jedes bereitgestellte Bild aufreference_image; xAI akzeptiert bis zu 7 solche Bilder
Um xAI als Standard-Video-Provider zu verwenden:
{
agents: {
defaults: {
videoGenerationModel: {
primary: "xai/grok-imagine-video",
},
},
},
}
Image generation
Das gebündelte xai-Plugin registriert Bildgenerierung über das gemeinsame
image_generate-Tool.
- Standard-Bildmodell:
xai/grok-imagine-image - Zusätzliches Modell:
xai/grok-imagine-image-pro - Modi: Text-zu-Bild und Referenzbildbearbeitung
- Referenzeingaben: ein
imageoder bis zu fünfimages - Seitenverhältnisse:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Auflösungen:
1K,2K - Anzahl: bis zu 4 Bilder
OpenClaw fordert bei xAI b64_json-Bildantworten an, damit generierte Medien
gespeichert und über den normalen Pfad für Kanal-Anhänge zugestellt werden können. Lokale
Referenzbilder werden in Daten-URLs konvertiert; entfernte http(s)-Referenzen werden
durchgereicht.
Um xAI als Standard-Bild-Provider zu verwenden:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "xai/grok-imagine-image",
},
},
},
}
Text-to-speech
Das gebündelte xai-Plugin registriert Text-zu-Sprache über die gemeinsame tts-
Provider-Oberfläche.
- Stimmen:
eve,ara,rex,sal,leo,una - Standardstimme:
eve - Formate:
mp3,wav,pcm,mulaw,alaw - Sprache: BCP-47-Code oder
auto - Geschwindigkeit: Provider-native Geschwindigkeitsüberschreibung
- Das native Opus-Sprachnotizformat wird nicht unterstützt
Um xAI als Standard-TTS-Provider zu verwenden:
{
messages: {
tts: {
provider: "xai",
providers: {
xai: {
voiceId: "eve",
},
},
},
},
}
Speech-to-text
Das gebündelte xai-Plugin registriert Batch-Sprache-zu-Text über OpenClaws
Transkriptionsoberfläche für Medienverständnis.
- Standardmodell:
grok-stt - Endpunkt: xAI REST
/v1/stt - Eingabepfad: Multipart-Audiodatei-Upload
- Unterstützt von OpenClaw überall dort, wo eingehende Audiotranskription
tools.media.audioverwendet, einschließlich Discord-Sprachkanalsegmenten und Kanal-Audioanhängen
Um xAI für eingehende Audiotranskription zu erzwingen:
{
tools: {
media: {
audio: {
models: [
{
type: "provider",
provider: "xai",
model: "grok-stt",
},
],
},
},
},
}
Die Sprache kann über die gemeinsame Audio-Medienkonfiguration oder pro Aufruf über die Transkriptionsanforderung bereitgestellt werden. Prompt-Hinweise werden von der gemeinsamen OpenClaw- Oberfläche akzeptiert, aber die xAI-REST-STT-Integration leitet nur Datei, Modell und Sprache weiter, weil diese sauber auf den aktuellen öffentlichen xAI-Endpunkt abbildbar sind.
Streaming speech-to-text
Das gebündelte xai-Plugin registriert außerdem einen Echtzeit-Transkriptions-Provider
für Live-Sprachanruf-Audio.
- Endpunkt: xAI WebSocket
wss://api.x.ai/v1/stt - Standardcodierung:
mulaw - Standardabtastrate:
8000 - Standard-Endpointing:
800ms - Zwischen-Transkripte: standardmäßig aktiviert
Der Twilio-Medienstream von Voice Call sendet G.711-µ-law-Audioframes, sodass der xAI-Provider diese Frames direkt ohne Transcodierung weiterleiten kann:
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "xai",
providers: {
xai: {
apiKey: "${XAI_API_KEY}",
endpointingMs: 800,
language: "en",
},
},
},
},
},
},
},
}
Provider-eigene Konfiguration liegt unter
plugins.entries.voice-call.config.streaming.providers.xai. Unterstützte
Schlüssel sind apiKey, baseUrl, sampleRate, encoding (pcm, mulaw oder
alaw), interimResults, endpointingMs und language.
x_search-Konfiguration
Das gebündelte xAI-Plugin stellt x_search als OpenClaw-Tool zum Durchsuchen
von X-Inhalten (ehemals Twitter) über Grok bereit.
Konfigurationspfad: plugins.entries.xai.config.xSearch
| Schlüssel | Typ | Standardwert | Beschreibung |
|---|---|---|---|
enabled |
boolean | - | x_search aktivieren oder deaktivieren |
model |
string | grok-4-1-fast |
Für x_search-Anfragen verwendetes Modell |
baseUrl |
string | - | Überschreibung der Basis-URL für xAI Responses |
inlineCitations |
boolean | - | Inline-Zitationen in Ergebnissen einschließen |
maxTurns |
number | - | Maximale Gesprächsrunden |
timeoutSeconds |
number | - | Anfrage-Timeout in Sekunden |
cacheTtlMinutes |
number | - | Cache-Gültigkeitsdauer in Minuten |
{
plugins: {
entries: {
xai: {
config: {
xSearch: {
enabled: true,
model: "grok-4-1-fast",
baseUrl: "https://api.x.ai/v1",
inlineCitations: true,
},
},
},
},
},
}
Konfiguration der Codeausführung
Das gebündelte xAI-Plugin stellt code_execution als OpenClaw-Tool für
Remote-Codeausführung in der Sandbox-Umgebung von xAI bereit.
Konfigurationspfad: plugins.entries.xai.config.codeExecution
| Schlüssel | Typ | Standardwert | Beschreibung |
|---|---|---|---|
enabled |
boolean | true (wenn Schlüssel verfügbar) |
Codeausführung aktivieren oder deaktivieren |
model |
string | grok-4-1-fast |
Für Codeausführungsanfragen verwendetes Modell |
maxTurns |
number | - | Maximale Gesprächsrunden |
timeoutSeconds |
number | - | Anfrage-Timeout in Sekunden |
{
plugins: {
entries: {
xai: {
config: {
codeExecution: {
enabled: true,
model: "grok-4-1-fast",
},
},
},
},
},
}
Bekannte Einschränkungen
- Die Authentifizierung erfolgt derzeit nur per API-Schlüssel. Es gibt in OpenClaw noch keinen xAI-OAuth- oder Device-Code-Flow.
grok-4.20-multi-agent-experimental-beta-0304wird auf dem normalen xAI-Provider-Pfad nicht unterstützt, weil es eine andere Upstream-API- Oberfläche erfordert als der standardmäßige OpenClaw-xAI-Transport.- xAI Realtime Voice ist noch nicht als OpenClaw-Provider registriert. Es benötigt einen anderen bidirektionalen Voice-Session-Vertrag als Batch-STT oder Streaming-Transkription.
- xAI-Bild-
quality, Bild-maskund zusätzliche nur nativ verfügbare Seitenverhältnisse werden erst offengelegt, wenn das gemeinsame Toolimage_generateentsprechende providerübergreifende Steuerelemente hat.
Erweiterte Hinweise
- OpenClaw wendet xAI-spezifische Kompatibilitätskorrekturen für Tool-Schemas und Tool-Aufrufe automatisch auf dem gemeinsamen Runner-Pfad an.
- Native xAI-Anfragen verwenden standardmäßig
tool_stream: true. Setzen Sieagents.defaults.models["xai/<model>"].params.tool_streamauffalse, um dies zu deaktivieren. - Der gebündelte xAI-Wrapper entfernt nicht unterstützte Strict-Tool-Schema-Flags und Reasoning-Payload-Schlüssel, bevor native xAI-Anfragen gesendet werden.
web_search,x_searchundcode_executionwerden als OpenClaw- Tools bereitgestellt. OpenClaw aktiviert das jeweils benötigte spezifische integrierte xAI-Tool innerhalb jeder Tool-Anfrage, anstatt alle nativen Tools an jede Chat-Runde anzuhängen.- Grok
web_searchliestplugins.entries.xai.config.webSearch.baseUrl.x_searchliestplugins.entries.xai.config.xSearch.baseUrlund fällt dann auf die Basis-URL der Grok-Websuche zurück. x_searchundcode_executiongehören dem gebündelten xAI-Plugin, statt fest in die Core-Modelllaufzeit codiert zu sein.code_executionist Remote-Ausführung in der xAI-Sandbox, nicht lokalesexec.
Live-Tests
Die xAI-Medienpfade werden durch Unit-Tests und optionale Live-Suites abgedeckt. Die Live-
Befehle laden Secrets aus Ihrer Login-Shell, einschließlich ~/.profile, bevor
sie XAI_API_KEY prüfen.
pnpm test extensions/xai
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 pnpm test:live -- extensions/xai/xai.live.test.ts
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 OPENCLAW_LIVE_IMAGE_GENERATION_PROVIDERS=xai pnpm test:live -- test/image-generation.runtime.live.test.ts
Die Provider-spezifische Live-Datei synthetisiert normales TTS, telefoniefreundliches PCM- TTS, transkribiert Audio über xAI-Batch-STT, streamt dasselbe PCM über xAI- Realtime-STT, generiert Text-zu-Bild-Ausgabe und bearbeitet ein Referenzbild. Die gemeinsame Bild-Live-Datei überprüft denselben xAI-Provider über den OpenClaw-Pfad für Laufzeitauswahl, Fallback, Normalisierung und Medienanhänge.