Providers
xAI
OpenClaw dostarcza dołączony Plugin dostawcy xai dla modeli Grok.
Pierwsze kroki
Utwórz klucz API
Utwórz klucz API w konsoli xAI.
Ustaw swój klucz API
Ustaw XAI_API_KEY albo uruchom:
openclaw onboard --auth-choice xai-api-key
Wybierz model
{
agents: { defaults: { model: { primary: "xai/grok-4.3" } } },
}
Wbudowany katalog
OpenClaw zawiera od razu te rodziny modeli xAI:
| Rodzina | Identyfikatory modeli |
|---|---|
| Grok 3 | grok-3, grok-3-fast, grok-3-mini, grok-3-mini-fast |
| Grok 4.3 | grok-4.3 |
| Grok 4 | grok-4, grok-4-0709 |
| Grok 4 Fast | grok-4-fast, grok-4-fast-non-reasoning |
| Grok 4.1 Fast | grok-4-1-fast, grok-4-1-fast-non-reasoning |
| Grok 4.20 Beta | grok-4.20-beta-latest-reasoning, grok-4.20-beta-latest-non-reasoning |
| Grok Code | grok-code-fast-1 |
Plugin przekazuje też nowsze identyfikatory grok-4* i grok-code-fast*, gdy
mają taki sam kształt API.
Zakres funkcji OpenClaw
Dołączony Plugin mapuje obecną publiczną powierzchnię API xAI na współdzielone kontrakty dostawców i narzędzi OpenClaw. Możliwości, które nie pasują do współdzielonego kontraktu (na przykład strumieniowe TTS i głos w czasie rzeczywistym), nie są udostępniane - zobacz tabelę poniżej.
| Możliwość xAI | Powierzchnia OpenClaw | Status |
|---|---|---|
| Czat / Responses | dostawca modeli xai/<model> |
Tak |
| Wyszukiwanie w sieci po stronie serwera | dostawca web_search grok |
Tak |
| Wyszukiwanie X po stronie serwera | narzędzie x_search |
Tak |
| Wykonywanie kodu po stronie serwera | narzędzie code_execution |
Tak |
| Obrazy | image_generate |
Tak |
| Wideo | video_generate |
Tak |
| Wsadowe przetwarzanie tekstu na mowę | messages.tts.provider: "xai" / tts |
Tak |
| Strumieniowe TTS | - | Nieudostępnione; kontrakt TTS OpenClaw zwraca kompletne bufory audio |
| Wsadowe przetwarzanie mowy na tekst | tools.media.audio / rozumienie multimediów |
Tak |
| Strumieniowe przetwarzanie mowy na tekst | Voice Call streaming.provider: "xai" |
Tak |
| Głos w czasie rzeczywistym | - | Jeszcze nieudostępnione; inny kontrakt sesji/WebSocket |
| Pliki / partie | Tylko ogólna zgodność API modeli | Nie jest pełnoprawnym narzędziem OpenClaw |
Mapowania trybu szybkiego
/fast on lub agents.defaults.models["xai/<model>"].params.fastMode: true
przepisuje natywne żądania xAI w następujący sposób:
| Model źródłowy | Cel trybu szybkiego |
|---|---|
grok-3 |
grok-3-fast |
grok-3-mini |
grok-3-mini-fast |
grok-4 |
grok-4-fast |
grok-4-0709 |
grok-4-fast |
Starsze aliasy zgodności
Starsze aliasy nadal są normalizowane do kanonicznych dołączonych identyfikatorów:
| Starszy alias | Identyfikator kanoniczny |
|---|---|
grok-4-fast-reasoning |
grok-4-fast |
grok-4-1-fast-reasoning |
grok-4-1-fast |
grok-4.20-reasoning |
grok-4.20-beta-latest-reasoning |
grok-4.20-non-reasoning |
grok-4.20-beta-latest-non-reasoning |
Funkcje
Wyszukiwanie w sieci
Dołączony dostawca wyszukiwania w sieci grok także używa XAI_API_KEY:
openclaw config set tools.web.search.provider grok
Generowanie wideo
Dołączony Plugin xai rejestruje generowanie wideo przez współdzielone
narzędzie video_generate.
- Domyślny model wideo:
xai/grok-imagine-video - Tryby: tekst-na-wideo, obraz-na-wideo, generowanie obrazów referencyjnych, zdalna edycja wideo i zdalne rozszerzanie wideo
- Proporcje obrazu:
1:1,16:9,9:16,4:3,3:4,3:2,2:3 - Rozdzielczości:
480P,720P - Czas trwania: 1-15 sekund dla generowania/obrazu-na-wideo, 1-10 sekund przy
użyciu ról
reference_image, 2-10 sekund dla rozszerzania - Generowanie obrazów referencyjnych: ustaw
imageRolesnareference_imagedla każdego dostarczonego obrazu; xAI akceptuje maksymalnie 7 takich obrazów
Aby używać xAI jako domyślnego dostawcy wideo:
{
agents: {
defaults: {
videoGenerationModel: {
primary: "xai/grok-imagine-video",
},
},
},
}
Generowanie obrazów
Dołączony Plugin xai rejestruje generowanie obrazów przez współdzielone
narzędzie image_generate.
- Domyślny model obrazów:
xai/grok-imagine-image - Dodatkowy model:
xai/grok-imagine-image-pro - Tryby: tekst-na-obraz i edycja obrazu referencyjnego
- Wejścia referencyjne: jeden
imagealbo maksymalnie pięćimages - Proporcje obrazu:
1:1,16:9,9:16,4:3,3:4,2:3,3:2 - Rozdzielczości:
1K,2K - Liczba: maksymalnie 4 obrazy
OpenClaw prosi xAI o odpowiedzi obrazów b64_json, aby wygenerowane media mogły być
przechowywane i dostarczane zwykłą ścieżką załączników kanału. Lokalne
obrazy referencyjne są konwertowane na adresy URL danych; zdalne referencje http(s) są
przekazywane dalej.
Aby używać xAI jako domyślnego dostawcy obrazów:
{
agents: {
defaults: {
imageGenerationModel: {
primary: "xai/grok-imagine-image",
},
},
},
}
Tekst na mowę
Dołączony Plugin xai rejestruje przetwarzanie tekstu na mowę przez współdzieloną
powierzchnię dostawcy tts.
- Głosy:
eve,ara,rex,sal,leo,una - Głos domyślny:
eve - Formaty:
mp3,wav,pcm,mulaw,alaw - Język: kod BCP-47 albo
auto - Szybkość: natywne dla dostawcy nadpisanie szybkości
- Natywny format notatki głosowej Opus nie jest obsługiwany
Aby używać xAI jako domyślnego dostawcy TTS:
{
messages: {
tts: {
provider: "xai",
providers: {
xai: {
voiceId: "eve",
},
},
},
},
}
Mowa na tekst
Dołączony Plugin xai rejestruje wsadowe przetwarzanie mowy na tekst przez
powierzchnię transkrypcji rozumienia multimediów OpenClaw.
- Model domyślny:
grok-stt - Punkt końcowy: xAI REST
/v1/stt - Ścieżka wejściowa: przesłanie pliku audio multipart
- Obsługiwane przez OpenClaw wszędzie tam, gdzie transkrypcja przychodzącego audio używa
tools.media.audio, w tym segmenty kanałów głosowych Discord oraz załączniki audio kanałów
Aby wymusić xAI dla transkrypcji przychodzącego audio:
{
tools: {
media: {
audio: {
models: [
{
type: "provider",
provider: "xai",
model: "grok-stt",
},
],
},
},
},
}
Język można podać przez współdzieloną konfigurację mediów audio albo żądanie transkrypcji dla pojedynczego wywołania. Wskazówki promptu są akceptowane przez współdzieloną powierzchnię OpenClaw, ale integracja xAI REST STT przekazuje tylko plik, model i język, ponieważ mapują się one jednoznacznie na obecny publiczny punkt końcowy xAI.
Strumieniowe przetwarzanie mowy na tekst
Dołączony Plugin xai rejestruje też dostawcę transkrypcji w czasie rzeczywistym
dla dźwięku połączeń głosowych na żywo.
- Punkt końcowy: xAI WebSocket
wss://api.x.ai/v1/stt - Domyślne kodowanie:
mulaw - Domyślna częstotliwość próbkowania:
8000 - Domyślne wykrywanie końca wypowiedzi:
800ms - Transkrypcje pośrednie: domyślnie włączone
Strumień multimediów Twilio w Voice Call wysyła ramki audio G.711 µ-law, więc dostawca xAI może przekazywać te ramki bezpośrednio bez transkodowania:
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "xai",
providers: {
xai: {
apiKey: "${XAI_API_KEY}",
endpointingMs: 800,
language: "en",
},
},
},
},
},
},
},
}
Konfiguracja należąca do dostawcy znajduje się pod
plugins.entries.voice-call.config.streaming.providers.xai. Obsługiwane
klucze to apiKey, baseUrl, sampleRate, encoding (pcm, mulaw lub
alaw), interimResults, endpointingMs i language.
Konfiguracja x_search
Dołączony Plugin xAI udostępnia x_search jako narzędzie OpenClaw do wyszukiwania
treści z X (dawniej Twitter) przez Grok.
Ścieżka konfiguracji: plugins.entries.xai.config.xSearch
| Klucz | Typ | Wartość domyślna | Opis |
|---|---|---|---|
enabled |
boolean | - | Włącza lub wyłącza x_search |
model |
string | grok-4-1-fast |
Model używany do żądań x_search |
baseUrl |
string | - | Nadpisanie bazowego URL xAI Responses |
inlineCitations |
boolean | - | Dołącza cytowania w treści wyników |
maxTurns |
number | - | Maksymalna liczba tur konwersacji |
timeoutSeconds |
number | - | Limit czasu żądania w sekundach |
cacheTtlMinutes |
number | - | Czas życia pamięci podręcznej w minutach |
{
plugins: {
entries: {
xai: {
config: {
xSearch: {
enabled: true,
model: "grok-4-1-fast",
baseUrl: "https://api.x.ai/v1",
inlineCitations: true,
},
},
},
},
},
}
Konfiguracja wykonywania kodu
Dołączony Plugin xAI udostępnia code_execution jako narzędzie OpenClaw do
zdalnego wykonywania kodu w środowisku piaskownicy xAI.
Ścieżka konfiguracji: plugins.entries.xai.config.codeExecution
| Klucz | Typ | Wartość domyślna | Opis |
|---|---|---|---|
enabled |
boolean | true (jeśli klucz jest dostępny) |
Włącza lub wyłącza wykonywanie kodu |
model |
string | grok-4-1-fast |
Model używany do żądań wykonywania kodu |
maxTurns |
number | - | Maksymalna liczba tur konwersacji |
timeoutSeconds |
number | - | Limit czasu żądania w sekundach |
{
plugins: {
entries: {
xai: {
config: {
codeExecution: {
enabled: true,
model: "grok-4-1-fast",
},
},
},
},
},
}
Znane ograniczenia
- Uwierzytelnianie obsługuje dziś tylko klucz API. W OpenClaw nie ma jeszcze przepływu xAI OAuth ani kodu urządzenia.
grok-4.20-multi-agent-experimental-beta-0304nie jest obsługiwany na zwykłej ścieżce dostawcy xAI, ponieważ wymaga innej powierzchni API upstream niż standardowy transport xAI w OpenClaw.- Głos xAI Realtime nie jest jeszcze zarejestrowany jako dostawca OpenClaw. Wymaga innego kontraktu dwukierunkowej sesji głosowej niż wsadowe STT lub transkrypcja strumieniowa.
qualityobrazów xAI,maskobrazów oraz dodatkowe natywne proporcje obrazu nie są udostępniane, dopóki współdzielone narzędzieimage_generatenie otrzyma odpowiednich kontrolek międzydostawcowych.
Uwagi zaawansowane
- OpenClaw automatycznie stosuje poprawki zgodności schematów narzędzi i wywołań narzędzi specyficzne dla xAI na współdzielonej ścieżce runnera.
- Natywne żądania xAI domyślnie używają
tool_stream: true. Ustawagents.defaults.models["xai/<model>"].params.tool_streamnafalse, aby to wyłączyć. - Dołączony wrapper xAI usuwa nieobsługiwane flagi ścisłych schematów narzędzi oraz klucze ładunku rozumowania przed wysłaniem natywnych żądań xAI.
web_search,x_searchicode_executionsą udostępniane jako narzędzia OpenClaw. OpenClaw włącza konkretną wbudowaną funkcję xAI, której potrzebuje, wewnątrz każdego żądania narzędzia, zamiast dołączać wszystkie narzędzia natywne do każdej tury czatu.- Grok
web_searchodczytujeplugins.entries.xai.config.webSearch.baseUrl.x_searchodczytujeplugins.entries.xai.config.xSearch.baseUrl, a następnie wraca do bazowego URL wyszukiwania w sieci Grok. x_searchicode_executionnależą do dołączonego Pluginu xAI, zamiast być zakodowane na stałe w podstawowym środowisku uruchomieniowym modelu.code_executionto zdalne wykonywanie w piaskownicy xAI, a nie lokalneexec.
Testowanie na żywo
Ścieżki multimediów xAI są objęte testami jednostkowymi i opcjonalnymi zestawami testów na żywo. Polecenia na żywo
ładują sekrety z powłoki logowania, w tym ~/.profile, przed
sprawdzeniem XAI_API_KEY.
pnpm test extensions/xai
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 pnpm test:live -- extensions/xai/xai.live.test.ts
OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 OPENCLAW_LIVE_IMAGE_GENERATION_PROVIDERS=xai pnpm test:live -- test/image-generation.runtime.live.test.ts
Plik testów na żywo specyficzny dla dostawcy syntetyzuje zwykłe TTS, przyjazne telefonii PCM TTS, transkrybuje audio przez wsadowe STT xAI, strumieniuje ten sam PCM przez STT czasu rzeczywistego xAI, generuje wyjście tekst-na-obraz i edytuje obraz referencyjny. Współdzielony plik testów obrazów na żywo weryfikuje tego samego dostawcę xAI przez ścieżkę wyboru środowiska uruchomieniowego OpenClaw, fallbacku, normalizacji i załączników multimedialnych.