快速开始

xAI

OpenClaw 附带一个用于 Grok 模型的内置 xai 提供商插件。

入门指南

  • 创建 API key

    xAI 控制台中创建 API key。

  • 设置你的 API key

    设置 XAI_API_KEY,或运行:

    openclaw onboard --auth-choice xai-api-key
    
  • 选择一个模型

    {
      agents: { defaults: { model: { primary: "xai/grok-4.3" } } },
    }
    
  • 内置目录

    OpenClaw 默认包含这些 xAI 模型系列:

    系列 模型 ID
    Grok 3 grok-3, grok-3-fast, grok-3-mini, grok-3-mini-fast
    Grok 4.3 grok-4.3
    Grok 4 grok-4, grok-4-0709
    Grok 4 Fast grok-4-fast, grok-4-fast-non-reasoning
    Grok 4.1 Fast grok-4-1-fast, grok-4-1-fast-non-reasoning
    Grok 4.20 Beta grok-4.20-beta-latest-reasoning, grok-4.20-beta-latest-non-reasoning
    Grok Code grok-code-fast-1

    当更新的 grok-4*grok-code-fast* ID 遵循相同 API 形态时, 该插件也会向前解析它们。

    OpenClaw 功能覆盖范围

    内置插件会将 xAI 当前的公共 API 表面映射到 OpenClaw 共享的 提供商和工具契约。不符合共享契约的能力 (例如流式 TTS 和实时语音)不会暴露 - 见下表。

    xAI 能力 OpenClaw 表面 Status
    Chat / Responses xai/<model> 模型提供商
    服务端网页搜索 web_search 提供商 grok
    服务端 X 搜索 x_search 工具
    服务端代码执行 code_execution 工具
    图像 image_generate
    视频 video_generate
    批量文本转语音 messages.tts.provider: "xai" / tts
    流式 TTS - 未暴露;OpenClaw 的 TTS 契约返回完整音频缓冲区
    批量语音转文本 tools.media.audio / 媒体理解
    流式语音转文本 Voice Call streaming.provider: "xai"
    实时语音 - 尚未暴露;使用不同的会话/WebSocket 契约
    文件 / 批处理 仅通用模型 API 兼容性 不是一等 OpenClaw 工具

    快速模式映射

    /fast onagents.defaults.models["xai/<model>"].params.fastMode: true 会按如下方式重写原生 xAI 请求:

    源模型 快速模式目标
    grok-3 grok-3-fast
    grok-3-mini grok-3-mini-fast
    grok-4 grok-4-fast
    grok-4-0709 grok-4-fast

    旧版兼容别名

    旧版别名仍会规范化为内置的规范 ID:

    旧版别名 规范 ID
    grok-4-fast-reasoning grok-4-fast
    grok-4-1-fast-reasoning grok-4-1-fast
    grok-4.20-reasoning grok-4.20-beta-latest-reasoning
    grok-4.20-non-reasoning grok-4.20-beta-latest-non-reasoning

    功能

    网页搜索

    内置 grok 网页搜索提供商也使用 XAI_API_KEY

    openclaw config set tools.web.search.provider grok
    
    视频生成

    内置 xai 插件通过共享的 video_generate 工具注册视频生成。

    • 默认视频模型:xai/grok-imagine-video
    • 模式:文本到视频、图像到视频、参考图像生成、远程 视频编辑和远程视频扩展
    • 宽高比:1:116:99:164:33:43:22:3
    • 分辨率:480P720P
    • 时长:生成/图像到视频为 1-15 秒,使用 reference_image 角色时为 1-10 秒,扩展为 2-10 秒
    • 参考图像生成:为每张提供的图像将 imageRoles 设置为 reference_image; xAI 最多接受 7 张此类图像

    要将 xAI 用作默认视频提供商:

    {
      agents: {
        defaults: {
          videoGenerationModel: {
            primary: "xai/grok-imagine-video",
          },
        },
      },
    }
    
    图像生成

    内置 xai 插件通过共享的 image_generate 工具注册图像生成。

    • 默认图像模型:xai/grok-imagine-image
    • 其他模型:xai/grok-imagine-image-pro
    • 模式:文本到图像和参考图像编辑
    • 参考输入:一个 image 或最多五个 images
    • 宽高比:1:116:99:164:33:42:33:2
    • 分辨率:1K2K
    • 数量:最多 4 张图像

    OpenClaw 请求 xAI 返回 b64_json 图像响应,以便生成的媒体可以 通过常规渠道附件路径存储和投递。本地 参考图像会转换为数据 URL;远程 http(s) 引用会 直接透传。

    要将 xAI 用作默认图像提供商:

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "xai/grok-imagine-image",
          },
        },
      },
    }
    
    文本转语音

    内置 xai 插件通过共享 tts 提供商表面注册文本转语音。

    • 语音:eveararexsalleouna
    • 默认语音:eve
    • 格式:mp3wavpcmmulawalaw
    • 语言:BCP-47 代码或 auto
    • 速度:提供商原生速度覆盖
    • 不支持原生 Opus 语音备注格式

    要将 xAI 用作默认 TTS 提供商:

    {
      messages: {
        tts: {
          provider: "xai",
          providers: {
            xai: {
              voiceId: "eve",
            },
          },
        },
      },
    }
    
    语音转文本

    内置 xai 插件通过 OpenClaw 的 媒体理解转写表面注册批量语音转文本。

    • 默认模型:grok-stt
    • 端点:xAI REST /v1/stt
    • 输入路径:multipart 音频文件上传
    • OpenClaw 中任何使用入站音频转写的地方都支持 tools.media.audio,包括 Discord 语音频道片段和 渠道音频附件

    要强制 xAI 处理入站音频转写:

    {
      tools: {
        media: {
          audio: {
            models: [
              {
                type: "provider",
                provider: "xai",
                model: "grok-stt",
              },
            ],
          },
        },
      },
    }
    

    语言可以通过共享音频媒体配置或每次调用的 转写请求提供。共享 OpenClaw 表面接受提示词提示,但 xAI REST STT 集成只转发文件、模型和 语言,因为它们能清晰映射到当前公共 xAI 端点。

    流式语音转文本

    内置 xai 插件还为实时语音通话音频注册了 实时转写提供商。

    • 端点:xAI WebSocket wss://api.x.ai/v1/stt
    • 默认编码:mulaw
    • 默认采样率:8000
    • 默认端点检测:800ms
    • 中间转写:默认启用

    Voice Call 的 Twilio 媒体流发送 G.711 µ-law 音频帧,因此 xAI 提供商可以直接转发这些帧而无需转码:

    {
      plugins: {
        entries: {
          "voice-call": {
            config: {
              streaming: {
                enabled: true,
                provider: "xai",
                providers: {
                  xai: {
                    apiKey: "${XAI_API_KEY}",
                    endpointingMs: 800,
                    language: "en",
                  },
                },
              },
            },
          },
        },
      },
    }
    

    Provider 拥有的配置位于 plugins.entries.voice-call.config.streaming.providers.xai 下。支持的 键名为 apiKeybaseUrlsampleRateencodingpcmmulawalaw)、interimResultsendpointingMslanguage

    x_search 配置

    内置的 xAI 插件将 x_search 暴露为 OpenClaw 工具,用于通过 Grok 搜索 X(原 Twitter)内容。

    配置路径:plugins.entries.xai.config.xSearch

    键名 类型 默认值 描述
    enabled boolean - 启用或禁用 x_search
    model string grok-4-1-fast 用于 x_search 请求的模型
    baseUrl string - xAI Responses 基础 URL 覆盖值
    inlineCitations boolean - 在结果中包含内联引用
    maxTurns number - 最大对话轮次
    timeoutSeconds number - 请求超时时间,单位为秒
    cacheTtlMinutes number - 缓存存活时间,单位为分钟
    {
      plugins: {
        entries: {
          xai: {
            config: {
              xSearch: {
                enabled: true,
                model: "grok-4-1-fast",
                baseUrl: "https://api.x.ai/v1",
                inlineCitations: true,
              },
            },
          },
        },
      },
    }
    
    代码执行配置

    内置的 xAI 插件将 code_execution 暴露为 OpenClaw 工具,用于在 xAI 的沙箱 环境中执行远程代码。

    配置路径:plugins.entries.xai.config.codeExecution

    键名 类型 默认值 描述
    enabled boolean true(如果密钥可用) 启用或禁用代码执行
    model string grok-4-1-fast 用于代码执行请求的模型
    maxTurns number - 最大对话轮次
    timeoutSeconds number - 请求超时时间,单位为秒
    {
      plugins: {
        entries: {
          xai: {
            config: {
              codeExecution: {
                enabled: true,
                model: "grok-4-1-fast",
              },
            },
          },
        },
      },
    }
    
    已知限制
    • 目前凭证仅支持 API key。OpenClaw 中尚无 xAI OAuth 或设备代码流程。
    • grok-4.20-multi-agent-experimental-beta-0304 不支持常规 xAI provider 路径,因为它需要不同于标准 OpenClaw xAI 传输的上游 API 表面。
    • xAI Realtime 语音尚未注册为 OpenClaw provider。它需要与批处理 STT 或流式转录不同的双向语音会话契约。
    • xAI 图像 quality、图像 mask 和额外的仅原生支持的宽高比,在共享 image_generate 工具具备对应的跨提供商控制之前不会暴露。
    高级说明
    • OpenClaw 会在共享运行器路径上自动应用 xAI 特定的工具 schema 和工具调用兼容性修复。
    • 原生 xAI 请求默认使用 tool_stream: true。将 agents.defaults.models["xai/<model>"].params.tool_stream 设置为 false 可禁用它。
    • 内置 xAI 包装器会在发送原生 xAI 请求前移除不支持的严格工具 schema 标志和推理负载键名。
    • web_searchx_searchcode_execution 会作为 OpenClaw 工具暴露。OpenClaw 会在每个工具请求中启用它需要的具体 xAI 内置能力,而不是把所有原生工具附加到每个聊天轮次。
    • Grok web_search 读取 plugins.entries.xai.config.webSearch.baseUrlx_search 读取 plugins.entries.xai.config.xSearch.baseUrl,然后回退到 Grok Web 搜索基础 URL。
    • x_searchcode_execution 由内置 xAI 插件拥有,而不是硬编码到核心模型运行时中。
    • code_execution 是远程 xAI 沙箱执行,不是本地 exec

    真实服务测试

    xAI 媒体路径由单元测试和可选启用的真实服务测试套件覆盖。真实服务命令会在探测 XAI_API_KEY 前,从你的登录 shell(包括 ~/.profile)加载密钥。

    pnpm test extensions/xai
    OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 pnpm test:live -- extensions/xai/xai.live.test.ts
    OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 OPENCLAW_LIVE_IMAGE_GENERATION_PROVIDERS=xai pnpm test:live -- test/image-generation.runtime.live.test.ts
    

    提供商专用的真实服务测试文件会合成常规 TTS、适合电话场景的 PCM TTS、通过 xAI 批处理 STT 转录音频、通过 xAI 实时 STT 流式传输同一段 PCM、生成文本到图像输出,并编辑参考图像。共享图像真实服务测试文件会通过 OpenClaw 的运行时选择、回退、归一化和媒体附件路径验证同一个 xAI provider。

    相关内容