Providers

xAI

OpenClaw đi kèm một Plugin nhà cung cấp xai cho các mô hình Grok.

Bắt đầu

  • Tạo khóa API

    Tạo một khóa API trong bảng điều khiển xAI.

  • Đặt khóa API của bạn

    Đặt XAI_API_KEY, hoặc chạy:

    openclaw onboard --auth-choice xai-api-key
    
  • Chọn một mô hình

    {
      agents: { defaults: { model: { primary: "xai/grok-4.3" } } },
    }
    
  • Danh mục tích hợp sẵn

    OpenClaw bao gồm sẵn các họ mô hình xAI sau:

    Họ ID mô hình
    Grok 3 grok-3, grok-3-fast, grok-3-mini, grok-3-mini-fast
    Grok 4.3 grok-4.3
    Grok 4 grok-4, grok-4-0709
    Grok 4 Fast grok-4-fast, grok-4-fast-non-reasoning
    Grok 4.1 Fast grok-4-1-fast, grok-4-1-fast-non-reasoning
    Grok 4.20 Beta grok-4.20-beta-latest-reasoning, grok-4.20-beta-latest-non-reasoning
    Grok Code grok-code-fast-1

    Plugin này cũng phân giải chuyển tiếp các ID grok-4*grok-code-fast* mới hơn khi chúng tuân theo cùng một dạng API.

    Phạm vi tính năng của OpenClaw

    Plugin đi kèm ánh xạ bề mặt API công khai hiện tại của xAI vào các hợp đồng nhà cung cấp và công cụ dùng chung của OpenClaw. Những năng lực không khớp với hợp đồng dùng chung (ví dụ TTS phát trực tuyến và giọng nói thời gian thực) không được hiển thị - xem bảng bên dưới.

    Năng lực xAI Bề mặt OpenClaw Trạng thái
    Trò chuyện / Responses nhà cung cấp mô hình xai/<model>
    Tìm kiếm web phía máy chủ nhà cung cấp web_search grok
    Tìm kiếm X phía máy chủ công cụ x_search
    Thực thi mã phía máy chủ công cụ code_execution
    Hình ảnh image_generate
    Video video_generate
    Chuyển văn bản thành giọng nói theo lô messages.tts.provider: "xai" / tts
    TTS phát trực tuyến - Không hiển thị; hợp đồng TTS của OpenClaw trả về bộ đệm âm thanh hoàn chỉnh
    Chuyển giọng nói thành văn bản theo lô tools.media.audio / hiểu phương tiện
    Chuyển giọng nói thành văn bản phát trực tuyến Voice Call streaming.provider: "xai"
    Giọng nói thời gian thực - Chưa hiển thị; hợp đồng phiên/WebSocket khác
    Tệp / lô Chỉ tương thích API mô hình chung Không phải là công cụ OpenClaw hạng nhất

    Ánh xạ chế độ nhanh

    /fast on hoặc agents.defaults.models["xai/<model>"].params.fastMode: true viết lại các yêu cầu xAI gốc như sau:

    Mô hình nguồn Mục tiêu chế độ nhanh
    grok-3 grok-3-fast
    grok-3-mini grok-3-mini-fast
    grok-4 grok-4-fast
    grok-4-0709 grok-4-fast

    Bí danh tương thích cũ

    Các bí danh cũ vẫn được chuẩn hóa thành các ID đi kèm chính tắc:

    Bí danh cũ ID chính tắc
    grok-4-fast-reasoning grok-4-fast
    grok-4-1-fast-reasoning grok-4-1-fast
    grok-4.20-reasoning grok-4.20-beta-latest-reasoning
    grok-4.20-non-reasoning grok-4.20-beta-latest-non-reasoning

    Tính năng

    Tìm kiếm web

    Nhà cung cấp tìm kiếm web grok đi kèm cũng sử dụng XAI_API_KEY:

    openclaw config set tools.web.search.provider grok
    
    Tạo video

    Plugin xai đi kèm đăng ký tạo video thông qua công cụ dùng chung video_generate.

    • Mô hình video mặc định: xai/grok-imagine-video
    • Chế độ: văn bản thành video, hình ảnh thành video, tạo hình ảnh tham chiếu, chỉnh sửa video từ xa, và mở rộng video từ xa
    • Tỷ lệ khung hình: 1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3
    • Độ phân giải: 480P, 720P
    • Thời lượng: 1-15 giây cho tạo/hình ảnh thành video, 1-10 giây khi sử dụng vai trò reference_image, 2-10 giây cho mở rộng
    • Tạo hình ảnh tham chiếu: đặt imageRoles thành reference_image cho mọi hình ảnh được cung cấp; xAI chấp nhận tối đa 7 hình ảnh như vậy

    Để sử dụng xAI làm nhà cung cấp video mặc định:

    {
      agents: {
        defaults: {
          videoGenerationModel: {
            primary: "xai/grok-imagine-video",
          },
        },
      },
    }
    
    Tạo hình ảnh

    Plugin xai đi kèm đăng ký tạo hình ảnh thông qua công cụ dùng chung image_generate.

    • Mô hình hình ảnh mặc định: xai/grok-imagine-image
    • Mô hình bổ sung: xai/grok-imagine-image-pro
    • Chế độ: văn bản thành hình ảnh và chỉnh sửa hình ảnh tham chiếu
    • Đầu vào tham chiếu: một image hoặc tối đa năm images
    • Tỷ lệ khung hình: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
    • Độ phân giải: 1K, 2K
    • Số lượng: tối đa 4 hình ảnh

    OpenClaw yêu cầu xAI trả về phản hồi hình ảnh b64_json để phương tiện được tạo có thể được lưu trữ và phân phối qua đường dẫn tệp đính kèm kênh thông thường. Hình ảnh tham chiếu cục bộ được chuyển đổi thành URL dữ liệu; tham chiếu http(s) từ xa được chuyển qua nguyên trạng.

    Để sử dụng xAI làm nhà cung cấp hình ảnh mặc định:

    {
      agents: {
        defaults: {
          imageGenerationModel: {
            primary: "xai/grok-imagine-image",
          },
        },
      },
    }
    
    Chuyển văn bản thành giọng nói

    Plugin xai đi kèm đăng ký chuyển văn bản thành giọng nói thông qua bề mặt nhà cung cấp tts dùng chung.

    • Giọng: eve, ara, rex, sal, leo, una
    • Giọng mặc định: eve
    • Định dạng: mp3, wav, pcm, mulaw, alaw
    • Ngôn ngữ: mã BCP-47 hoặc auto
    • Tốc độ: ghi đè tốc độ gốc của nhà cung cấp
    • Định dạng ghi chú thoại Opus gốc không được hỗ trợ

    Để sử dụng xAI làm nhà cung cấp TTS mặc định:

    {
      messages: {
        tts: {
          provider: "xai",
          providers: {
            xai: {
              voiceId: "eve",
            },
          },
        },
      },
    }
    
    Chuyển giọng nói thành văn bản

    Plugin xai đi kèm đăng ký chuyển giọng nói thành văn bản theo lô thông qua bề mặt phiên âm hiểu phương tiện của OpenClaw.

    • Mô hình mặc định: grok-stt
    • Endpoint: xAI REST /v1/stt
    • Đường dẫn đầu vào: tải lên tệp âm thanh multipart
    • Được OpenClaw hỗ trợ ở mọi nơi phiên âm âm thanh đầu vào sử dụng tools.media.audio, bao gồm các đoạn kênh thoại Discord và tệp đính kèm âm thanh kênh

    Để buộc dùng xAI cho phiên âm âm thanh đầu vào:

    {
      tools: {
        media: {
          audio: {
            models: [
              {
                type: "provider",
                provider: "xai",
                model: "grok-stt",
              },
            ],
          },
        },
      },
    }
    

    Ngôn ngữ có thể được cung cấp qua cấu hình phương tiện âm thanh dùng chung hoặc yêu cầu phiên âm theo từng lần gọi. Gợi ý prompt được bề mặt OpenClaw dùng chung chấp nhận, nhưng tích hợp xAI REST STT chỉ chuyển tiếp tệp, mô hình, và ngôn ngữ vì chúng ánh xạ rõ ràng tới endpoint xAI công khai hiện tại.

    Chuyển giọng nói thành văn bản phát trực tuyến

    Plugin xai đi kèm cũng đăng ký một nhà cung cấp phiên âm thời gian thực cho âm thanh cuộc gọi thoại trực tiếp.

    • Endpoint: xAI WebSocket wss://api.x.ai/v1/stt
    • Mã hóa mặc định: mulaw
    • Tần số lấy mẫu mặc định: 8000
    • Phát hiện điểm kết thúc mặc định: 800ms
    • Bản phiên âm tạm thời: được bật theo mặc định

    Luồng phương tiện Twilio của Voice Call gửi các khung âm thanh G.711 µ-law, vì vậy nhà cung cấp xAI có thể chuyển tiếp trực tiếp các khung đó mà không cần chuyển mã:

    {
      plugins: {
        entries: {
          "voice-call": {
            config: {
              streaming: {
                enabled: true,
                provider: "xai",
                providers: {
                  xai: {
                    apiKey: "${XAI_API_KEY}",
                    endpointingMs: 800,
                    language: "en",
                  },
                },
              },
            },
          },
        },
      },
    }
    

    Cấu hình do provider sở hữu nằm trong plugins.entries.voice-call.config.streaming.providers.xai. Các khóa được hỗ trợ là apiKey, baseUrl, sampleRate, encoding (pcm, mulaw, hoặc alaw), interimResults, endpointingMs, và language.

    Cấu hình x_search

    Plugin xAI đi kèm hiển thị x_search dưới dạng công cụ OpenClaw để tìm kiếm nội dung X (trước đây là Twitter) thông qua Grok.

    Đường dẫn cấu hình: plugins.entries.xai.config.xSearch

    Khóa Kiểu Mặc định Mô tả
    enabled boolean - Bật hoặc tắt x_search
    model string grok-4-1-fast Model dùng cho các yêu cầu x_search
    baseUrl string - Ghi đè URL cơ sở Responses của xAI
    inlineCitations boolean - Bao gồm trích dẫn nội tuyến trong kết quả
    maxTurns number - Số lượt hội thoại tối đa
    timeoutSeconds number - Thời gian chờ yêu cầu tính bằng giây
    cacheTtlMinutes number - Thời gian tồn tại của bộ nhớ đệm tính bằng phút
    {
      plugins: {
        entries: {
          xai: {
            config: {
              xSearch: {
                enabled: true,
                model: "grok-4-1-fast",
                baseUrl: "https://api.x.ai/v1",
                inlineCitations: true,
              },
            },
          },
        },
      },
    }
    
    Cấu hình thực thi mã

    Plugin xAI đi kèm hiển thị code_execution dưới dạng công cụ OpenClaw để thực thi mã từ xa trong môi trường sandbox của xAI.

    Đường dẫn cấu hình: plugins.entries.xai.config.codeExecution

    Khóa Kiểu Mặc định Mô tả
    enabled boolean true (nếu có khóa) Bật hoặc tắt thực thi mã
    model string grok-4-1-fast Model dùng cho các yêu cầu thực thi mã
    maxTurns number - Số lượt hội thoại tối đa
    timeoutSeconds number - Thời gian chờ yêu cầu tính bằng giây
    {
      plugins: {
        entries: {
          xai: {
            config: {
              codeExecution: {
                enabled: true,
                model: "grok-4-1-fast",
              },
            },
          },
        },
      },
    }
    
    Giới hạn đã biết
    • Hiện nay xác thực chỉ dùng khóa API. OpenClaw chưa có luồng OAuth hoặc mã thiết bị của xAI.
    • grok-4.20-multi-agent-experimental-beta-0304 không được hỗ trợ trên đường dẫn provider xAI thông thường vì nó yêu cầu bề mặt API upstream khác với transport xAI tiêu chuẩn của OpenClaw.
    • Giọng nói xAI Realtime chưa được đăng ký làm provider OpenClaw. Nó cần một hợp đồng phiên giọng nói hai chiều khác với STT hàng loạt hoặc phiên âm truyền phát.
    • quality của hình ảnh xAI, mask của hình ảnh, và các tỷ lệ khung hình bổ sung chỉ dành riêng cho native chưa được hiển thị cho đến khi công cụ image_generate dùng chung có các điều khiển tương ứng trên nhiều provider.
    Ghi chú nâng cao
    • OpenClaw tự động áp dụng các bản sửa tương thích riêng cho xAI về schema công cụ và lệnh gọi công cụ trên đường dẫn runner dùng chung.
    • Các yêu cầu xAI native mặc định dùng tool_stream: true. Đặt agents.defaults.models["xai/<model>"].params.tool_stream thành false để tắt tùy chọn này.
    • Wrapper xAI đi kèm loại bỏ các cờ schema công cụ nghiêm ngặt không được hỗ trợ và các khóa payload reasoning trước khi gửi yêu cầu xAI native.
    • web_search, x_search, và code_execution được hiển thị dưới dạng công cụ OpenClaw. OpenClaw bật tính năng tích hợp sẵn xAI cụ thể mà nó cần bên trong từng yêu cầu công cụ thay vì gắn tất cả công cụ native vào mọi lượt chat.
    • Grok web_search đọc plugins.entries.xai.config.webSearch.baseUrl. x_search đọc plugins.entries.xai.config.xSearch.baseUrl, rồi quay về URL cơ sở tìm kiếm web của Grok.
    • x_searchcode_execution thuộc sở hữu của Plugin xAI đi kèm thay vì được mã hóa cứng vào runtime model lõi.
    • code_execution là thực thi sandbox xAI từ xa, không phải exec cục bộ.

    Kiểm thử trực tiếp

    Các đường dẫn media xAI được bao phủ bởi kiểm thử đơn vị và các bộ kiểm thử trực tiếp chọn tham gia. Các lệnh trực tiếp tải secret từ shell đăng nhập của bạn, bao gồm ~/.profile, trước khi thăm dò XAI_API_KEY.

    pnpm test extensions/xai
    OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 pnpm test:live -- extensions/xai/xai.live.test.ts
    OPENCLAW_LIVE_TEST=1 OPENCLAW_LIVE_TEST_QUIET=1 OPENCLAW_LIVE_IMAGE_GENERATION_PROVIDERS=xai pnpm test:live -- test/image-generation.runtime.live.test.ts
    

    Tệp trực tiếp riêng cho provider tổng hợp TTS thông thường, TTS PCM thân thiện với điện thoại, phiên âm âm thanh thông qua STT hàng loạt của xAI, truyền phát cùng PCM đó qua STT thời gian thực của xAI, tạo đầu ra văn bản thành hình ảnh, và chỉnh sửa một hình ảnh tham chiếu. Tệp trực tiếp hình ảnh dùng chung xác minh cùng provider xAI thông qua đường dẫn chọn runtime, dự phòng, chuẩn hóa, và đính kèm media của OpenClaw.

    Liên quan