Providers

Azure Speech

Azure Speech là nhà cung cấp chuyển văn bản thành giọng nói của Azure AI Speech. Trong OpenClaw, mặc định nhà cung cấp này tổng hợp âm thanh trả lời gửi đi dưới dạng MP3, Ogg/Opus gốc cho ghi chú thoại, và âm thanh mulaw 8 kHz cho các kênh điện thoại như Voice Call.

OpenClaw sử dụng trực tiếp Azure Speech REST API với SSML và gửi định dạng đầu ra do nhà cung cấp sở hữu thông qua X-Microsoft-OutputFormat.

Chi tiết	Giá trị
Trang web	Azure AI Speech
Tài liệu	REST chuyển văn bản thành giọng nói của Speech
Xác thực	`AZURE_SPEECH_KEY` cộng với `AZURE_SPEECH_REGION`
Giọng mặc định	`en-US-JennyNeural`
Đầu ra tệp mặc định	`audio-24khz-48kbitrate-mono-mp3`
Tệp ghi chú thoại mặc định	`ogg-24khz-16bit-mono-opus`

Bắt đầu

Tạo tài nguyên Azure Speech

Trong cổng Azure, tạo một tài nguyên Speech. Sao chép KEY 1 từ Resource Management > Keys and Endpoint, và sao chép vị trí tài nguyên chẳng hạn như eastus.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

Chọn Azure Speech trong messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

Gửi tin nhắn

Gửi một câu trả lời qua bất kỳ kênh nào đã kết nối. OpenClaw tổng hợp âm thanh bằng Azure Speech và phân phối MP3 cho âm thanh tiêu chuẩn, hoặc Ogg/Opus khi kênh yêu cầu một ghi chú thoại.

Tùy chọn cấu hình

Tùy chọn	Đường dẫn	Mô tả
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Khóa tài nguyên Azure Speech. Dự phòng sang `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY`, hoặc `SPEECH_KEY`.
`region`	`messages.tts.providers.azure-speech.region`	Vùng tài nguyên Azure Speech. Dự phòng sang `AZURE_SPEECH_REGION` hoặc `SPEECH_REGION`.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	Ghi đè tùy chọn cho điểm cuối/URL cơ sở của Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	Ghi đè tùy chọn cho URL cơ sở của Azure Speech.
`voice`	`messages.tts.providers.azure-speech.voice`	ShortName của giọng Azure (mặc định `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	Mã ngôn ngữ SSML (mặc định `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	Định dạng đầu ra tệp âm thanh (mặc định `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	Định dạng đầu ra ghi chú thoại (mặc định `ogg-24khz-16bit-mono-opus`).

Ghi chú

Xác thực

Azure Speech sử dụng khóa tài nguyên Speech, không phải khóa Azure OpenAI. Khóa này được gửi dưới dạng Ocp-Apim-Subscription-Key; OpenClaw suy ra https://<region>.tts.speech.microsoft.com từ region trừ khi bạn cung cấp endpoint hoặc baseUrl.

Tên giọng

Sử dụng giá trị ShortName của giọng Azure Speech, ví dụ en-US-JennyNeural. Nhà cung cấp đi kèm có thể liệt kê các giọng qua cùng tài nguyên Speech và lọc các giọng được đánh dấu là không còn được khuyến nghị hoặc đã ngừng dùng.

Đầu ra âm thanh

Azure chấp nhận các định dạng đầu ra như audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus, và riff-24khz-16bit-mono-pcm. OpenClaw yêu cầu Ogg/Opus cho các đích voice-note để các kênh có thể gửi bong bóng thoại gốc mà không cần chuyển đổi MP3 bổ sung.

Bí danh

azure được chấp nhận làm bí danh nhà cung cấp cho các PR hiện có và cấu hình người dùng, nhưng cấu hình mới nên dùng azure-speech để tránh nhầm lẫn với các nhà cung cấp mô hình Azure OpenAI.