Providers

Azure Speech

Azure Speech adalah provider text-to-speech Azure AI Speech. Di OpenClaw, provider ini mensintesis audio balasan keluar sebagai MP3 secara default, Ogg/Opus native untuk voice note, dan audio mulaw 8 kHz untuk saluran telepon seperti Voice Call.

OpenClaw menggunakan REST API Azure Speech secara langsung dengan SSML dan mengirim format output milik provider melalui X-Microsoft-OutputFormat.

Detail	Nilai
Situs web	Azure AI Speech
Dokumen	Speech REST text-to-speech
Auth	`AZURE_SPEECH_KEY` plus `AZURE_SPEECH_REGION`
Voice default	`en-US-JennyNeural`
Output file default	`audio-24khz-48kbitrate-mono-mp3`
File voice-note default	`ogg-24khz-16bit-mono-opus`

Memulai

Buat resource Azure Speech

Di portal Azure, buat resource Speech. Salin KEY 1 dari Resource Management > Keys and Endpoint, dan salin lokasi resource seperti eastus.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

Pilih Azure Speech di messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

Kirim pesan

Kirim balasan melalui saluran terhubung apa pun. OpenClaw mensintesis audio dengan Azure Speech dan mengirim MP3 untuk audio standar, atau Ogg/Opus ketika saluran mengharapkan voice note.

Opsi konfigurasi

Opsi	Path	Deskripsi
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Key resource Azure Speech. Fallback ke `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY`, atau `SPEECH_KEY`.
`region`	`messages.tts.providers.azure-speech.region`	Region resource Azure Speech. Fallback ke `AZURE_SPEECH_REGION` atau `SPEECH_REGION`.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	Override endpoint/base URL Azure Speech opsional.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	Override base URL Azure Speech opsional.
`voice`	`messages.tts.providers.azure-speech.voice`	ShortName voice Azure (default `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	Kode bahasa SSML (default `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	Format output file audio (default `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	Format output voice note (default `ogg-24khz-16bit-mono-opus`).

Catatan

Autentikasi

Azure Speech menggunakan key resource Speech, bukan key Azure OpenAI. Key dikirim sebagai Ocp-Apim-Subscription-Key; OpenClaw menurunkan https://<region>.tts.speech.microsoft.com dari region kecuali Anda memberikan endpoint atau baseUrl.

Nama voice

Gunakan nilai ShortName voice Azure Speech, misalnya en-US-JennyNeural. Provider bawaan dapat mencantumkan voice melalui resource Speech yang sama dan memfilter voice yang ditandai deprecated atau retired.

Output audio

Azure menerima format output seperti audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus, dan riff-24khz-16bit-mono-pcm. OpenClaw meminta Ogg/Opus untuk target voice-note agar saluran dapat mengirim gelembung suara native tanpa konversi MP3 tambahan.

Alias

azure diterima sebagai alias provider untuk PR yang sudah ada dan konfigurasi pengguna, tetapi konfigurasi baru sebaiknya menggunakan azure-speech agar tidak membingungkan dengan provider model Azure OpenAI.