Providers

Azure Speech

Azure Speech 是 Azure AI Speech 文字轉語音提供者。在 OpenClaw 中，它預設會將傳出回覆音訊合成為 MP3，為語音訊息合成原生 Ogg/Opus，並為 Voice Call 等電話語音頻道合成 8 kHz mulaw 音訊。

OpenClaw 會直接搭配 SSML 使用 Azure Speech REST API，並透過 X-Microsoft-OutputFormat 傳送由提供者擁有的輸出格式。

詳細資料	值
網站	Azure AI Speech
文件	Speech REST 文字轉語音
驗證	`AZURE_SPEECH_KEY` 加上 `AZURE_SPEECH_REGION`
預設語音	`en-US-JennyNeural`
預設檔案輸出	`audio-24khz-48kbitrate-mono-mp3`
預設語音訊息檔案	`ogg-24khz-16bit-mono-opus`

開始使用

建立 Azure Speech 資源

在 Azure 入口網站中建立 Speech 資源。從 Resource Management > Keys and Endpoint 複製 KEY 1，並複製資源位置，例如 eastus。

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

在 messages.tts 中選取 Azure Speech

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

傳送訊息

透過任何已連線的頻道傳送回覆。OpenClaw 會使用 Azure Speech 合成音訊，並為標準音訊傳送 MP3，或在頻道預期語音訊息時傳送 Ogg/Opus。

設定選項

選項	路徑	說明
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Azure Speech 資源金鑰。會退回使用 `AZURE_SPEECH_KEY`、`AZURE_SPEECH_API_KEY` 或 `SPEECH_KEY`。
`region`	`messages.tts.providers.azure-speech.region`	Azure Speech 資源區域。會退回使用 `AZURE_SPEECH_REGION` 或 `SPEECH_REGION`。
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	可選的 Azure Speech 端點/基底 URL 覆寫。
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	可選的 Azure Speech 基底 URL 覆寫。
`voice`	`messages.tts.providers.azure-speech.voice`	Azure 語音 ShortName（預設 `en-US-JennyNeural`）。
`lang`	`messages.tts.providers.azure-speech.lang`	SSML 語言代碼（預設 `en-US`）。
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	音訊檔案輸出格式（預設 `audio-24khz-48kbitrate-mono-mp3`）。
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	語音訊息輸出格式（預設 `ogg-24khz-16bit-mono-opus`）。

備註

驗證

Azure Speech 使用 Speech 資源金鑰，而不是 Azure OpenAI 金鑰。此金鑰會以 Ocp-Apim-Subscription-Key 傳送；除非你提供 endpoint 或 baseUrl，否則 OpenClaw 會從 region 衍生 https://<region>.tts.speech.microsoft.com。

語音名稱

使用 Azure Speech 語音的 ShortName 值，例如 en-US-JennyNeural。內建提供者可以透過相同的 Speech 資源列出語音，並篩除標示為已淘汰或已停用的語音。

音訊輸出

Azure 接受 audio-24khz-48kbitrate-mono-mp3、 ogg-24khz-16bit-mono-opus 和 riff-24khz-16bit-mono-pcm 等輸出格式。 OpenClaw 會為 voice-note 目標要求 Ogg/Opus，讓頻道能傳送原生語音泡泡，而不需要額外的 MP3 轉換。

別名

azure 會被接受為現有 PR 和使用者設定的提供者別名，但新設定應使用 azure-speech，以避免與 Azure OpenAI 模型提供者混淆。

Azure Speech

開始使用

建立 Azure Speech 資源

在 messages.tts 中選取 Azure Speech

傳送訊息

設定選項

備註

相關內容

Ask OpenClaw

# 開始使用

建立 Azure Speech 資源

在 messages.tts 中選取 Azure Speech

傳送訊息

# 設定選項

# 備註

# 相關內容

開始使用

設定選項

備註

相關內容