Providers

Azure Speech

Azure Speech é um provedor de conversão de texto em fala do Azure AI Speech. No OpenClaw, ele sintetiza áudio de respostas de saída como MP3 por padrão, Ogg/Opus nativo para notas de voz e áudio mulaw de 8 kHz para canais de telefonia, como Voice Call.

O OpenClaw usa diretamente a API REST do Azure Speech com SSML e envia o formato de saída pertencente ao provedor por meio de X-Microsoft-OutputFormat.

Detalhe	Valor
Site	Azure AI Speech
Documentação	Speech REST text-to-speech
Autenticação	`AZURE_SPEECH_KEY` mais `AZURE_SPEECH_REGION`
Voz padrão	`en-US-JennyNeural`
Saída de arquivo padrão	`audio-24khz-48kbitrate-mono-mp3`
Arquivo padrão de nota de voz	`ogg-24khz-16bit-mono-opus`

Primeiros passos

Criar um recurso do Azure Speech

No portal do Azure, crie um recurso Speech. Copie a KEY 1 em Resource Management > Keys and Endpoint e copie a localização do recurso, como eastus.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

Selecionar Azure Speech em messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

Enviar uma mensagem

Envie uma resposta por qualquer canal conectado. O OpenClaw sintetiza o áudio com o Azure Speech e entrega MP3 para áudio padrão, ou Ogg/Opus quando o canal espera uma nota de voz.

Opções de configuração

Opção	Caminho	Descrição
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Chave do recurso Azure Speech. Usa `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY` ou `SPEECH_KEY` como fallback.
`region`	`messages.tts.providers.azure-speech.region`	Região do recurso Azure Speech. Usa `AZURE_SPEECH_REGION` ou `SPEECH_REGION` como fallback.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	Sobrescrita opcional do endpoint/base URL do Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	Sobrescrita opcional da base URL do Azure Speech.
`voice`	`messages.tts.providers.azure-speech.voice`	`ShortName` da voz do Azure (padrão `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	Código de idioma SSML (padrão `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	Formato de saída do arquivo de áudio (padrão `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	Formato de saída da nota de voz (padrão `ogg-24khz-16bit-mono-opus`).

Observações

Autenticação

O Azure Speech usa uma chave de recurso Speech, não uma chave do Azure OpenAI. A chave é enviada como Ocp-Apim-Subscription-Key; o OpenClaw deriva https://<region>.tts.speech.microsoft.com de region, a menos que você forneça endpoint ou baseUrl.

Nomes de voz

Use o valor ShortName da voz do Azure Speech, por exemplo en-US-JennyNeural. O provedor empacotado pode listar vozes por meio do mesmo recurso Speech e filtra vozes marcadas como obsoletas ou descontinuadas.

Saídas de áudio

O Azure aceita formatos de saída como audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. O OpenClaw solicita Ogg/Opus para destinos voice-note, para que os canais possam enviar bolhas de voz nativas sem uma conversão adicional para MP3.

Alias

azure é aceito como alias de provedor para PRs existentes e configuração de usuário, mas novas configurações devem usar azure-speech para evitar confusão com provedores de modelo do Azure OpenAI.