Providers

Azure Speech

Azure Speech é um provedor de conversão de texto em fala do Azure AI Speech. No OpenClaw, ele sintetiza áudio de respostas de saída como MP3 por padrão, Ogg/Opus nativo para notas de voz e áudio mulaw de 8 kHz para canais de telefonia, como Voice Call.

O OpenClaw usa diretamente a API REST do Azure Speech com SSML e envia o formato de saída pertencente ao provedor por meio de X-Microsoft-OutputFormat.

Detalhe Valor
Site Azure AI Speech
Documentação Speech REST text-to-speech
Autenticação AZURE_SPEECH_KEY mais AZURE_SPEECH_REGION
Voz padrão en-US-JennyNeural
Saída de arquivo padrão audio-24khz-48kbitrate-mono-mp3
Arquivo padrão de nota de voz ogg-24khz-16bit-mono-opus

Primeiros passos

  • Criar um recurso do Azure Speech

    No portal do Azure, crie um recurso Speech. Copie a KEY 1 em Resource Management > Keys and Endpoint e copie a localização do recurso, como eastus.

    AZURE_SPEECH_KEY=<speech-resource-key>
    AZURE_SPEECH_REGION=eastus
    
  • Selecionar Azure Speech em messages.tts

    {
      messages: {
        tts: {
          auto: "always",
          provider: "azure-speech",
          providers: {
            "azure-speech": {
              voice: "en-US-JennyNeural",
              lang: "en-US",
            },
          },
        },
      },
    }
    
  • Enviar uma mensagem

    Envie uma resposta por qualquer canal conectado. O OpenClaw sintetiza o áudio com o Azure Speech e entrega MP3 para áudio padrão, ou Ogg/Opus quando o canal espera uma nota de voz.

  • Opções de configuração

    Opção Caminho Descrição
    apiKey messages.tts.providers.azure-speech.apiKey Chave do recurso Azure Speech. Usa AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY ou SPEECH_KEY como fallback.
    region messages.tts.providers.azure-speech.region Região do recurso Azure Speech. Usa AZURE_SPEECH_REGION ou SPEECH_REGION como fallback.
    endpoint messages.tts.providers.azure-speech.endpoint Sobrescrita opcional do endpoint/base URL do Azure Speech.
    baseUrl messages.tts.providers.azure-speech.baseUrl Sobrescrita opcional da base URL do Azure Speech.
    voice messages.tts.providers.azure-speech.voice ShortName da voz do Azure (padrão en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang Código de idioma SSML (padrão en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat Formato de saída do arquivo de áudio (padrão audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat Formato de saída da nota de voz (padrão ogg-24khz-16bit-mono-opus).

    Observações

    Autenticação

    O Azure Speech usa uma chave de recurso Speech, não uma chave do Azure OpenAI. A chave é enviada como Ocp-Apim-Subscription-Key; o OpenClaw deriva https://<region>.tts.speech.microsoft.com de region, a menos que você forneça endpoint ou baseUrl.

    Nomes de voz

    Use o valor ShortName da voz do Azure Speech, por exemplo en-US-JennyNeural. O provedor empacotado pode listar vozes por meio do mesmo recurso Speech e filtra vozes marcadas como obsoletas ou descontinuadas.

    Saídas de áudio

    O Azure aceita formatos de saída como audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. O OpenClaw solicita Ogg/Opus para destinos voice-note, para que os canais possam enviar bolhas de voz nativas sem uma conversão adicional para MP3.

    Alias

    azure é aceito como alias de provedor para PRs existentes e configuração de usuário, mas novas configurações devem usar azure-speech para evitar confusão com provedores de modelo do Azure OpenAI.

    Relacionado