Providers

Azure Speech

Azure Speech è un provider di sintesi vocale Azure AI Speech. In OpenClaw sintetizza l'audio delle risposte in uscita come MP3 per impostazione predefinita, Ogg/Opus nativo per le note vocali e audio mulaw a 8 kHz per i canali di telefonia come Voice Call.

OpenClaw usa direttamente l'API REST di Azure Speech con SSML e invia il formato di output gestito dal provider tramite X-Microsoft-OutputFormat.

Dettaglio Valore
Sito web Azure AI Speech
Documentazione Speech REST text-to-speech
Autenticazione AZURE_SPEECH_KEY più AZURE_SPEECH_REGION
Voce predefinita en-US-JennyNeural
Output file predefinito audio-24khz-48kbitrate-mono-mp3
File nota vocale predefinito ogg-24khz-16bit-mono-opus

Introduzione

  • Crea una risorsa Azure Speech

    Nel portale Azure, crea una risorsa Speech. Copia KEY 1 da Resource Management > Keys and Endpoint e copia la posizione della risorsa, ad esempio eastus.

    AZURE_SPEECH_KEY=<speech-resource-key>
    AZURE_SPEECH_REGION=eastus
    
  • Seleziona Azure Speech in messages.tts

    {
      messages: {
        tts: {
          auto: "always",
          provider: "azure-speech",
          providers: {
            "azure-speech": {
              voice: "en-US-JennyNeural",
              lang: "en-US",
            },
          },
        },
      },
    }
    
  • Invia un messaggio

    Invia una risposta tramite qualsiasi canale connesso. OpenClaw sintetizza l'audio con Azure Speech e consegna MP3 per l'audio standard, oppure Ogg/Opus quando il canale si aspetta una nota vocale.

  • Opzioni di configurazione

    Opzione Percorso Descrizione
    apiKey messages.tts.providers.azure-speech.apiKey Chiave della risorsa Azure Speech. Usa come fallback AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY o SPEECH_KEY.
    region messages.tts.providers.azure-speech.region Regione della risorsa Azure Speech. Usa come fallback AZURE_SPEECH_REGION o SPEECH_REGION.
    endpoint messages.tts.providers.azure-speech.endpoint Override facoltativo dell'endpoint/base URL di Azure Speech.
    baseUrl messages.tts.providers.azure-speech.baseUrl Override facoltativo della base URL di Azure Speech.
    voice messages.tts.providers.azure-speech.voice ShortName della voce Azure (predefinito en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang Codice lingua SSML (predefinito en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat Formato di output del file audio (predefinito audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat Formato di output della nota vocale (predefinito ogg-24khz-16bit-mono-opus).

    Note

    Autenticazione

    Azure Speech usa una chiave della risorsa Speech, non una chiave Azure OpenAI. La chiave viene inviata come Ocp-Apim-Subscription-Key; OpenClaw deriva https://<region>.tts.speech.microsoft.com da region a meno che tu non fornisca endpoint o baseUrl.

    Nomi delle voci

    Usa il valore ShortName della voce Azure Speech, ad esempio en-US-JennyNeural. Il provider incluso può elencare le voci tramite la stessa risorsa Speech e filtra le voci contrassegnate come deprecated o retired.

    Output audio

    Azure accetta formati di output come audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus e riff-24khz-16bit-mono-pcm. OpenClaw richiede Ogg/Opus per i target voice-note così i canali possono inviare bubble vocali native senza una conversione MP3 aggiuntiva.

    Alias

    azure è accettato come alias del provider per PR esistenti e configurazioni utente, ma la nuova configurazione dovrebbe usare azure-speech per evitare confusione con i provider di modelli Azure OpenAI.

    Correlati