Providers

Azure Speech

Azure Speech ist ein Azure AI Speech Text-to-Speech-Anbieter. In OpenClaw synthetisiert er ausgehende Antwort-Audiodaten standardmäßig als MP3, natives Ogg/Opus für Sprach- nachrichten und 8-kHz-Mulaw-Audio für Telefonie-Kanäle wie Voice Call.

OpenClaw verwendet die Azure-Speech-REST-API direkt mit SSML und sendet das anbieterdefinierte Ausgabeformat über X-Microsoft-OutputFormat.

Detail Wert
Website Azure AI Speech
Dokumentation Speech REST text-to-speech
Authentifizierung AZURE_SPEECH_KEY plus AZURE_SPEECH_REGION
Standardstimme en-US-JennyNeural
Standard-Dateiausgabe audio-24khz-48kbitrate-mono-mp3
Standard-Sprachnachricht-Datei ogg-24khz-16bit-mono-opus

Erste Schritte

  • Eine Azure-Speech-Ressource erstellen

    Erstellen Sie im Azure-Portal eine Speech-Ressource. Kopieren Sie KEY 1 aus Resource Management > Keys and Endpoint und kopieren Sie den Ressourcenstandort, zum Beispiel eastus.

    AZURE_SPEECH_KEY=<speech-resource-key>
    AZURE_SPEECH_REGION=eastus
    
  • Azure Speech in messages.tts auswählen

    {
      messages: {
        tts: {
          auto: "always",
          provider: "azure-speech",
          providers: {
            "azure-speech": {
              voice: "en-US-JennyNeural",
              lang: "en-US",
            },
          },
        },
      },
    }
    
  • Eine Nachricht senden

    Senden Sie eine Antwort über einen beliebigen verbundenen Kanal. OpenClaw synthetisiert das Audio mit Azure Speech und liefert MP3 für Standard-Audio oder Ogg/Opus, wenn der Kanal eine Sprachnachricht erwartet.

  • Konfigurationsoptionen

    Option Pfad Beschreibung
    apiKey messages.tts.providers.azure-speech.apiKey Schlüssel der Azure-Speech-Ressource. Fällt auf AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY oder SPEECH_KEY zurück.
    region messages.tts.providers.azure-speech.region Region der Azure-Speech-Ressource. Fällt auf AZURE_SPEECH_REGION oder SPEECH_REGION zurück.
    endpoint messages.tts.providers.azure-speech.endpoint Optionales Override für Azure-Speech-Endpunkt/Basis-URL.
    baseUrl messages.tts.providers.azure-speech.baseUrl Optionales Override für die Azure-Speech-Basis-URL.
    voice messages.tts.providers.azure-speech.voice Azure-Sprach-ShortName (Standard en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang SSML-Sprachcode (Standard en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat Audio-Datei-Ausgabeformat (Standard audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat Ausgabeformat für Sprachnachrichten (Standard ogg-24khz-16bit-mono-opus).

    Hinweise

    Authentifizierung

    Azure Speech verwendet einen Schlüssel für die Speech-Ressource, keinen Azure-OpenAI-Schlüssel. Der Schlüssel wird als Ocp-Apim-Subscription-Key gesendet; OpenClaw leitet https://<region>.tts.speech.microsoft.com aus region ab, sofern Sie nicht endpoint oder baseUrl angeben.

    Stimmnamen

    Verwenden Sie den Azure-Speech-ShortName der Stimme, zum Beispiel en-US-JennyNeural. Der gebündelte Anbieter kann Stimmen über dieselbe Speech-Ressource auflisten und filtert Stimmen heraus, die als deprecated oder retired markiert sind.

    Audioausgaben

    Azure akzeptiert Ausgabeformate wie audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus und riff-24khz-16bit-mono-pcm. OpenClaw fordert für Ziele vom Typ voice-note Ogg/Opus an, damit Kanäle native Sprachblasen ohne zusätzliche MP3-Konvertierung senden können.

    Alias

    azure wird als Anbieter-Alias für bestehende PRs und Nutzerkonfigurationen akzeptiert, aber neue Konfigurationen sollten azure-speech verwenden, um Verwechslungen mit Azure- OpenAI-Modellanbietern zu vermeiden.

    Verwandte Themen