Providers
Azure Speech
Azure Speech ist ein Azure AI Speech Text-to-Speech-Anbieter. In OpenClaw synthetisiert er ausgehende Antwort-Audiodaten standardmäßig als MP3, natives Ogg/Opus für Sprach- nachrichten und 8-kHz-Mulaw-Audio für Telefonie-Kanäle wie Voice Call.
OpenClaw verwendet die Azure-Speech-REST-API direkt mit SSML und sendet das
anbieterdefinierte Ausgabeformat über X-Microsoft-OutputFormat.
| Detail | Wert |
|---|---|
| Website | Azure AI Speech |
| Dokumentation | Speech REST text-to-speech |
| Authentifizierung | AZURE_SPEECH_KEY plus AZURE_SPEECH_REGION |
| Standardstimme | en-US-JennyNeural |
| Standard-Dateiausgabe | audio-24khz-48kbitrate-mono-mp3 |
| Standard-Sprachnachricht-Datei | ogg-24khz-16bit-mono-opus |
Erste Schritte
Eine Azure-Speech-Ressource erstellen
Erstellen Sie im Azure-Portal eine Speech-Ressource. Kopieren Sie KEY 1 aus
Resource Management > Keys and Endpoint und kopieren Sie den Ressourcenstandort,
zum Beispiel eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
Azure Speech in messages.tts auswählen
{
messages: {
tts: {
auto: "always",
provider: "azure-speech",
providers: {
"azure-speech": {
voice: "en-US-JennyNeural",
lang: "en-US",
},
},
},
},
}
Eine Nachricht senden
Senden Sie eine Antwort über einen beliebigen verbundenen Kanal. OpenClaw synthetisiert das Audio mit Azure Speech und liefert MP3 für Standard-Audio oder Ogg/Opus, wenn der Kanal eine Sprachnachricht erwartet.
Konfigurationsoptionen
| Option | Pfad | Beschreibung |
|---|---|---|
apiKey |
messages.tts.providers.azure-speech.apiKey |
Schlüssel der Azure-Speech-Ressource. Fällt auf AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY oder SPEECH_KEY zurück. |
region |
messages.tts.providers.azure-speech.region |
Region der Azure-Speech-Ressource. Fällt auf AZURE_SPEECH_REGION oder SPEECH_REGION zurück. |
endpoint |
messages.tts.providers.azure-speech.endpoint |
Optionales Override für Azure-Speech-Endpunkt/Basis-URL. |
baseUrl |
messages.tts.providers.azure-speech.baseUrl |
Optionales Override für die Azure-Speech-Basis-URL. |
voice |
messages.tts.providers.azure-speech.voice |
Azure-Sprach-ShortName (Standard en-US-JennyNeural). |
lang |
messages.tts.providers.azure-speech.lang |
SSML-Sprachcode (Standard en-US). |
outputFormat |
messages.tts.providers.azure-speech.outputFormat |
Audio-Datei-Ausgabeformat (Standard audio-24khz-48kbitrate-mono-mp3). |
voiceNoteOutputFormat |
messages.tts.providers.azure-speech.voiceNoteOutputFormat |
Ausgabeformat für Sprachnachrichten (Standard ogg-24khz-16bit-mono-opus). |
Hinweise
Authentifizierung
Azure Speech verwendet einen Schlüssel für die Speech-Ressource, keinen Azure-OpenAI-Schlüssel. Der Schlüssel
wird als Ocp-Apim-Subscription-Key gesendet; OpenClaw leitet
https://<region>.tts.speech.microsoft.com aus region ab, sofern Sie nicht
endpoint oder baseUrl angeben.
Stimmnamen
Verwenden Sie den Azure-Speech-ShortName der Stimme, zum Beispiel
en-US-JennyNeural. Der gebündelte Anbieter kann Stimmen über dieselbe
Speech-Ressource auflisten und filtert Stimmen heraus, die als deprecated oder retired markiert sind.
Audioausgaben
Azure akzeptiert Ausgabeformate wie audio-24khz-48kbitrate-mono-mp3,
ogg-24khz-16bit-mono-opus und riff-24khz-16bit-mono-pcm. OpenClaw
fordert für Ziele vom Typ voice-note Ogg/Opus an, damit Kanäle native
Sprachblasen ohne zusätzliche MP3-Konvertierung senden können.
Alias
azure wird als Anbieter-Alias für bestehende PRs und Nutzerkonfigurationen akzeptiert,
aber neue Konfigurationen sollten azure-speech verwenden, um Verwechslungen mit Azure-
OpenAI-Modellanbietern zu vermeiden.