Providers

Azure Speech

Azure Speech to provider syntezy mowy Azure AI Speech. W OpenClaw syntetyzuje wychodzące audio odpowiedzi domyślnie jako MP3, natywne Ogg/Opus dla notatek głosowych oraz audio mulaw 8 kHz dla kanałów telefonicznych, takich jak Voice Call.

OpenClaw używa bezpośrednio Azure Speech REST API z SSML i wysyła należący do providera format wyjściowy przez X-Microsoft-OutputFormat.

Szczegół	Wartość
Strona internetowa	Azure AI Speech
Dokumentacja	Speech REST text-to-speech
Uwierzytelnianie	`AZURE_SPEECH_KEY` plus `AZURE_SPEECH_REGION`
Domyślny głos	`en-US-JennyNeural`
Domyślny plik wyjściowy	`audio-24khz-48kbitrate-mono-mp3`
Domyślny plik notatki głosowej	`ogg-24khz-16bit-mono-opus`

Pierwsze kroki

Utwórz zasób Azure Speech

W portalu Azure utwórz zasób Speech. Skopiuj KEY 1 z Resource Management > Keys and Endpoint oraz skopiuj lokalizację zasobu, na przykład eastus.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

Wybierz Azure Speech w messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

Wyślij wiadomość

Wyślij odpowiedź przez dowolny podłączony kanał. OpenClaw syntetyzuje audio za pomocą Azure Speech i dostarcza MP3 dla standardowego audio lub Ogg/Opus, gdy kanał oczekuje notatki głosowej.

Opcje konfiguracji

Opcja	Ścieżka	Opis
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Klucz zasobu Azure Speech. Zapasowo używa `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY` lub `SPEECH_KEY`.
`region`	`messages.tts.providers.azure-speech.region`	Region zasobu Azure Speech. Zapasowo używa `AZURE_SPEECH_REGION` lub `SPEECH_REGION`.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	Opcjonalne nadpisanie endpointu/base URL Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	Opcjonalne nadpisanie base URL Azure Speech.
`voice`	`messages.tts.providers.azure-speech.voice`	Azure voice `ShortName` (domyślnie `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	Kod języka SSML (domyślnie `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	Format wyjściowy pliku audio (domyślnie `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	Format wyjściowy notatki głosowej (domyślnie `ogg-24khz-16bit-mono-opus`).

Uwagi

Uwierzytelnianie

Azure Speech używa klucza zasobu Speech, a nie klucza Azure OpenAI. Klucz jest wysyłany jako Ocp-Apim-Subscription-Key; OpenClaw wyprowadza https://<region>.tts.speech.microsoft.com z region, chyba że podasz endpoint lub baseUrl.

Nazwy głosów

Używaj wartości ShortName głosu Azure Speech, na przykład en-US-JennyNeural. Bundlowany provider może listować głosy przez ten sam zasób Speech i filtruje głosy oznaczone jako deprecated lub retired.

Wyjścia audio

Azure akceptuje formaty wyjściowe takie jak audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus i riff-24khz-16bit-mono-pcm. OpenClaw żąda Ogg/Opus dla celów voice-note, aby kanały mogły wysyłać natywne dymki głosowe bez dodatkowej konwersji MP3.

Alias

azure jest akceptowane jako alias providera dla istniejących PR i konfiguracji użytkowników, ale nowa konfiguracja powinna używać azure-speech, aby uniknąć pomyłek z providerami modeli Azure OpenAI.