Providers

Azure Speech

Azure Speech to provider syntezy mowy Azure AI Speech. W OpenClaw syntetyzuje wychodzące audio odpowiedzi domyślnie jako MP3, natywne Ogg/Opus dla notatek głosowych oraz audio mulaw 8 kHz dla kanałów telefonicznych, takich jak Voice Call.

OpenClaw używa bezpośrednio Azure Speech REST API z SSML i wysyła należący do providera format wyjściowy przez X-Microsoft-OutputFormat.

Szczegół Wartość
Strona internetowa Azure AI Speech
Dokumentacja Speech REST text-to-speech
Uwierzytelnianie AZURE_SPEECH_KEY plus AZURE_SPEECH_REGION
Domyślny głos en-US-JennyNeural
Domyślny plik wyjściowy audio-24khz-48kbitrate-mono-mp3
Domyślny plik notatki głosowej ogg-24khz-16bit-mono-opus

Pierwsze kroki

  • Utwórz zasób Azure Speech

    W portalu Azure utwórz zasób Speech. Skopiuj KEY 1 z Resource Management > Keys and Endpoint oraz skopiuj lokalizację zasobu, na przykład eastus.

    AZURE_SPEECH_KEY=<speech-resource-key>
    AZURE_SPEECH_REGION=eastus
    
  • Wybierz Azure Speech w messages.tts

    {
      messages: {
        tts: {
          auto: "always",
          provider: "azure-speech",
          providers: {
            "azure-speech": {
              voice: "en-US-JennyNeural",
              lang: "en-US",
            },
          },
        },
      },
    }
    
  • Wyślij wiadomość

    Wyślij odpowiedź przez dowolny podłączony kanał. OpenClaw syntetyzuje audio za pomocą Azure Speech i dostarcza MP3 dla standardowego audio lub Ogg/Opus, gdy kanał oczekuje notatki głosowej.

  • Opcje konfiguracji

    Opcja Ścieżka Opis
    apiKey messages.tts.providers.azure-speech.apiKey Klucz zasobu Azure Speech. Zapasowo używa AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY lub SPEECH_KEY.
    region messages.tts.providers.azure-speech.region Region zasobu Azure Speech. Zapasowo używa AZURE_SPEECH_REGION lub SPEECH_REGION.
    endpoint messages.tts.providers.azure-speech.endpoint Opcjonalne nadpisanie endpointu/base URL Azure Speech.
    baseUrl messages.tts.providers.azure-speech.baseUrl Opcjonalne nadpisanie base URL Azure Speech.
    voice messages.tts.providers.azure-speech.voice Azure voice ShortName (domyślnie en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang Kod języka SSML (domyślnie en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat Format wyjściowy pliku audio (domyślnie audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat Format wyjściowy notatki głosowej (domyślnie ogg-24khz-16bit-mono-opus).

    Uwagi

    Uwierzytelnianie

    Azure Speech używa klucza zasobu Speech, a nie klucza Azure OpenAI. Klucz jest wysyłany jako Ocp-Apim-Subscription-Key; OpenClaw wyprowadza https://<region>.tts.speech.microsoft.com z region, chyba że podasz endpoint lub baseUrl.

    Nazwy głosów

    Używaj wartości ShortName głosu Azure Speech, na przykład en-US-JennyNeural. Bundlowany provider może listować głosy przez ten sam zasób Speech i filtruje głosy oznaczone jako deprecated lub retired.

    Wyjścia audio

    Azure akceptuje formaty wyjściowe takie jak audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus i riff-24khz-16bit-mono-pcm. OpenClaw żąda Ogg/Opus dla celów voice-note, aby kanały mogły wysyłać natywne dymki głosowe bez dodatkowej konwersji MP3.

    Alias

    azure jest akceptowane jako alias providera dla istniejących PR i konfiguracji użytkowników, ale nowa konfiguracja powinna używać azure-speech, aby uniknąć pomyłek z providerami modeli Azure OpenAI.

    Powiązane