Providers

Azure Speech

Azure Speech — це провайдер перетворення тексту на мовлення Azure AI Speech. В OpenClaw він синтезує аудіо вихідних відповідей як MP3 за замовчуванням, нативний Ogg/Opus для голосових повідомлень і аудіо mulaw 8 кГц для телефонних каналів, таких як Voice Call.

OpenClaw використовує REST API Azure Speech безпосередньо з SSML і надсилає формат виводу, що належить провайдеру, через X-Microsoft-OutputFormat.

Деталь	Значення
Вебсайт	Azure AI Speech
Документація	Speech REST text-to-speech
Автентифікація	`AZURE_SPEECH_KEY` плюс `AZURE_SPEECH_REGION`
Голос за замовчуванням	`en-US-JennyNeural`
Вивід файлу за замовчуванням	`audio-24khz-48kbitrate-mono-mp3`
Файл голосового повідомлення за замовчуванням	`ogg-24khz-16bit-mono-opus`

Початок роботи

Створіть ресурс Azure Speech

У порталі Azure створіть ресурс Speech. Скопіюйте KEY 1 з Resource Management > Keys and Endpoint, а також скопіюйте розташування ресурсу, наприклад eastus.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

Виберіть Azure Speech у messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

Надішліть повідомлення

Надішліть відповідь через будь-який підключений канал. OpenClaw синтезує аудіо за допомогою Azure Speech і доставляє MP3 для стандартного аудіо або Ogg/Opus, коли канал очікує голосове повідомлення.

Параметри конфігурації

Параметр	Шлях	Опис
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Ключ ресурсу Azure Speech. Використовує `AZURE_SPEECH_KEY`, `AZURE_SPEECH_API_KEY` або `SPEECH_KEY` як запасний варіант.
`region`	`messages.tts.providers.azure-speech.region`	Регіон ресурсу Azure Speech. Використовує `AZURE_SPEECH_REGION` або `SPEECH_REGION` як запасний варіант.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	Необов’язкове перевизначення endpoint/base URL Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	Необов’язкове перевизначення base URL Azure Speech.
`voice`	`messages.tts.providers.azure-speech.voice`	`ShortName` голосу Azure (за замовчуванням `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	Код мови SSML (за замовчуванням `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	Формат виводу аудіофайлу (за замовчуванням `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	Формат виводу голосового повідомлення (за замовчуванням `ogg-24khz-16bit-mono-opus`).

Примітки

Автентифікація

Azure Speech використовує ключ ресурсу Speech, а не ключ Azure OpenAI. Ключ надсилається як Ocp-Apim-Subscription-Key; OpenClaw виводить https://<region>.tts.speech.microsoft.com з region, якщо ви не вкажете endpoint або baseUrl.

Назви голосів

Використовуйте значення ShortName голосу Azure Speech, наприклад en-US-JennyNeural. Вбудований провайдер може перелічувати голоси через той самий ресурс Speech і відфільтровує голоси, позначені як deprecated або retired.

Аудіовиходи

Azure приймає такі формати виводу, як audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus і riff-24khz-16bit-mono-pcm. OpenClaw запитує Ogg/Opus для цілей voice-note, щоб канали могли надсилати нативні голосові бульбашки без додаткового перетворення MP3.

Псевдонім

azure приймається як псевдонім провайдера для наявних PR і конфігурації користувачів, але в новій конфігурації слід використовувати azure-speech, щоб уникнути плутанини з провайдерами моделей Azure OpenAI.