Providers
Azure Speech
Azure Speech es un proveedor de texto a voz de Azure AI Speech. En OpenClaw sintetiza audio saliente de respuestas como MP3 por defecto, Ogg/Opus nativo para notas de voz y audio mulaw de 8 kHz para canales de telefonía como Voice Call.
OpenClaw usa directamente la API REST de Azure Speech con SSML y envía el
formato de salida propiedad del proveedor mediante X-Microsoft-OutputFormat.
| Detalle | Valor |
|---|---|
| Sitio web | Azure AI Speech |
| Docs | Speech REST text-to-speech |
| Autenticación | AZURE_SPEECH_KEY más AZURE_SPEECH_REGION |
| Voz predeterminada | en-US-JennyNeural |
| Salida de archivo predeterminada | audio-24khz-48kbitrate-mono-mp3 |
| Archivo predeterminado de nota de voz | ogg-24khz-16bit-mono-opus |
Primeros pasos
Crear un recurso de Azure Speech
En el portal de Azure, crea un recurso Speech. Copia KEY 1 desde
Resource Management > Keys and Endpoint, y copia la ubicación del recurso,
por ejemplo eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
Seleccionar Azure Speech en messages.tts
{
messages: {
tts: {
auto: "always",
provider: "azure-speech",
providers: {
"azure-speech": {
voice: "en-US-JennyNeural",
lang: "en-US",
},
},
},
},
}
Enviar un mensaje
Envía una respuesta a través de cualquier canal conectado. OpenClaw sintetiza el audio con Azure Speech y entrega MP3 para audio estándar, u Ogg/Opus cuando el canal espera una nota de voz.
Opciones de configuración
| Opción | Ruta | Descripción |
|---|---|---|
apiKey |
messages.tts.providers.azure-speech.apiKey |
Clave del recurso Azure Speech. Usa como respaldo AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY o SPEECH_KEY. |
region |
messages.tts.providers.azure-speech.region |
Región del recurso Azure Speech. Usa como respaldo AZURE_SPEECH_REGION o SPEECH_REGION. |
endpoint |
messages.tts.providers.azure-speech.endpoint |
Sobrescritura opcional del endpoint/base URL de Azure Speech. |
baseUrl |
messages.tts.providers.azure-speech.baseUrl |
Sobrescritura opcional de la base URL de Azure Speech. |
voice |
messages.tts.providers.azure-speech.voice |
ShortName de la voz de Azure (predeterminado en-US-JennyNeural). |
lang |
messages.tts.providers.azure-speech.lang |
Código de idioma SSML (predeterminado en-US). |
outputFormat |
messages.tts.providers.azure-speech.outputFormat |
Formato de salida de archivo de audio (predeterminado audio-24khz-48kbitrate-mono-mp3). |
voiceNoteOutputFormat |
messages.tts.providers.azure-speech.voiceNoteOutputFormat |
Formato de salida de nota de voz (predeterminado ogg-24khz-16bit-mono-opus). |
Notas
Autenticación
Azure Speech usa una clave de recurso Speech, no una clave de Azure OpenAI. La clave
se envía como Ocp-Apim-Subscription-Key; OpenClaw deriva
https://<region>.tts.speech.microsoft.com a partir de region salvo que
proporciones endpoint o baseUrl.
Nombres de voz
Usa el valor ShortName de la voz de Azure Speech, por ejemplo
en-US-JennyNeural. El proveedor incluido puede listar voces a través del
mismo recurso Speech y filtra las voces marcadas como desaprobadas o retiradas.
Salidas de audio
Azure acepta formatos de salida como audio-24khz-48kbitrate-mono-mp3,
ogg-24khz-16bit-mono-opus y riff-24khz-16bit-mono-pcm. OpenClaw
solicita Ogg/Opus para destinos voice-note para que los canales puedan enviar
burbujas de voz nativas sin una conversión adicional desde MP3.
Alias
azure se acepta como alias de proveedor para PR existentes y configuración de usuario,
pero la configuración nueva debe usar azure-speech para evitar confusión con los
providers de modelos de Azure OpenAI.