Providers
Azure Speech
Azure Speech là nhà cung cấp chuyển văn bản thành giọng nói của Azure AI Speech. Trong OpenClaw, mặc định nhà cung cấp này tổng hợp âm thanh trả lời gửi đi dưới dạng MP3, Ogg/Opus gốc cho ghi chú thoại, và âm thanh mulaw 8 kHz cho các kênh điện thoại như Voice Call.
OpenClaw sử dụng trực tiếp Azure Speech REST API với SSML và gửi định dạng đầu ra do nhà cung cấp sở hữu thông qua X-Microsoft-OutputFormat.
| Chi tiết | Giá trị |
|---|---|
| Trang web | Azure AI Speech |
| Tài liệu | REST chuyển văn bản thành giọng nói của Speech |
| Xác thực | AZURE_SPEECH_KEY cộng với AZURE_SPEECH_REGION |
| Giọng mặc định | en-US-JennyNeural |
| Đầu ra tệp mặc định | audio-24khz-48kbitrate-mono-mp3 |
| Tệp ghi chú thoại mặc định | ogg-24khz-16bit-mono-opus |
Bắt đầu
Tạo tài nguyên Azure Speech
Trong cổng Azure, tạo một tài nguyên Speech. Sao chép KEY 1 từ
Resource Management > Keys and Endpoint, và sao chép vị trí tài nguyên
chẳng hạn như eastus.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
Chọn Azure Speech trong messages.tts
{
messages: {
tts: {
auto: "always",
provider: "azure-speech",
providers: {
"azure-speech": {
voice: "en-US-JennyNeural",
lang: "en-US",
},
},
},
},
}
Gửi tin nhắn
Gửi một câu trả lời qua bất kỳ kênh nào đã kết nối. OpenClaw tổng hợp âm thanh bằng Azure Speech và phân phối MP3 cho âm thanh tiêu chuẩn, hoặc Ogg/Opus khi kênh yêu cầu một ghi chú thoại.
Tùy chọn cấu hình
| Tùy chọn | Đường dẫn | Mô tả |
|---|---|---|
apiKey |
messages.tts.providers.azure-speech.apiKey |
Khóa tài nguyên Azure Speech. Dự phòng sang AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY, hoặc SPEECH_KEY. |
region |
messages.tts.providers.azure-speech.region |
Vùng tài nguyên Azure Speech. Dự phòng sang AZURE_SPEECH_REGION hoặc SPEECH_REGION. |
endpoint |
messages.tts.providers.azure-speech.endpoint |
Ghi đè tùy chọn cho điểm cuối/URL cơ sở của Azure Speech. |
baseUrl |
messages.tts.providers.azure-speech.baseUrl |
Ghi đè tùy chọn cho URL cơ sở của Azure Speech. |
voice |
messages.tts.providers.azure-speech.voice |
ShortName của giọng Azure (mặc định en-US-JennyNeural). |
lang |
messages.tts.providers.azure-speech.lang |
Mã ngôn ngữ SSML (mặc định en-US). |
outputFormat |
messages.tts.providers.azure-speech.outputFormat |
Định dạng đầu ra tệp âm thanh (mặc định audio-24khz-48kbitrate-mono-mp3). |
voiceNoteOutputFormat |
messages.tts.providers.azure-speech.voiceNoteOutputFormat |
Định dạng đầu ra ghi chú thoại (mặc định ogg-24khz-16bit-mono-opus). |
Ghi chú
Xác thực
Azure Speech sử dụng khóa tài nguyên Speech, không phải khóa Azure OpenAI. Khóa này
được gửi dưới dạng Ocp-Apim-Subscription-Key; OpenClaw suy ra
https://<region>.tts.speech.microsoft.com từ region trừ khi bạn
cung cấp endpoint hoặc baseUrl.
Tên giọng
Sử dụng giá trị ShortName của giọng Azure Speech, ví dụ
en-US-JennyNeural. Nhà cung cấp đi kèm có thể liệt kê các giọng qua cùng
tài nguyên Speech và lọc các giọng được đánh dấu là không còn được khuyến nghị hoặc đã ngừng dùng.
Đầu ra âm thanh
Azure chấp nhận các định dạng đầu ra như audio-24khz-48kbitrate-mono-mp3,
ogg-24khz-16bit-mono-opus, và riff-24khz-16bit-mono-pcm. OpenClaw
yêu cầu Ogg/Opus cho các đích voice-note để các kênh có thể gửi bong bóng thoại gốc
mà không cần chuyển đổi MP3 bổ sung.
Bí danh
azure được chấp nhận làm bí danh nhà cung cấp cho các PR hiện có và cấu hình người dùng,
nhưng cấu hình mới nên dùng azure-speech để tránh nhầm lẫn với các nhà cung cấp mô hình
Azure OpenAI.