Providers
Azure Speech
Azure Speech یک ارائهدهندهٔ تبدیل متن به گفتار Azure AI Speech است. در OpenClaw، بهطور پیشفرض صدای پاسخ خروجی را بهصورت MP3، برای یادداشتهای صوتی بهصورت Ogg/Opus بومی، و برای کانالهای تلفنی مانند Voice Call بهصورت صدای mulaw با 8 kHz تولید میکند.
OpenClaw مستقیماً از Azure Speech REST API همراه با SSML استفاده میکند و قالب خروجی متعلق به ارائهدهنده را از طریق X-Microsoft-OutputFormat میفرستد.
| جزئیات | مقدار |
|---|---|
| وبسایت | Azure AI Speech |
| مستندات | Speech REST text-to-speech |
| احراز هویت | AZURE_SPEECH_KEY بههمراه AZURE_SPEECH_REGION |
| صدای پیشفرض | en-US-JennyNeural |
| خروجی فایل پیشفرض | audio-24khz-48kbitrate-mono-mp3 |
| فایل یادداشت صوتی پیشفرض | ogg-24khz-16bit-mono-opus |
شروع به کار
ایجاد یک منبع Azure Speech
در پورتال Azure، یک منبع Speech ایجاد کنید. KEY 1 را از
Resource Management > Keys and Endpoint کپی کنید، و موقعیت منبع
مانند eastus را کپی کنید.
AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus
انتخاب Azure Speech در messages.tts
{
messages: {
tts: {
auto: "always",
provider: "azure-speech",
providers: {
"azure-speech": {
voice: "en-US-JennyNeural",
lang: "en-US",
},
},
},
},
}
ارسال یک پیام
یک پاسخ را از طریق هر کانال متصل ارسال کنید. OpenClaw صدا را با Azure Speech تولید میکند و برای صدای استاندارد MP3، یا زمانی که کانال انتظار یادداشت صوتی دارد Ogg/Opus تحویل میدهد.
گزینههای پیکربندی
| گزینه | مسیر | توضیح |
|---|---|---|
apiKey |
messages.tts.providers.azure-speech.apiKey |
کلید منبع Azure Speech. به AZURE_SPEECH_KEY، AZURE_SPEECH_API_KEY، یا SPEECH_KEY برمیگردد. |
region |
messages.tts.providers.azure-speech.region |
منطقهٔ منبع Azure Speech. به AZURE_SPEECH_REGION یا SPEECH_REGION برمیگردد. |
endpoint |
messages.tts.providers.azure-speech.endpoint |
بازنویسی اختیاری endpoint/نشانی پایهٔ Azure Speech. |
baseUrl |
messages.tts.providers.azure-speech.baseUrl |
بازنویسی اختیاری نشانی پایهٔ Azure Speech. |
voice |
messages.tts.providers.azure-speech.voice |
مقدار ShortName صدای Azure (پیشفرض en-US-JennyNeural). |
lang |
messages.tts.providers.azure-speech.lang |
کد زبان SSML (پیشفرض en-US). |
outputFormat |
messages.tts.providers.azure-speech.outputFormat |
قالب خروجی فایل صوتی (پیشفرض audio-24khz-48kbitrate-mono-mp3). |
voiceNoteOutputFormat |
messages.tts.providers.azure-speech.voiceNoteOutputFormat |
قالب خروجی یادداشت صوتی (پیشفرض ogg-24khz-16bit-mono-opus). |
یادداشتها
احراز هویت
Azure Speech از کلید منبع Speech استفاده میکند، نه کلید Azure OpenAI. کلید
بهصورت Ocp-Apim-Subscription-Key ارسال میشود؛ OpenClaw
https://<region>.tts.speech.microsoft.com را از region استخراج میکند مگر اینکه
endpoint یا baseUrl را ارائه کنید.
نامهای صدا
از مقدار ShortName صدای Azure Speech استفاده کنید، برای مثال
en-US-JennyNeural. ارائهدهندهٔ همراه میتواند صداها را از طریق همان
منبع Speech فهرست کند و صداهایی را که بهعنوان منسوخ یا بازنشسته علامتگذاری شدهاند فیلتر میکند.
خروجیهای صوتی
Azure قالبهای خروجی مانند audio-24khz-48kbitrate-mono-mp3،
ogg-24khz-16bit-mono-opus و riff-24khz-16bit-mono-pcm را میپذیرد. OpenClaw
برای مقصدهای voice-note، Ogg/Opus درخواست میکند تا کانالها بتوانند
حبابهای صوتی بومی را بدون تبدیل اضافی MP3 ارسال کنند.
نام مستعار
azure بهعنوان نام مستعار ارائهدهنده برای PRهای موجود و پیکربندی کاربر پذیرفته میشود،
اما پیکربندی جدید باید از azure-speech استفاده کند تا با ارائهدهندگان مدل
Azure OpenAI اشتباه نشود.