Providers

Azure Speech

Azure Speech یک ارائه‌دهندهٔ تبدیل متن به گفتار Azure AI Speech است. در OpenClaw، به‌طور پیش‌فرض صدای پاسخ خروجی را به‌صورت MP3، برای یادداشت‌های صوتی به‌صورت Ogg/Opus بومی، و برای کانال‌های تلفنی مانند Voice Call به‌صورت صدای mulaw با 8 kHz تولید می‌کند.

OpenClaw مستقیماً از Azure Speech REST API همراه با SSML استفاده می‌کند و قالب خروجی متعلق به ارائه‌دهنده را از طریق X-Microsoft-OutputFormat می‌فرستد.

جزئیات	مقدار
وب‌سایت	Azure AI Speech
مستندات	Speech REST text-to-speech
احراز هویت	`AZURE_SPEECH_KEY` به‌همراه `AZURE_SPEECH_REGION`
صدای پیش‌فرض	`en-US-JennyNeural`
خروجی فایل پیش‌فرض	`audio-24khz-48kbitrate-mono-mp3`
فایل یادداشت صوتی پیش‌فرض	`ogg-24khz-16bit-mono-opus`

شروع به کار

ایجاد یک منبع Azure Speech

در پورتال Azure، یک منبع Speech ایجاد کنید. KEY 1 را از Resource Management > Keys and Endpoint کپی کنید، و موقعیت منبع مانند eastus را کپی کنید.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

انتخاب Azure Speech در messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

ارسال یک پیام

یک پاسخ را از طریق هر کانال متصل ارسال کنید. OpenClaw صدا را با Azure Speech تولید می‌کند و برای صدای استاندارد MP3، یا زمانی که کانال انتظار یادداشت صوتی دارد Ogg/Opus تحویل می‌دهد.

گزینه‌های پیکربندی

گزینه	مسیر	توضیح
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	کلید منبع Azure Speech. به `AZURE_SPEECH_KEY`، `AZURE_SPEECH_API_KEY`، یا `SPEECH_KEY` برمی‌گردد.
`region`	`messages.tts.providers.azure-speech.region`	منطقهٔ منبع Azure Speech. به `AZURE_SPEECH_REGION` یا `SPEECH_REGION` برمی‌گردد.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	بازنویسی اختیاری endpoint/نشانی پایهٔ Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	بازنویسی اختیاری نشانی پایهٔ Azure Speech.
`voice`	`messages.tts.providers.azure-speech.voice`	مقدار ShortName صدای Azure (پیش‌فرض `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	کد زبان SSML (پیش‌فرض `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	قالب خروجی فایل صوتی (پیش‌فرض `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	قالب خروجی یادداشت صوتی (پیش‌فرض `ogg-24khz-16bit-mono-opus`).

یادداشت‌ها

احراز هویت

Azure Speech از کلید منبع Speech استفاده می‌کند، نه کلید Azure OpenAI. کلید به‌صورت Ocp-Apim-Subscription-Key ارسال می‌شود؛ OpenClaw https://<region>.tts.speech.microsoft.com را از region استخراج می‌کند مگر اینکه endpoint یا baseUrl را ارائه کنید.

نام‌های صدا

از مقدار ShortName صدای Azure Speech استفاده کنید، برای مثال en-US-JennyNeural. ارائه‌دهندهٔ همراه می‌تواند صداها را از طریق همان منبع Speech فهرست کند و صداهایی را که به‌عنوان منسوخ یا بازنشسته علامت‌گذاری شده‌اند فیلتر می‌کند.

خروجی‌های صوتی

Azure قالب‌های خروجی مانند audio-24khz-48kbitrate-mono-mp3، ogg-24khz-16bit-mono-opus و riff-24khz-16bit-mono-pcm را می‌پذیرد. OpenClaw برای مقصدهای voice-note، Ogg/Opus درخواست می‌کند تا کانال‌ها بتوانند حباب‌های صوتی بومی را بدون تبدیل اضافی MP3 ارسال کنند.

نام مستعار

azure به‌عنوان نام مستعار ارائه‌دهنده برای PRهای موجود و پیکربندی کاربر پذیرفته می‌شود، اما پیکربندی جدید باید از azure-speech استفاده کند تا با ارائه‌دهندگان مدل Azure OpenAI اشتباه نشود.