Providers

Azure Speech

Azure Speech هو مزوّد تحويل النص إلى كلام ضمن Azure AI Speech. وفي OpenClaw يقوم بتوليف الصوت الصادر للردود بصيغة MP3 افتراضيًا، وبصيغة Ogg/Opus أصلية للملاحظات الصوتية، وبصوت mulaw بتردد 8 kHz لقنوات الاتصالات الهاتفية مثل Voice Call.

يستخدم OpenClaw واجهة Azure Speech REST API مباشرةً مع SSML ويرسل تنسيق الإخراج المملوك للمزوّد عبر X-Microsoft-OutputFormat.

التفصيل	القيمة
الموقع الإلكتروني	Azure AI Speech
الوثائق	Speech REST text-to-speech
المصادقة	`AZURE_SPEECH_KEY` بالإضافة إلى `AZURE_SPEECH_REGION`
الصوت الافتراضي	`en-US-JennyNeural`
إخراج الملف الافتراضي	`audio-24khz-48kbitrate-mono-mp3`
ملف الملاحظة الصوتية الافتراضي	`ogg-24khz-16bit-mono-opus`

البدء

أنشئ مورد Azure Speech

في بوابة Azure، أنشئ مورد Speech. انسخ KEY 1 من Resource Management > Keys and Endpoint، وانسخ موقع المورد مثل eastus.

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

حدد Azure Speech في messages.tts

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          voice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

أرسل رسالة

أرسل ردًا عبر أي قناة متصلة. سيقوم OpenClaw بتوليف الصوت باستخدام Azure Speech وتسليم MP3 للصوت القياسي، أو Ogg/Opus عندما تتوقع القناة ملاحظة صوتية.

خيارات التكوين

الخيار	المسار	الوصف
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	مفتاح مورد Azure Speech. ويعود إلى `AZURE_SPEECH_KEY` أو `AZURE_SPEECH_API_KEY` أو `SPEECH_KEY`.
`region`	`messages.tts.providers.azure-speech.region`	منطقة مورد Azure Speech. ويعود إلى `AZURE_SPEECH_REGION` أو `SPEECH_REGION`.
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	تجاوز اختياري لنقطة نهاية/عنوان URL الأساسي لـ Azure Speech.
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	تجاوز اختياري لعنوان URL الأساسي لـ Azure Speech.
`voice`	`messages.tts.providers.azure-speech.voice`	قيمة ShortName للصوت في Azure (الافتراضي `en-US-JennyNeural`).
`lang`	`messages.tts.providers.azure-speech.lang`	رمز لغة SSML ‏(الافتراضي `en-US`).
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	تنسيق إخراج ملف الصوت (الافتراضي `audio-24khz-48kbitrate-mono-mp3`).
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	تنسيق إخراج الملاحظة الصوتية (الافتراضي `ogg-24khz-16bit-mono-opus`).

ملاحظات

المصادقة

يستخدم Azure Speech مفتاح مورد Speech، وليس مفتاح Azure OpenAI. يتم إرسال المفتاح على هيئة Ocp-Apim-Subscription-Key؛ ويشتق OpenClaw العنوان https://<region>.tts.speech.microsoft.com من region ما لم توفر endpoint أو baseUrl.

أسماء الأصوات

استخدم قيمة ShortName الخاصة بالصوت في Azure Speech، مثل en-US-JennyNeural. ويمكن للمزوّد المضمن عرض الأصوات عبر مورد Speech نفسه ويصفّي الأصوات المعلّمة على أنها deprecated أو retired.

مخرجات الصوت

يقبل Azure تنسيقات إخراج مثل audio-24khz-48kbitrate-mono-mp3، وogg-24khz-16bit-mono-opus، وriff-24khz-16bit-mono-pcm. ويطلب OpenClaw Ogg/Opus لأهداف voice-note حتى تتمكن القنوات من إرسال فقاعات صوتية أصلية من دون تحويل إضافي من MP3.

الاسم البديل

تُقبل azure كاسم بديل للمزوّد من أجل PRs الحالية وتكوينات المستخدمين، لكن يجب أن تستخدم التكوينات الجديدة azure-speech لتجنب الالتباس مع مزوّدي نماذج Azure OpenAI.