Providers

Azure Speech

Azure Speech یک ارائه‌دهندهٔ تبدیل متن به گفتار Azure AI Speech است. در OpenClaw، به‌طور پیش‌فرض صدای پاسخ خروجی را به‌صورت MP3، برای یادداشت‌های صوتی به‌صورت Ogg/Opus بومی، و برای کانال‌های تلفنی مانند Voice Call به‌صورت صدای mulaw با 8 kHz تولید می‌کند.

OpenClaw مستقیماً از Azure Speech REST API همراه با SSML استفاده می‌کند و قالب خروجی متعلق به ارائه‌دهنده را از طریق X-Microsoft-OutputFormat می‌فرستد.

جزئیات مقدار
وب‌سایت Azure AI Speech
مستندات Speech REST text-to-speech
احراز هویت AZURE_SPEECH_KEY به‌همراه AZURE_SPEECH_REGION
صدای پیش‌فرض en-US-JennyNeural
خروجی فایل پیش‌فرض audio-24khz-48kbitrate-mono-mp3
فایل یادداشت صوتی پیش‌فرض ogg-24khz-16bit-mono-opus

شروع به کار

  • ایجاد یک منبع Azure Speech

    در پورتال Azure، یک منبع Speech ایجاد کنید. KEY 1 را از Resource Management > Keys and Endpoint کپی کنید، و موقعیت منبع مانند eastus را کپی کنید.

    AZURE_SPEECH_KEY=<speech-resource-key>
    AZURE_SPEECH_REGION=eastus
    
  • انتخاب Azure Speech در messages.tts

    {
      messages: {
        tts: {
          auto: "always",
          provider: "azure-speech",
          providers: {
            "azure-speech": {
              voice: "en-US-JennyNeural",
              lang: "en-US",
            },
          },
        },
      },
    }
    
  • ارسال یک پیام

    یک پاسخ را از طریق هر کانال متصل ارسال کنید. OpenClaw صدا را با Azure Speech تولید می‌کند و برای صدای استاندارد MP3، یا زمانی که کانال انتظار یادداشت صوتی دارد Ogg/Opus تحویل می‌دهد.

  • گزینه‌های پیکربندی

    گزینه مسیر توضیح
    apiKey messages.tts.providers.azure-speech.apiKey کلید منبع Azure Speech. به AZURE_SPEECH_KEY، AZURE_SPEECH_API_KEY، یا SPEECH_KEY برمی‌گردد.
    region messages.tts.providers.azure-speech.region منطقهٔ منبع Azure Speech. به AZURE_SPEECH_REGION یا SPEECH_REGION برمی‌گردد.
    endpoint messages.tts.providers.azure-speech.endpoint بازنویسی اختیاری endpoint/نشانی پایهٔ Azure Speech.
    baseUrl messages.tts.providers.azure-speech.baseUrl بازنویسی اختیاری نشانی پایهٔ Azure Speech.
    voice messages.tts.providers.azure-speech.voice مقدار ShortName صدای Azure (پیش‌فرض en-US-JennyNeural).
    lang messages.tts.providers.azure-speech.lang کد زبان SSML (پیش‌فرض en-US).
    outputFormat messages.tts.providers.azure-speech.outputFormat قالب خروجی فایل صوتی (پیش‌فرض audio-24khz-48kbitrate-mono-mp3).
    voiceNoteOutputFormat messages.tts.providers.azure-speech.voiceNoteOutputFormat قالب خروجی یادداشت صوتی (پیش‌فرض ogg-24khz-16bit-mono-opus).

    یادداشت‌ها

    احراز هویت

    Azure Speech از کلید منبع Speech استفاده می‌کند، نه کلید Azure OpenAI. کلید به‌صورت Ocp-Apim-Subscription-Key ارسال می‌شود؛ OpenClaw https://<region>.tts.speech.microsoft.com را از region استخراج می‌کند مگر اینکه endpoint یا baseUrl را ارائه کنید.

    نام‌های صدا

    از مقدار ShortName صدای Azure Speech استفاده کنید، برای مثال en-US-JennyNeural. ارائه‌دهندهٔ همراه می‌تواند صداها را از طریق همان منبع Speech فهرست کند و صداهایی را که به‌عنوان منسوخ یا بازنشسته علامت‌گذاری شده‌اند فیلتر می‌کند.

    خروجی‌های صوتی

    Azure قالب‌های خروجی مانند audio-24khz-48kbitrate-mono-mp3، ogg-24khz-16bit-mono-opus و riff-24khz-16bit-mono-pcm را می‌پذیرد. OpenClaw برای مقصدهای voice-note، Ogg/Opus درخواست می‌کند تا کانال‌ها بتوانند حباب‌های صوتی بومی را بدون تبدیل اضافی MP3 ارسال کنند.

    نام مستعار

    azure به‌عنوان نام مستعار ارائه‌دهنده برای PRهای موجود و پیکربندی کاربر پذیرفته می‌شود، اما پیکربندی جدید باید از azure-speech استفاده کند تا با ارائه‌دهندگان مدل Azure OpenAI اشتباه نشود.

    مرتبط