Providers

Deepgram

Deepgram یک API تبدیل گفتار به متن است. در OpenClaw از آن برای رونویسی صوت/یادداشت صوتی ورودی از طریق tools.media.audio و برای STT پخش جریانی تماس صوتی از طریق plugins.entries.voice-call.config.streaming استفاده می‌شود.

برای رونویسی دسته‌ای، OpenClaw فایل صوتی کامل را در Deepgram بارگذاری می‌کند و متن رونویسی‌شده را به خط لوله پاسخ تزریق می‌کند (بلوک {{Transcript}} + [Audio]). برای پخش جریانی تماس صوتی، OpenClaw فریم‌های زنده G.711 u-law را از طریق نقطه پایانی WebSocket listen در Deepgram ارسال می‌کند و هم‌زمان با بازگشت آن‌ها از Deepgram، رونویسی‌های جزئی یا نهایی را منتشر می‌کند.

جزئیات مقدار
وب‌سایت deepgram.com
مستندات developers.deepgram.com
احراز هویت DEEPGRAM_API_KEY
مدل پیش‌فرض nova-3

شروع به کار

  • کلید API خود را تنظیم کنید

    کلید API مربوط به Deepgram را به محیط اضافه کنید:

    DEEPGRAM_API_KEY=dg_...
    
  • ارائه‌دهنده صوت را فعال کنید

    {
      tools: {
        media: {
          audio: {
            enabled: true,
            models: [{ provider: "deepgram", model: "nova-3" }],
          },
        },
      },
    }
    
  • یک یادداشت صوتی ارسال کنید

    یک پیام صوتی را از طریق هر کانال متصل ارسال کنید. OpenClaw آن را از طریق Deepgram رونویسی می‌کند و متن رونویسی‌شده را به خط لوله پاسخ تزریق می‌کند.

  • گزینه‌های پیکربندی

    گزینه مسیر توضیح
    model tools.media.audio.models[].model شناسه مدل Deepgram (پیش‌فرض: nova-3)
    language tools.media.audio.models[].language راهنمای زبان (اختیاری)
    detect_language tools.media.audio.providerOptions.deepgram.detect_language فعال‌سازی تشخیص زبان (اختیاری)
    punctuate tools.media.audio.providerOptions.deepgram.punctuate فعال‌سازی نشانه‌گذاری (اختیاری)
    smart_format tools.media.audio.providerOptions.deepgram.smart_format فعال‌سازی قالب‌بندی هوشمند (اختیاری)

    با راهنمای زبان

    {
      tools: {
        media: {
          audio: {
            enabled: true,
            models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
          },
        },
      },
    }
    

    با گزینه‌های Deepgram

    {
      tools: {
        media: {
          audio: {
            enabled: true,
            providerOptions: {
              deepgram: {
                detect_language: true,
                punctuate: true,
                smart_format: true,
              },
            },
            models: [{ provider: "deepgram", model: "nova-3" }],
          },
        },
      },
    }
    

    STT پخش جریانی تماس صوتی

    Plugin همراه deepgram همچنین یک ارائه‌دهنده رونویسی بلادرنگ برای Plugin تماس صوتی ثبت می‌کند.

    تنظیم مسیر پیکربندی پیش‌فرض
    کلید API plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey به DEEPGRAM_API_KEY بازمی‌گردد
    مدل ...deepgram.model nova-3
    زبان ...deepgram.language (تنظیم نشده)
    کدگذاری ...deepgram.encoding mulaw
    نرخ نمونه‌برداری ...deepgram.sampleRate 8000
    نقطه‌گذاری پایانی ...deepgram.endpointingMs 800
    نتایج موقت ...deepgram.interimResults true
    {
      plugins: {
        entries: {
          "voice-call": {
            config: {
              streaming: {
                enabled: true,
                provider: "deepgram",
                providers: {
                  deepgram: {
                    apiKey: "${DEEPGRAM_API_KEY}",
                    model: "nova-3",
                    endpointingMs: 800,
                    language: "en-US",
                  },
                },
              },
            },
          },
        },
      },
    }
    

    نکات

    احراز هویت

    احراز هویت از ترتیب استاندارد احراز هویت ارائه‌دهنده پیروی می‌کند. DEEPGRAM_API_KEY ساده‌ترین مسیر است.

    پراکسی و نقاط پایانی سفارشی

    هنگام استفاده از پراکسی، نقاط پایانی یا سرآیندها را با tools.media.audio.baseUrl و tools.media.audio.headers بازنویسی کنید.

    رفتار خروجی

    خروجی از همان قواعد صوتی سایر ارائه‌دهندگان پیروی می‌کند (سقف اندازه، مهلت‌های زمانی، تزریق رونویسی).

    مرتبط