Providers
Deepgram
Deepgram یک API تبدیل گفتار به متن است. در OpenClaw از آن برای رونویسی
صوت/یادداشت صوتی ورودی از طریق tools.media.audio و برای STT پخش جریانی تماس صوتی
از طریق plugins.entries.voice-call.config.streaming استفاده میشود.
برای رونویسی دستهای، OpenClaw فایل صوتی کامل را در Deepgram بارگذاری میکند
و متن رونویسیشده را به خط لوله پاسخ تزریق میکند (بلوک {{Transcript}} +
[Audio]). برای پخش جریانی تماس صوتی، OpenClaw فریمهای زنده G.711
u-law را از طریق نقطه پایانی WebSocket listen در Deepgram ارسال میکند و همزمان با بازگشت آنها از Deepgram، رونویسیهای جزئی یا
نهایی را منتشر میکند.
| جزئیات | مقدار |
|---|---|
| وبسایت | deepgram.com |
| مستندات | developers.deepgram.com |
| احراز هویت | DEEPGRAM_API_KEY |
| مدل پیشفرض | nova-3 |
شروع به کار
کلید API خود را تنظیم کنید
کلید API مربوط به Deepgram را به محیط اضافه کنید:
DEEPGRAM_API_KEY=dg_...
ارائهدهنده صوت را فعال کنید
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
یک یادداشت صوتی ارسال کنید
یک پیام صوتی را از طریق هر کانال متصل ارسال کنید. OpenClaw آن را از طریق Deepgram رونویسی میکند و متن رونویسیشده را به خط لوله پاسخ تزریق میکند.
گزینههای پیکربندی
| گزینه | مسیر | توضیح |
|---|---|---|
model |
tools.media.audio.models[].model |
شناسه مدل Deepgram (پیشفرض: nova-3) |
language |
tools.media.audio.models[].language |
راهنمای زبان (اختیاری) |
detect_language |
tools.media.audio.providerOptions.deepgram.detect_language |
فعالسازی تشخیص زبان (اختیاری) |
punctuate |
tools.media.audio.providerOptions.deepgram.punctuate |
فعالسازی نشانهگذاری (اختیاری) |
smart_format |
tools.media.audio.providerOptions.deepgram.smart_format |
فعالسازی قالببندی هوشمند (اختیاری) |
با راهنمای زبان
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}
با گزینههای Deepgram
{
tools: {
media: {
audio: {
enabled: true,
providerOptions: {
deepgram: {
detect_language: true,
punctuate: true,
smart_format: true,
},
},
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
STT پخش جریانی تماس صوتی
Plugin همراه deepgram همچنین یک ارائهدهنده رونویسی بلادرنگ
برای Plugin تماس صوتی ثبت میکند.
| تنظیم | مسیر پیکربندی | پیشفرض |
|---|---|---|
| کلید API | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey |
به DEEPGRAM_API_KEY بازمیگردد |
| مدل | ...deepgram.model |
nova-3 |
| زبان | ...deepgram.language |
(تنظیم نشده) |
| کدگذاری | ...deepgram.encoding |
mulaw |
| نرخ نمونهبرداری | ...deepgram.sampleRate |
8000 |
| نقطهگذاری پایانی | ...deepgram.endpointingMs |
800 |
| نتایج موقت | ...deepgram.interimResults |
true |
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "deepgram",
providers: {
deepgram: {
apiKey: "${DEEPGRAM_API_KEY}",
model: "nova-3",
endpointingMs: 800,
language: "en-US",
},
},
},
},
},
},
},
}
نکات
احراز هویت
احراز هویت از ترتیب استاندارد احراز هویت ارائهدهنده پیروی میکند. DEEPGRAM_API_KEY
سادهترین مسیر است.
پراکسی و نقاط پایانی سفارشی
هنگام استفاده از پراکسی، نقاط پایانی یا سرآیندها را با tools.media.audio.baseUrl و
tools.media.audio.headers بازنویسی کنید.
رفتار خروجی
خروجی از همان قواعد صوتی سایر ارائهدهندگان پیروی میکند (سقف اندازه، مهلتهای زمانی، تزریق رونویسی).