Providers
Deepgram
Deepgram เป็น API สำหรับแปลงเสียงเป็นข้อความ ใน OpenClaw จะใช้สำหรับการถอดเสียงไฟล์เสียง/ข้อความเสียงขาเข้าผ่าน tools.media.audio และสำหรับ STT แบบสตรีมมิงของ Voice Call ผ่าน plugins.entries.voice-call.config.streaming
สำหรับการถอดเสียงแบบแบตช์ OpenClaw จะอัปโหลดไฟล์เสียงทั้งไฟล์ไปยัง Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ ({{Transcript}} + บล็อก [Audio]) สำหรับ Voice Call แบบสตรีมมิง OpenClaw จะส่งต่อเฟรม G.711 u-law แบบสดผ่าน WebSocket listen endpoint ของ Deepgram และส่งข้อความถอดเสียงแบบบางส่วนหรือแบบสมบูรณ์เมื่อ Deepgram ส่งกลับมา
| รายละเอียด | ค่า |
|---|---|
| เว็บไซต์ | deepgram.com |
| เอกสาร | developers.deepgram.com |
| การยืนยันตัวตน | DEEPGRAM_API_KEY |
| โมเดลเริ่มต้น | nova-3 |
เริ่มต้นใช้งาน
ตั้งค่า API key ของคุณ
เพิ่ม Deepgram API key ของคุณลงใน environment:
DEEPGRAM_API_KEY=dg_...
เปิดใช้งานผู้ให้บริการเสียง
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
ส่งข้อความเสียง
ส่งข้อความเสียงผ่านช่องทางที่เชื่อมต่ออยู่ช่องทางใดก็ได้ OpenClaw จะถอดเสียงผ่าน Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ
ตัวเลือกการกำหนดค่า
| ตัวเลือก | พาธ | คำอธิบาย |
|---|---|---|
model |
tools.media.audio.models[].model |
รหัสโมเดลของ Deepgram (ค่าเริ่มต้น: nova-3) |
language |
tools.media.audio.models[].language |
คำใบ้ภาษา (ไม่บังคับ) |
detect_language |
tools.media.audio.providerOptions.deepgram.detect_language |
เปิดใช้การตรวจจับภาษา (ไม่บังคับ) |
punctuate |
tools.media.audio.providerOptions.deepgram.punctuate |
เปิดใช้เครื่องหมายวรรคตอน (ไม่บังคับ) |
smart_format |
tools.media.audio.providerOptions.deepgram.smart_format |
เปิดใช้การจัดรูปแบบอัจฉริยะ (ไม่บังคับ) |
พร้อมคำใบ้ภาษา
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}
พร้อมตัวเลือกของ Deepgram
{
tools: {
media: {
audio: {
enabled: true,
providerOptions: {
deepgram: {
detect_language: true,
punctuate: true,
smart_format: true,
},
},
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
STT แบบสตรีมมิงของ Voice Call
Plugin deepgram ที่มาพร้อมกันยังลงทะเบียนผู้ให้บริการถอดเสียงแบบเรียลไทม์สำหรับ Plugin Voice Call ด้วย
| การตั้งค่า | พาธการกำหนดค่า | ค่าเริ่มต้น |
|---|---|---|
| API key | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey |
ใช้ DEEPGRAM_API_KEY เป็นค่าตกทอด |
| โมเดล | ...deepgram.model |
nova-3 |
| ภาษา | ...deepgram.language |
(ไม่ได้ตั้งค่า) |
| Encoding | ...deepgram.encoding |
mulaw |
| อัตราสุ่มตัวอย่าง | ...deepgram.sampleRate |
8000 |
| Endpointing | ...deepgram.endpointingMs |
800 |
| ผลลัพธ์ระหว่างทาง | ...deepgram.interimResults |
true |
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "deepgram",
providers: {
deepgram: {
apiKey: "${DEEPGRAM_API_KEY}",
model: "nova-3",
endpointingMs: 800,
language: "en-US",
},
},
},
},
},
},
},
}
หมายเหตุ
การยืนยันตัวตน
การยืนยันตัวตนเป็นไปตามลำดับการยืนยันตัวตนมาตรฐานของผู้ให้บริการ DEEPGRAM_API_KEY เป็นวิธีที่ง่ายที่สุด
พร็อกซีและ endpoint แบบกำหนดเอง
แทนที่ endpoint หรือ header ได้ด้วย tools.media.audio.baseUrl และ
tools.media.audio.headers เมื่อใช้งานผ่านพร็อกซี
ลักษณะการแสดงผลลัพธ์
ผลลัพธ์เป็นไปตามกฎเสียงเดียวกันกับผู้ให้บริการรายอื่น (ขีดจำกัดขนาด, การหมดเวลา, การแทรกข้อความถอดเสียง)