Providers

Deepgram

Deepgram เป็น API สำหรับแปลงเสียงเป็นข้อความ ใน OpenClaw จะใช้สำหรับการถอดเสียงไฟล์เสียง/ข้อความเสียงขาเข้าผ่าน tools.media.audio และสำหรับ STT แบบสตรีมมิงของ Voice Call ผ่าน plugins.entries.voice-call.config.streaming

สำหรับการถอดเสียงแบบแบตช์ OpenClaw จะอัปโหลดไฟล์เสียงทั้งไฟล์ไปยัง Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ ({{Transcript}} + บล็อก [Audio]) สำหรับ Voice Call แบบสตรีมมิง OpenClaw จะส่งต่อเฟรม G.711 u-law แบบสดผ่าน WebSocket listen endpoint ของ Deepgram และส่งข้อความถอดเสียงแบบบางส่วนหรือแบบสมบูรณ์เมื่อ Deepgram ส่งกลับมา

รายละเอียด ค่า
เว็บไซต์ deepgram.com
เอกสาร developers.deepgram.com
การยืนยันตัวตน DEEPGRAM_API_KEY
โมเดลเริ่มต้น nova-3

เริ่มต้นใช้งาน

  • ตั้งค่า API key ของคุณ

    เพิ่ม Deepgram API key ของคุณลงใน environment:

    DEEPGRAM_API_KEY=dg_...
    
  • เปิดใช้งานผู้ให้บริการเสียง

    {
      tools: {
        media: {
          audio: {
            enabled: true,
            models: [{ provider: "deepgram", model: "nova-3" }],
          },
        },
      },
    }
    
  • ส่งข้อความเสียง

    ส่งข้อความเสียงผ่านช่องทางที่เชื่อมต่ออยู่ช่องทางใดก็ได้ OpenClaw จะถอดเสียงผ่าน Deepgram และแทรกข้อความถอดเสียงเข้าไปในไปป์ไลน์การตอบกลับ

  • ตัวเลือกการกำหนดค่า

    ตัวเลือก พาธ คำอธิบาย
    model tools.media.audio.models[].model รหัสโมเดลของ Deepgram (ค่าเริ่มต้น: nova-3)
    language tools.media.audio.models[].language คำใบ้ภาษา (ไม่บังคับ)
    detect_language tools.media.audio.providerOptions.deepgram.detect_language เปิดใช้การตรวจจับภาษา (ไม่บังคับ)
    punctuate tools.media.audio.providerOptions.deepgram.punctuate เปิดใช้เครื่องหมายวรรคตอน (ไม่บังคับ)
    smart_format tools.media.audio.providerOptions.deepgram.smart_format เปิดใช้การจัดรูปแบบอัจฉริยะ (ไม่บังคับ)

    พร้อมคำใบ้ภาษา

    {
      tools: {
        media: {
          audio: {
            enabled: true,
            models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
          },
        },
      },
    }
    

    พร้อมตัวเลือกของ Deepgram

    {
      tools: {
        media: {
          audio: {
            enabled: true,
            providerOptions: {
              deepgram: {
                detect_language: true,
                punctuate: true,
                smart_format: true,
              },
            },
            models: [{ provider: "deepgram", model: "nova-3" }],
          },
        },
      },
    }
    

    STT แบบสตรีมมิงของ Voice Call

    Plugin deepgram ที่มาพร้อมกันยังลงทะเบียนผู้ให้บริการถอดเสียงแบบเรียลไทม์สำหรับ Plugin Voice Call ด้วย

    การตั้งค่า พาธการกำหนดค่า ค่าเริ่มต้น
    API key plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey ใช้ DEEPGRAM_API_KEY เป็นค่าตกทอด
    โมเดล ...deepgram.model nova-3
    ภาษา ...deepgram.language (ไม่ได้ตั้งค่า)
    Encoding ...deepgram.encoding mulaw
    อัตราสุ่มตัวอย่าง ...deepgram.sampleRate 8000
    Endpointing ...deepgram.endpointingMs 800
    ผลลัพธ์ระหว่างทาง ...deepgram.interimResults true
    {
      plugins: {
        entries: {
          "voice-call": {
            config: {
              streaming: {
                enabled: true,
                provider: "deepgram",
                providers: {
                  deepgram: {
                    apiKey: "${DEEPGRAM_API_KEY}",
                    model: "nova-3",
                    endpointingMs: 800,
                    language: "en-US",
                  },
                },
              },
            },
          },
        },
      },
    }
    

    หมายเหตุ

    การยืนยันตัวตน

    การยืนยันตัวตนเป็นไปตามลำดับการยืนยันตัวตนมาตรฐานของผู้ให้บริการ DEEPGRAM_API_KEY เป็นวิธีที่ง่ายที่สุด

    พร็อกซีและ endpoint แบบกำหนดเอง

    แทนที่ endpoint หรือ header ได้ด้วย tools.media.audio.baseUrl และ tools.media.audio.headers เมื่อใช้งานผ่านพร็อกซี

    ลักษณะการแสดงผลลัพธ์

    ผลลัพธ์เป็นไปตามกฎเสียงเดียวกันกับผู้ให้บริการรายอื่น (ขีดจำกัดขนาด, การหมดเวลา, การแทรกข้อความถอดเสียง)

    ที่เกี่ยวข้อง