Providers
Deepgram
Deepgram ist eine Speech-to-Text-API. In OpenClaw wird sie für die Transkription eingehender
Audio-/Sprachnachrichten über tools.media.audio und für Streaming-STT in Voice Call
über plugins.entries.voice-call.config.streaming verwendet.
Für Batch-Transkription lädt OpenClaw die vollständige Audiodatei zu Deepgram hoch
und fügt das Transkript in die Antwortpipeline ein ({{Transcript}} +
[Audio]-Block). Für Streaming in Voice Call leitet OpenClaw Live-G.711-
u-law-Frames über Deepgrams WebSocket-Endpunkt listen weiter und gibt partielle oder
finale Transkripte aus, sobald Deepgram sie zurückliefert.
| Detail | Wert |
|---|---|
| Website | deepgram.com |
| Dokumentation | developers.deepgram.com |
| Authentifizierung | DEEPGRAM_API_KEY |
| Standardmodell | nova-3 |
Erste Schritte
API-Schlüssel festlegen
Fügen Sie Ihren Deepgram-API-Schlüssel zur Umgebung hinzu:
DEEPGRAM_API_KEY=dg_...
Audioprovier aktivieren
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
Sprachnachricht senden
Senden Sie eine Audionachricht über einen beliebigen verbundenen Kanal. OpenClaw transkribiert sie über Deepgram und fügt das Transkript in die Antwortpipeline ein.
Konfigurationsoptionen
| Option | Pfad | Beschreibung |
|---|---|---|
model |
tools.media.audio.models[].model |
Deepgram-Modell-ID (Standard: nova-3) |
language |
tools.media.audio.models[].language |
Sprachhinweis (optional) |
detect_language |
tools.media.audio.providerOptions.deepgram.detect_language |
Spracherkennung aktivieren (optional) |
punctuate |
tools.media.audio.providerOptions.deepgram.punctuate |
Zeichensetzung aktivieren (optional) |
smart_format |
tools.media.audio.providerOptions.deepgram.smart_format |
Intelligente Formatierung aktivieren (optional) |
Mit Sprachhinweis
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}
Mit Deepgram-Optionen
{
tools: {
media: {
audio: {
enabled: true,
providerOptions: {
deepgram: {
detect_language: true,
punctuate: true,
smart_format: true,
},
},
models: [{ provider: "deepgram", model: "nova-3" }],
},
},
},
}
Streaming-STT für Voice Call
Das gebündelte deepgram-Plugin registriert auch einen Echtzeit-Transkriptionsprovider
für das Voice Call-Plugin.
| Einstellung | Konfigurationspfad | Standard |
|---|---|---|
| API-Schlüssel | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey |
Fällt auf DEEPGRAM_API_KEY zurück |
| Modell | ...deepgram.model |
nova-3 |
| Sprache | ...deepgram.language |
(nicht gesetzt) |
| Kodierung | ...deepgram.encoding |
mulaw |
| Abtastrate | ...deepgram.sampleRate |
8000 |
| Endpointing | ...deepgram.endpointingMs |
800 |
| Zwischenergebnisse | ...deepgram.interimResults |
true |
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "deepgram",
providers: {
deepgram: {
apiKey: "${DEEPGRAM_API_KEY}",
model: "nova-3",
endpointingMs: 800,
language: "en-US",
},
},
},
},
},
},
},
}
Hinweise
Authentifizierung
Die Authentifizierung folgt der standardmäßigen Auth-Reihenfolge für Provider. DEEPGRAM_API_KEY ist
der einfachste Weg.
Proxy und benutzerdefinierte Endpunkte
Überschreiben Sie Endpunkte oder Header mit tools.media.audio.baseUrl und
tools.media.audio.headers, wenn Sie einen Proxy verwenden.
Ausgabeverhalten
Die Ausgabe folgt denselben Audioregeln wie bei anderen Providern (Größenlimits, Timeouts, Transkript-Einfügung).