Providers

ElevenLabs

OpenClaw verwendet ElevenLabs für Text-zu-Sprache, Batch-Spracherkennung mit Scribe v2 und Streaming-STT mit Scribe v2 Realtime.

Funktion	OpenClaw-Oberfläche	Standard
Text-zu-Sprache	`messages.tts` / `talk`	`eleven_multilingual_v2`
Batch-Spracherkennung	`tools.media.audio`	`scribe_v2`
Streaming-Spracherkennung	Voice Call-Streaming oder Google Meet `realtime.transcriptionProvider`	`scribe_v2_realtime`

Authentifizierung

Setzen Sie ELEVENLABS_API_KEY in der Umgebung. XI_API_KEY wird zur Kompatibilität mit bestehenden ElevenLabs-Tools ebenfalls akzeptiert.

export ELEVENLABS_API_KEY="..."

Text-zu-Sprache

{
  messages: {
    tts: {
      providers: {
        elevenlabs: {
          apiKey: "${ELEVENLABS_API_KEY}",
          voiceId: "pMsXgVXv3BLzUgSXRplE",
          modelId: "eleven_multilingual_v2",
        },
      },
    },
  },
}

Setzen Sie modelId auf eleven_v3, um ElevenLabs v3 TTS zu verwenden. OpenClaw behält eleven_multilingual_v2 als Standard für bestehende Installationen bei.

Discord-Sprachkanäle verwenden den Streaming-TTS-Endpunkt von ElevenLabs, wenn ElevenLabs der ausgewählte voice.tts-/messages.tts-Provider ist. Die Wiedergabe startet aus dem zurückgegebenen Audiostream, anstatt zuerst darauf zu warten, dass OpenClaw die gesamte Audiodatei herunterlädt und schreibt. latencyTier wird für Modelle, die dies akzeptieren, dem ElevenLabs-Abfrageparameter optimize_streaming_latency zugeordnet; OpenClaw lässt diesen Parameter für eleven_v3 weg, da es ihn ablehnt.

Sprache-zu-Text

Verwenden Sie Scribe v2 für eingehende Audioanhänge und kurze aufgezeichnete Sprachsegmente:

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "elevenlabs", model: "scribe_v2" }],
      },
    },
  },
}

OpenClaw sendet Multipart-Audio an ElevenLabs /v1/speech-to-text mit model_id: "scribe_v2". Sprachhinweise werden, sofern vorhanden, language_code zugeordnet.

Streaming-STT

Das gebündelte elevenlabs-Plugin registriert Scribe v2 Realtime für Voice Call und Streaming-Transkription im Google Meet-Agentenmodus.

Einstellung	Konfigurationspfad	Standard
API-Schlüssel	`plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey`	Fällt auf `ELEVENLABS_API_KEY` / `XI_API_KEY` zurück
Modell	`...elevenlabs.modelId`	`scribe_v2_realtime`
Audioformat	`...elevenlabs.audioFormat`	`ulaw_8000`
Abtastrate	`...elevenlabs.sampleRate`	`8000`
Commit-Strategie	`...elevenlabs.commitStrategy`	`vad`
Sprache	`...elevenlabs.languageCode`	(nicht gesetzt)

{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "elevenlabs",
            providers: {
              elevenlabs: {
                apiKey: "${ELEVENLABS_API_KEY}",
                audioFormat: "ulaw_8000",
                commitStrategy: "vad",
                languageCode: "en",
              },
            },
          },
        },
      },
    },
  },
}

Für den Google Meet-Agentenmodus setzen Sie plugins.entries.google-meet.config.realtime.transcriptionProvider auf "elevenlabs" und konfigurieren denselben Provider-Block unter plugins.entries.google-meet.config.realtime.providers.elevenlabs.

ElevenLabs

Authentifizierung

Text-zu-Sprache

Sprache-zu-Text

Streaming-STT

Verwandte Themen

Ask OpenClaw

# Authentifizierung

# Text-zu-Sprache

# Sprache-zu-Text

# Streaming-STT

# Verwandte Themen

Authentifizierung

Text-zu-Sprache

Sprache-zu-Text

Streaming-STT

Verwandte Themen