Plugins
Plugin de Google Meet
Compatibilidad de participantes de Google Meet para OpenClaw — el Plugin es explícito por diseño:
- Solo se une a una URL explícita
https://meet.google.com/.... - Puede crear un nuevo espacio de Meet mediante la API de Google Meet y luego unirse a la URL devuelta.
agentes el modo predeterminado de respuesta hablada: la transcripción en tiempo real escucha, el agente de OpenClaw configurado responde y el TTS normal de OpenClaw habla dentro de Meet.bidisigue disponible como modo alternativo de modelo de voz directo en tiempo real.- Los agentes eligen el comportamiento de unión con
mode: usaagentpara escuchar/responder en vivo,bidicomo alternativa directa de voz en tiempo real, otranscribepara unirse/controlar el navegador sin el puente de respuesta hablada. - La autenticación empieza como OAuth personal de Google o como un perfil de Chrome ya autenticado.
- No hay anuncio automático de consentimiento.
- El backend de audio predeterminado de Chrome es
BlackHole 2ch. - Chrome puede ejecutarse localmente o en un host de nodo emparejado.
- Twilio acepta un número de acceso telefónico más un PIN o una secuencia DTMF opcional; no puede marcar directamente una URL de Meet.
- El comando de CLI es
googlemeet;meetestá reservado para flujos de trabajo más amplios de teleconferencias de agentes.
Inicio rápido
Instala las dependencias locales de audio y configura un proveedor de transcripción en tiempo real
más el TTS normal de OpenClaw. OpenAI es el proveedor de transcripción
predeterminado; Google Gemini Live también funciona como una alternativa de voz bidi separada con
realtime.voiceProvider: "google":
brew install blackhole-2ch sox
export OPENAI_API_KEY=sk-...
# solo necesario cuando realtime.voiceProvider es "google" para el modo bidi
export GEMINI_API_KEY=...
blackhole-2ch instala el dispositivo de audio virtual BlackHole 2ch. El
instalador de Homebrew requiere reiniciar antes de que macOS exponga el dispositivo:
sudo reboot
Después de reiniciar, verifica ambos componentes:
system_profiler SPAudioDataType | grep -i BlackHole
command -v sox
Habilita el Plugin:
{
plugins: {
entries: {
"google-meet": {
enabled: true,
config: {},
},
},
},
}
Comprueba la configuración:
openclaw googlemeet setup
La salida de setup está pensada para que sea legible por agentes y consciente del modo. Informa el perfil de Chrome,
la fijación de nodo y, para uniones de Chrome en tiempo real, las comprobaciones del puente de audio
BlackHole/SoX y de la introducción en tiempo real diferida. Para uniones de solo observación, comprueba el mismo
transporte con --mode transcribe; ese modo omite los prerrequisitos de audio en tiempo real
porque no escucha ni habla a través del puente:
openclaw googlemeet setup --transport chrome-node --mode transcribe
Cuando la delegación de Twilio está configurada, setup también informa si el
Plugin voice-call, las credenciales de Twilio y la exposición pública de Webhook están listos.
Trata cualquier comprobación ok: false como un bloqueo para el transporte y el modo
comprobados antes de pedir a un agente que se una. Usa openclaw googlemeet setup --json para
scripts o salida legible por máquina. Usa --transport chrome,
--transport chrome-node o --transport twilio para verificar un transporte específico
antes de que un agente lo intente.
Para Twilio, verifica siempre el transporte explícitamente cuando el transporte predeterminado es Chrome:
openclaw googlemeet setup --transport twilio
Eso detecta cableado de voice-call faltante, credenciales de Twilio o exposición de
Webhook inalcanzable antes de que el agente intente marcar la reunión.
Únete a una reunión:
openclaw googlemeet join https://meet.google.com/abc-defg-hij
O permite que un agente se una mediante la herramienta google_meet:
{
"action": "join",
"url": "https://meet.google.com/abc-defg-hij",
"transport": "chrome-node",
"mode": "agent"
}
La herramienta google_meet orientada a agentes permanece disponible en hosts que no son macOS para
flujos de artefactos, calendario, setup, transcripción, Twilio y chrome-node. Las acciones locales
de respuesta hablada con Chrome se bloquean allí porque la ruta de audio de Chrome incluida
actualmente depende de BlackHole 2ch de macOS. En Linux, usa mode: "transcribe",
marcación telefónica de Twilio o un host chrome-node de macOS para participar con respuesta hablada
en Chrome.
Crea una nueva reunión y únete a ella:
openclaw googlemeet create --transport chrome-node --mode agent
Para salas creadas por API, usa SpaceConfig.accessType de Google Meet cuando quieras
que la política sin llamada de la sala sea explícita en lugar de heredarse de los valores predeterminados de la cuenta
de Google:
openclaw googlemeet create --access-type OPEN --transport chrome-node --mode agent
OPEN permite que cualquiera con la URL de Meet se una sin pedir acceso. TRUSTED permite que
los usuarios de confianza de la organización anfitriona, los usuarios externos invitados y los usuarios
de acceso telefónico se unan sin pedir acceso. RESTRICTED limita la entrada sin pedir acceso a los invitados. Esta
configuración solo se aplica a la ruta oficial de creación de la API de Google Meet, por lo que las credenciales
OAuth deben estar configuradas.
Si autenticabas Google Meet antes de que esta opción estuviera disponible, vuelve a ejecutar
openclaw googlemeet auth login --json después de añadir el alcance
meetings.space.settings a tu pantalla de consentimiento OAuth de Google.
Crea solo la URL sin unirte:
openclaw googlemeet create --no-join
googlemeet create tiene dos rutas:
- Creación por API: se usa cuando las credenciales OAuth de Google Meet están configuradas. Esta es la ruta más determinista y no depende del estado de la interfaz del navegador.
- Alternativa del navegador: se usa cuando no hay credenciales OAuth. OpenClaw usa el
nodo de Chrome fijado, abre
https://meet.google.com/new, espera a que Google redirija a una URL real con código de reunión y luego devuelve esa URL. Esta ruta requiere que el perfil de Chrome de OpenClaw en el nodo ya haya iniciado sesión en Google. La automatización del navegador gestiona el propio aviso inicial de micrófono de Meet; ese aviso no se trata como un error de inicio de sesión de Google. Los flujos de unión y creación también intentan reutilizar una pestaña de Meet existente antes de abrir una nueva. La coincidencia ignora cadenas de consulta de URL inofensivas comoauthuser, así que un reintento del agente debería enfocar la reunión ya abierta en lugar de crear una segunda pestaña de Chrome.
La salida del comando/herramienta incluye un campo source (api o browser) para que los agentes
puedan explicar qué ruta se usó. create se une a la nueva reunión de forma predeterminada y
devuelve joined: true más la sesión de unión. Para solo emitir la URL, usa
create --no-join en la CLI o pasa "join": false a la herramienta.
O dile a un agente: "Crea una Google Meet, únete con el modo de respuesta hablada del agente
y envíame el enlace." El agente debería llamar a google_meet con
action: "create" y luego compartir el meetingUri devuelto.
{
"action": "create",
"transport": "chrome-node",
"mode": "agent"
}
Para una unión de solo observación/control del navegador, establece "mode": "transcribe". Eso no
inicia el puente de voz dúplex en tiempo real, no requiere BlackHole ni SoX,
y no responderá hablando en la reunión. Las uniones de Chrome en este modo también evitan
la concesión de permisos de micrófono/cámara de OpenClaw y evitan la ruta Usar
micrófono de Meet. Si Meet muestra un intersticial de elección de audio, la automatización intenta
la ruta sin micrófono y, si no, informa una acción manual en lugar de abrir
el micrófono local. En modo transcribe, los transportes administrados de Chrome también instalan
un observador de subtítulos de Meet de mejor esfuerzo. googlemeet status --json y
googlemeet doctor exponen captioning, captionsEnabledAttempted,
transcriptLines, lastCaptionAt, lastCaptionSpeaker, lastCaptionText,
y una cola corta recentTranscript para que los operadores puedan saber si el navegador
se unió a la llamada y si los subtítulos de Meet están produciendo texto.
Usa openclaw googlemeet test-listen <meet-url> --transport chrome-node cuando
necesites una comprobación de sí/no: se une en modo transcribe, espera subtítulos nuevos o
movimiento de transcripción, y devuelve listenVerified, listenTimedOut, campos de
acción manual y la salud de subtítulos más reciente.
Durante sesiones en tiempo real, el estado de google_meet incluye salud del navegador y del puente de audio
como inCall, manualActionRequired, providerConnected,
realtimeReady, audioInputActive, audioOutputActive, marcas de tiempo de la última entrada/salida,
contadores de bytes y estado cerrado del puente. Si aparece un aviso seguro de página de Meet,
la automatización del navegador lo gestiona cuando puede. Los avisos de inicio de sesión, admisión del anfitrión y
permisos del navegador/SO se informan como acción manual con una razón y
un mensaje para que el agente lo transmita. Las sesiones administradas de Chrome solo emiten la introducción o
frase de prueba después de que la salud del navegador informa inCall: true; de lo contrario, el estado informa
speechReady: false y el intento de habla se bloquea en lugar de fingir que
el agente habló en la reunión.
Las uniones locales de Chrome pasan por el perfil de navegador de OpenClaw autenticado. El modo en tiempo real
requiere BlackHole 2ch para la ruta de micrófono/altavoz usada por OpenClaw. Para
audio dúplex limpio, usa dispositivos virtuales separados o un grafo estilo Loopback; un
solo dispositivo BlackHole es suficiente para una primera prueba rápida, pero puede generar eco.
Gateway local + Chrome de Parallels
No necesitas un Gateway completo de OpenClaw ni una clave de API de modelo dentro de una VM de macOS solo para que la VM posea Chrome. Ejecuta el Gateway y el agente localmente, luego ejecuta un host de nodo en la VM. Habilita el Plugin incluido en la VM una vez para que el nodo anuncie el comando de Chrome:
Qué se ejecuta dónde:
- Host de Gateway: Gateway de OpenClaw, espacio de trabajo del agente, claves de modelo/API, proveedor en tiempo real y configuración del Plugin de Google Meet.
- VM de macOS de Parallels: CLI/host de nodo de OpenClaw, Google Chrome, SoX, BlackHole 2ch, y un perfil de Chrome autenticado en Google.
- No necesario en la VM: servicio Gateway, configuración de agente, clave de OpenAI/GPT ni configuración de proveedor de modelo.
Instala las dependencias de la VM:
brew install blackhole-2ch sox
Reinicia la VM después de instalar BlackHole para que macOS exponga BlackHole 2ch:
sudo reboot
Después de reiniciar, verifica que la VM pueda ver el dispositivo de audio y los comandos de SoX:
system_profiler SPAudioDataType | grep -i BlackHole
command -v sox
Instala o actualiza OpenClaw en la VM y luego habilita allí el Plugin incluido:
openclaw plugins enable google-meet
Inicia el host de nodo en la VM:
openclaw node run --host <gateway-host> --port 18789 --display-name parallels-macos
Si <gateway-host> es una IP de LAN y no estás usando TLS, el nodo rechaza el
WebSocket en texto plano a menos que optes por permitir esa red privada de confianza:
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
openclaw node run --host <gateway-lan-ip> --port 18789 --display-name parallels-macos
Usa la misma variable de entorno al instalar el nodo como LaunchAgent:
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
openclaw node install --host <gateway-lan-ip> --port 18789 --display-name parallels-macos --force
openclaw node restart
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 es entorno de proceso, no una configuración de
openclaw.json. openclaw node install la almacena en el entorno de LaunchAgent
cuando está presente en el comando de instalación.
Aprueba el nodo desde el host de Gateway:
openclaw devices list
openclaw devices approve <requestId>
Confirma que el Gateway ve el nodo y que anuncia tanto googlemeet.chrome
como la capacidad de navegador/browser.proxy:
openclaw nodes status
Enruta Meet a través de ese nodo en el host de Gateway:
{
gateway: {
nodes: {
allowCommands: ["googlemeet.chrome", "browser.proxy"],
},
},
plugins: {
entries: {
"google-meet": {
enabled: true,
config: {
defaultTransport: "chrome-node",
chrome: {
guestName: "OpenClaw Agent",
autoJoin: true,
reuseExistingTab: true,
},
chromeNode: {
node: "parallels-macos",
},
},
},
},
},
}
Ahora únete normalmente desde el host de Gateway:
openclaw googlemeet join https://meet.google.com/abc-defg-hij
o pide al agente que use la herramienta google_meet con transport: "chrome-node".
Para una prueba rápida de un solo comando que crea o reutiliza una sesión, dice una frase conocida e imprime la salud de la sesión:
openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij
Durante la incorporación en tiempo real, la automatización del navegador de OpenClaw rellena el nombre de invitado, hace clic en
Join/Ask to join y acepta la opción de primer uso de Meet "Use microphone" cuando aparece ese
aviso. Durante una incorporación solo de observación o la creación de reuniones solo con navegador, avanza
más allá del mismo aviso sin micrófono cuando esa opción está disponible.
Si el perfil del navegador no tiene la sesión iniciada, Meet está esperando la admisión del anfitrión,
Chrome necesita permiso de micrófono/cámara para una incorporación en tiempo real, o Meet está atascado
en un aviso que la automatización no pudo resolver, el resultado de incorporación/test-speech informa
manualActionRequired: true con manualActionReason y
manualActionMessage. Los agentes deben dejar de reintentar la incorporación, informar ese
mensaje exacto más el browserUrl/browserTitle actual, y reintentar solo después de que
la acción manual en el navegador se haya completado.
Si se omite chromeNode.node, OpenClaw selecciona automáticamente solo cuando exactamente un
nodo conectado anuncia tanto googlemeet.chrome como control del navegador. Si
hay varios nodos capaces conectados, establece chromeNode.node en el ID del nodo,
el nombre visible o la IP remota.
Comprobaciones de fallos comunes:
Configured Google Meet node ... is not usable: offline: el nodo fijado es conocido por el Gateway, pero no está disponible. Los agentes deben tratar ese nodo como estado de diagnóstico, no como un host Chrome utilizable, e informar el bloqueador de configuración en lugar de recurrir a otro transporte, salvo que el usuario lo haya pedido.No connected Google Meet-capable node: iniciaopenclaw node runen la VM, aprueba el emparejamiento y asegúrate de queopenclaw plugins enable google-meetyopenclaw plugins enable browserse hayan ejecutado en la VM. Confirma también que el host del Gateway permite ambos comandos de nodo congateway.nodes.allowCommands: ["googlemeet.chrome", "browser.proxy"].BlackHole 2ch audio device not found: instalablackhole-2chen el host que se está comprobando y reinicia antes de usar audio de Chrome local.BlackHole 2ch audio device not found on the node: instalablackhole-2chen la VM y reinicia la VM.- Chrome se abre pero no puede unirse: inicia sesión en el perfil del navegador dentro de la VM, o
mantén
chrome.guestNameconfigurado para unirse como invitado. La unión automática como invitado usa la automatización del navegador de OpenClaw mediante el proxy de navegador del nodo; asegúrate de que la configuración del navegador del nodo apunte al perfil que quieres, por ejemplobrowser.defaultProfile: "user"o un perfil de sesión existente con nombre. - Pestañas de Meet duplicadas: deja
chrome.reuseExistingTab: truehabilitado. OpenClaw activa una pestaña existente para la misma URL de Meet antes de abrir una nueva, y la creación de reuniones en navegador reutiliza una pestaña en curso dehttps://meet.google.com/newo de aviso de cuenta de Google antes de abrir otra. - Sin audio: en Meet, enruta el micrófono/altavoz a través de la ruta de dispositivo de audio virtual usada por OpenClaw; usa dispositivos virtuales separados o enrutamiento estilo Loopback para audio dúplex limpio.
Notas de instalación
El valor predeterminado de respuesta de audio de Chrome usa dos herramientas externas:
sox: utilidad de audio de línea de comandos. El Plugin usa comandos explícitos de dispositivo CoreAudio para el puente de audio PCM16 predeterminado de 24 kHz.blackhole-2ch: controlador de audio virtual de macOS. Crea el dispositivo de audioBlackHole 2chque Chrome/Meet puede enrutar.
OpenClaw no incluye ni redistribuye ninguno de los dos paquetes. La documentación pide a los usuarios que
los instalen como dependencias del host mediante Homebrew. SoX tiene licencia
LGPL-2.0-only AND GPL-2.0-only; BlackHole es GPL-3.0. Si creas un
instalador o appliance que incluya BlackHole con OpenClaw, revisa los términos de licencia
upstream de BlackHole u obtén una licencia separada de Existential Audio.
Transportes
Chrome
El transporte de Chrome abre la URL de Meet mediante el control del navegador de OpenClaw y se une
como el perfil de navegador de OpenClaw con sesión iniciada. En macOS, el Plugin comprueba la existencia de
BlackHole 2ch antes del lanzamiento. Si está configurado, también ejecuta un comando de salud del puente de audio
y un comando de arranque antes de abrir Chrome. Usa chrome cuando
Chrome/audio se ejecuten en el host del Gateway; usa chrome-node cuando Chrome/audio se ejecuten
en un nodo emparejado, como una VM macOS de Parallels. Para Chrome local, elige el
perfil con browser.defaultProfile; chrome.browserProfile se pasa a
hosts chrome-node.
openclaw googlemeet join https://meet.google.com/abc-defg-hij --transport chrome
openclaw googlemeet join https://meet.google.com/abc-defg-hij --transport chrome-node
Enruta el audio del micrófono y altavoz de Chrome a través del puente de audio local de OpenClaw.
Si BlackHole 2ch no está instalado, la incorporación falla con un error de configuración
en lugar de unirse silenciosamente sin una ruta de audio.
Twilio
El transporte de Twilio es un plan de marcación estricto delegado al Plugin Voice Call. No analiza las páginas de Meet para buscar números de teléfono.
Usa esto cuando la participación con Chrome no esté disponible o quieras una alternativa de marcación por teléfono. Google Meet debe exponer un número de acceso telefónico y PIN para la reunión; OpenClaw no los descubre desde la página de Meet.
Habilita el Plugin Voice Call en el host del Gateway, no en el nodo de Chrome:
{
plugins: {
allow: ["google-meet", "voice-call", "google"],
entries: {
"google-meet": {
enabled: true,
config: {
defaultTransport: "chrome-node",
// or set "twilio" if Twilio should be the default
},
},
"voice-call": {
enabled: true,
config: {
provider: "twilio",
inboundPolicy: "allowlist",
realtime: {
enabled: true,
provider: "google",
instructions: "Join this Google Meet as an OpenClaw agent. Be brief.",
toolPolicy: "safe-read-only",
providers: {
google: {
silenceDurationMs: 500,
startSensitivity: "high",
},
},
},
},
},
google: {
enabled: true,
},
},
},
}
Proporciona las credenciales de Twilio mediante el entorno o la configuración. El entorno mantiene
los secretos fuera de openclaw.json:
export TWILIO_ACCOUNT_SID=AC...
export TWILIO_AUTH_TOKEN=...
export TWILIO_FROM_NUMBER=+15550001234
export GEMINI_API_KEY=...
Usa realtime.provider: "openai" con el Plugin proveedor de OpenAI y
OPENAI_API_KEY en su lugar si ese es tu proveedor de voz en tiempo real.
Reinicia o recarga el Gateway después de habilitar voice-call; los cambios de configuración de Plugins
no aparecen en un proceso de Gateway ya en ejecución hasta que se recarga.
Luego verifica:
openclaw config validate
openclaw plugins list | grep -E 'google-meet|voice-call'
openclaw googlemeet setup
Cuando la delegación de Twilio está conectada, googlemeet setup incluye comprobaciones correctas de
twilio-voice-call-plugin, twilio-voice-call-credentials y
twilio-voice-call-webhook.
openclaw googlemeet join https://meet.google.com/abc-defg-hij \
--transport twilio \
--dial-in-number +15551234567 \
--pin 123456
Usa --dtmf-sequence cuando la reunión necesite una secuencia personalizada:
openclaw googlemeet join https://meet.google.com/abc-defg-hij \
--transport twilio \
--dial-in-number +15551234567 \
--dtmf-sequence ww123456#
OAuth y comprobación previa
OAuth es opcional para crear un enlace de Meet porque googlemeet create puede recurrir
a la automatización del navegador. Configura OAuth cuando quieras creación mediante API oficial,
resolución de espacios o comprobaciones previas de Meet Media API.
El acceso a Google Meet API usa OAuth de usuario: crea un cliente OAuth de Google Cloud,
solicita los permisos requeridos, autoriza una cuenta de Google y luego almacena el
refresh token resultante en la configuración del Plugin Google Meet o proporciona las
variables de entorno OPENCLAW_GOOGLE_MEET_*.
OAuth no reemplaza la ruta de incorporación de Chrome. Los transportes Chrome y Chrome-node siguen uniéndose mediante un perfil de Chrome con sesión iniciada, BlackHole/SoX y un nodo conectado cuando usas participación con navegador. OAuth es solo para la ruta oficial de Google Meet API: crear espacios de reunión, resolver espacios y ejecutar comprobaciones previas de Meet Media API.
Crear credenciales de Google
En Google Cloud Console:
-
Crea o selecciona un proyecto de Google Cloud.
-
Habilita Google Meet REST API para ese proyecto.
-
Configura la pantalla de consentimiento de OAuth.
- Internal es lo más sencillo para una organización de Google Workspace.
- External funciona para configuraciones personales/de prueba; mientras la aplicación esté en Testing, añade como usuario de prueba cada cuenta de Google que autorizará la aplicación.
-
Añade los permisos que solicita OpenClaw:
https://www.googleapis.com/auth/meetings.space.createdhttps://www.googleapis.com/auth/meetings.space.readonlyhttps://www.googleapis.com/auth/meetings.space.settingshttps://www.googleapis.com/auth/meetings.conference.media.readonly
-
Crea un ID de cliente OAuth.
-
Tipo de aplicación: Web application.
-
URI de redirección autorizado:
http://localhost:8085/oauth2callback
-
-
Copia el ID de cliente y el secreto de cliente.
meetings.space.created es requerido por spaces.create de Google Meet.
meetings.space.readonly permite que OpenClaw resuelva URLs/códigos de Meet a espacios.
meetings.space.settings permite que OpenClaw pase configuraciones de SpaceConfig, como
accessType, durante la creación de salas por API.
meetings.conference.media.readonly es para comprobación previa de Meet Media API y trabajo de medios;
Google puede requerir inscripción en Developer Preview para el uso real de Media API.
Si solo necesitas uniones de Chrome basadas en navegador, omite OAuth por completo.
Emitir el refresh token
Configura oauth.clientId y opcionalmente oauth.clientSecret, o pásalos como
variables de entorno, luego ejecuta:
openclaw googlemeet auth login --json
El comando imprime un bloque de configuración oauth con un refresh token. Usa PKCE,
callback localhost en http://localhost:8085/oauth2callback y un flujo manual
de copiar/pegar con --manual.
Ejemplos:
OPENCLAW_GOOGLE_MEET_CLIENT_ID="your-client-id" \
OPENCLAW_GOOGLE_MEET_CLIENT_SECRET="your-client-secret" \
openclaw googlemeet auth login --json
Usa el modo manual cuando el navegador no pueda llegar al callback local:
OPENCLAW_GOOGLE_MEET_CLIENT_ID="your-client-id" \
OPENCLAW_GOOGLE_MEET_CLIENT_SECRET="your-client-secret" \
openclaw googlemeet auth login --json --manual
La salida JSON incluye:
{
"oauth": {
"clientId": "your-client-id",
"clientSecret": "your-client-secret",
"refreshToken": "refresh-token",
"accessToken": "access-token",
"expiresAt": 1770000000000
},
"scope": "..."
}
Almacena el objeto oauth bajo la configuración del Plugin Google Meet:
{
plugins: {
entries: {
"google-meet": {
enabled: true,
config: {
oauth: {
clientId: "your-client-id",
clientSecret: "your-client-secret",
refreshToken: "refresh-token",
},
},
},
},
},
}
Prefiere variables de entorno cuando no quieras el refresh token en la configuración. Si están presentes tanto valores de configuración como de entorno, el Plugin resuelve primero la configuración y luego recurre al entorno.
El consentimiento OAuth incluye creación de espacios de Meet, acceso de lectura a espacios de Meet y acceso
de lectura a medios de conferencia de Meet. Si te autenticaste antes de que existiera la compatibilidad
con creación de reuniones, vuelve a ejecutar openclaw googlemeet auth login --json para que el refresh
token tenga el permiso meetings.space.created.
Verificar OAuth con doctor
Ejecuta el doctor de OAuth cuando quieras una comprobación de salud rápida y sin secretos:
openclaw googlemeet doctor --oauth --json
Esto no carga el runtime de Chrome ni requiere un nodo de Chrome conectado. Comprueba
que la configuración de OAuth exista y que el refresh token pueda emitir un access
token. El informe JSON incluye solo campos de estado como ok, configured,
tokenSource, expiresAt y mensajes de comprobación; no imprime el access
token, refresh token ni secreto de cliente.
Resultados comunes:
| Comprobación | Significado |
|---|---|
oauth-config |
oauth.clientId junto con oauth.refreshToken, o un token de acceso en caché, está presente. |
oauth-token |
El token de acceso en caché sigue siendo válido, o el token de actualización emitió un nuevo token de acceso. |
meet-spaces-get |
La comprobación opcional --meeting resolvió un espacio de Meet existente. |
meet-spaces-create |
La comprobación opcional --create-space creó un nuevo espacio de Meet. |
Para probar también la habilitación de la API de Google Meet y el alcance spaces.create, ejecuta la
comprobación de creación con efectos secundarios:
openclaw googlemeet doctor --oauth --create-space --json
openclaw googlemeet create --no-join --json
--create-space crea una URL de Meet descartable. Úsalo cuando necesites confirmar
que el proyecto de Google Cloud tiene habilitada la API de Meet y que la cuenta
autorizada tiene el alcance meetings.space.created.
Para probar el acceso de lectura a un espacio de reunión existente:
openclaw googlemeet doctor --oauth --meeting https://meet.google.com/abc-defg-hij --json
openclaw googlemeet resolve-space --meeting https://meet.google.com/abc-defg-hij
doctor --oauth --meeting y resolve-space prueban el acceso de lectura a un
espacio existente al que puede acceder la cuenta de Google autorizada. Un 403 de estas comprobaciones
normalmente significa que la API REST de Google Meet está deshabilitada, que al token de actualización consentido
le falta el alcance requerido, o que la cuenta de Google no puede acceder a ese espacio de Meet.
Un error de token de actualización significa que debes volver a ejecutar openclaw googlemeet auth login --json y almacenar el nuevo bloque oauth.
No se necesitan credenciales de OAuth para el respaldo del navegador. En ese modo, la autenticación de Google proviene del perfil de Chrome con sesión iniciada en el nodo seleccionado, no de la configuración de OpenClaw.
Estas variables de entorno se aceptan como respaldos:
OPENCLAW_GOOGLE_MEET_CLIENT_IDoGOOGLE_MEET_CLIENT_IDOPENCLAW_GOOGLE_MEET_CLIENT_SECREToGOOGLE_MEET_CLIENT_SECRETOPENCLAW_GOOGLE_MEET_REFRESH_TOKENoGOOGLE_MEET_REFRESH_TOKENOPENCLAW_GOOGLE_MEET_ACCESS_TOKENoGOOGLE_MEET_ACCESS_TOKENOPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AToGOOGLE_MEET_ACCESS_TOKEN_EXPIRES_ATOPENCLAW_GOOGLE_MEET_DEFAULT_MEETINGoGOOGLE_MEET_DEFAULT_MEETINGOPENCLAW_GOOGLE_MEET_PREVIEW_ACKoGOOGLE_MEET_PREVIEW_ACK
Resuelve una URL de Meet, un código o spaces/{id} mediante spaces.get:
openclaw googlemeet resolve-space --meeting https://meet.google.com/abc-defg-hij
Ejecuta la comprobación previa antes del trabajo multimedia:
openclaw googlemeet preflight --meeting https://meet.google.com/abc-defg-hij
Enumera artefactos de reunión y asistencia después de que Meet haya creado registros de conferencia:
openclaw googlemeet artifacts --meeting https://meet.google.com/abc-defg-hij
openclaw googlemeet attendance --meeting https://meet.google.com/abc-defg-hij
openclaw googlemeet export --meeting https://meet.google.com/abc-defg-hij --output ./meet-export
Con --meeting, artifacts y attendance usan el registro de conferencia más reciente
de forma predeterminada. Pasa --all-conference-records cuando quieras todos los registros conservados
para esa reunión.
La búsqueda en Calendar puede resolver la URL de la reunión desde Google Calendar antes de leer artefactos de Meet:
openclaw googlemeet latest --today
openclaw googlemeet calendar-events --today --json
openclaw googlemeet artifacts --event "Weekly sync"
openclaw googlemeet attendance --today --format csv --output attendance.csv
--today busca en el calendario primary de hoy un evento de Calendar con un
enlace de Google Meet. Usa --event <query> para buscar texto de evento coincidente, y
--calendar <id> para un calendario no principal. La búsqueda en Calendar requiere un nuevo
inicio de sesión de OAuth que incluya el alcance de solo lectura de eventos de Calendar.
calendar-events previsualiza los eventos de Meet coincidentes y marca el evento que
latest, artifacts, attendance o export elegirá.
Si ya conoces el id del registro de conferencia, dirígelo directamente:
openclaw googlemeet latest --meeting https://meet.google.com/abc-defg-hij
openclaw googlemeet artifacts --conference-record conferenceRecords/abc123 --json
openclaw googlemeet attendance --conference-record conferenceRecords/abc123 --json
Finaliza una conferencia activa para un espacio creado por API cuando quieras cerrar la sala después de la llamada:
openclaw googlemeet end-active-conference https://meet.google.com/abc-defg-hij
Esto llama a spaces.endActiveConference de Google Meet y requiere OAuth con el
alcance meetings.space.created para un espacio que la cuenta autorizada pueda administrar.
OpenClaw acepta una URL de Meet, un código de reunión o una entrada spaces/{id} y la resuelve
al recurso de espacio de la API antes de finalizar la conferencia activa.
Es independiente de googlemeet leave: leave detiene la participación local/de sesión de
OpenClaw, mientras que end-active-conference pide a Google Meet que finalice la conferencia activa
del espacio.
Escribe un informe legible:
openclaw googlemeet artifacts --conference-record conferenceRecords/abc123 \
--format markdown --output meet-artifacts.md
openclaw googlemeet attendance --conference-record conferenceRecords/abc123 \
--format markdown --output meet-attendance.md
openclaw googlemeet attendance --conference-record conferenceRecords/abc123 \
--format csv --output meet-attendance.csv
openclaw googlemeet export --conference-record conferenceRecords/abc123 \
--include-doc-bodies --zip --output meet-export
openclaw googlemeet export --conference-record conferenceRecords/abc123 \
--include-doc-bodies --dry-run
artifacts devuelve metadatos de registro de conferencia junto con metadatos de recursos de participante, grabación,
transcripción, entrada de transcripción estructurada y nota inteligente cuando
Google los expone para la reunión. Usa --no-transcript-entries para omitir la
búsqueda de entradas en reuniones grandes. attendance expande participantes en filas de
sesión de participante con horas de primera/última aparición, duración total de la sesión,
marcas de llegada tarde/salida anticipada y recursos de participante duplicados fusionados por usuario
con sesión iniciada o nombre visible. Pasa --no-merge-duplicates para mantener separados
los recursos de participante sin procesar, --late-after-minutes para ajustar la detección de tardanza y
--early-before-minutes para ajustar la detección de salida anticipada.
export escribe una carpeta que contiene summary.md, attendance.csv,
transcript.md, artifacts.json, attendance.json y manifest.json.
manifest.json registra la entrada elegida, las opciones de exportación, los registros de conferencia,
los archivos de salida, los conteos, la fuente del token, el evento de Calendar cuando se usó uno y cualquier
advertencia de recuperación parcial. Pasa --zip para escribir también un archivo portátil junto
a la carpeta. Pasa --include-doc-bodies para exportar el texto de Google Docs de transcripciones y
notas inteligentes enlazadas mediante files.export de Google Drive; esto requiere un
nuevo inicio de sesión de OAuth que incluya el alcance de solo lectura de Drive Meet. Sin
--include-doc-bodies, las exportaciones incluyen solo metadatos de Meet y entradas de transcripción
estructuradas. Si Google devuelve un fallo parcial de artefacto, como un error de listado de notas inteligentes,
entrada de transcripción o cuerpo de documento de Drive, el resumen y el
manifiesto conservan la advertencia en lugar de hacer fallar toda la exportación.
Usa --dry-run para obtener los mismos datos de artefactos/asistencia e imprimir el
JSON del manifiesto sin crear la carpeta ni el ZIP. Eso es útil antes de escribir
una exportación grande o cuando un agente solo necesita conteos, registros seleccionados y
advertencias.
Los agentes también pueden crear el mismo paquete mediante la herramienta google_meet:
{
"action": "export",
"conferenceRecord": "conferenceRecords/abc123",
"includeDocumentBodies": true,
"outputDir": "meet-export",
"zip": true
}
Define "dryRun": true para devolver solo el manifiesto de exportación y omitir la escritura de archivos.
Los agentes también pueden crear una sala respaldada por API con una política de acceso explícita:
{
"action": "create",
"transport": "chrome-node",
"mode": "agent",
"accessType": "OPEN"
}
Y pueden finalizar la conferencia activa de una sala conocida:
{
"action": "end_active_conference",
"meeting": "https://meet.google.com/abc-defg-hij"
}
Para validación de escuchar primero, los agentes deben usar test_listen antes de afirmar que la
reunión es útil:
{
"action": "test_listen",
"url": "https://meet.google.com/abc-defg-hij",
"transport": "chrome-node",
"timeoutMs": 30000
}
Ejecuta la prueba de humo en vivo protegida contra una reunión real conservada:
OPENCLAW_LIVE_TEST=1 \
OPENCLAW_GOOGLE_MEET_LIVE_MEETING=https://meet.google.com/abc-defg-hij \
pnpm test:live -- extensions/google-meet/google-meet.live.test.ts
Ejecuta la sonda de navegador en vivo de escuchar primero contra una reunión en la que alguien vaya a hablar con subtítulos de Meet disponibles:
openclaw googlemeet setup --transport chrome-node --mode transcribe
openclaw googlemeet test-listen https://meet.google.com/abc-defg-hij --transport chrome-node --timeout-ms 30000
Entorno de prueba de humo en vivo:
OPENCLAW_LIVE_TEST=1habilita las pruebas en vivo protegidas.OPENCLAW_GOOGLE_MEET_LIVE_MEETINGapunta a una URL de Meet conservada, un código ospaces/{id}.OPENCLAW_GOOGLE_MEET_CLIENT_IDoGOOGLE_MEET_CLIENT_IDproporciona el id de cliente de OAuth.OPENCLAW_GOOGLE_MEET_REFRESH_TOKENoGOOGLE_MEET_REFRESH_TOKENproporciona el token de actualización.- Opcional:
OPENCLAW_GOOGLE_MEET_CLIENT_SECRET,OPENCLAW_GOOGLE_MEET_ACCESS_TOKENyOPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_ATusan los mismos nombres de respaldo sin el prefijoOPENCLAW_.
La prueba de humo en vivo base de artefactos/asistencia necesita
https://www.googleapis.com/auth/meetings.space.readonly y
https://www.googleapis.com/auth/meetings.conference.media.readonly. La búsqueda en Calendar
necesita https://www.googleapis.com/auth/calendar.events.readonly. La exportación de cuerpos de documentos de Drive necesita
https://www.googleapis.com/auth/drive.meet.readonly.
Crea un nuevo espacio de Meet:
openclaw googlemeet create
El comando imprime el nuevo meeting uri, la fuente y la sesión de unión. Con credenciales
de OAuth usa la API oficial de Google Meet. Sin credenciales de OAuth,
usa como respaldo el perfil de navegador con sesión iniciada del nodo de Chrome fijado. Los agentes pueden
usar la herramienta google_meet con action: "create" para crear y unirse en un solo
paso. Para creación solo con URL, pasa "join": false.
Ejemplo de salida JSON del respaldo del navegador:
{
"source": "browser",
"meetingUri": "https://meet.google.com/abc-defg-hij",
"joined": true,
"browser": {
"nodeId": "ba0f4e4bc...",
"targetId": "tab-1"
},
"join": {
"session": {
"id": "meet_...",
"url": "https://meet.google.com/abc-defg-hij"
}
}
}
Si el respaldo del navegador encuentra un bloqueo de inicio de sesión de Google o de permisos de Meet antes de
poder crear la URL, el método Gateway devuelve una respuesta fallida y la
herramienta google_meet devuelve detalles estructurados en lugar de una cadena simple:
{
"source": "browser",
"error": "google-login-required: Sign in to Google in the OpenClaw browser profile, then retry meeting creation.",
"manualActionRequired": true,
"manualActionReason": "google-login-required",
"manualActionMessage": "Sign in to Google in the OpenClaw browser profile, then retry meeting creation.",
"browser": {
"nodeId": "ba0f4e4bc...",
"targetId": "tab-1",
"browserUrl": "https://accounts.google.com/signin",
"browserTitle": "Sign in - Google Accounts"
}
}
Cuando un agente vea manualActionRequired: true, debe informar el
manualActionMessage junto con el contexto de nodo/pestaña del navegador y dejar de abrir nuevas
pestañas de Meet hasta que el operador complete el paso en el navegador.
Ejemplo de salida JSON de la creación mediante API:
{
"source": "api",
"meetingUri": "https://meet.google.com/abc-defg-hij",
"joined": true,
"space": {
"name": "spaces/abc-defg-hij",
"meetingCode": "abc-defg-hij",
"meetingUri": "https://meet.google.com/abc-defg-hij"
},
"join": {
"session": {
"id": "meet_...",
"url": "https://meet.google.com/abc-defg-hij"
}
}
}
Crear un Meet se une de forma predeterminada. El transporte Chrome o Chrome-node aún
necesita un perfil de Google Chrome con sesión iniciada para unirse mediante el navegador. Si el
perfil tiene la sesión cerrada, OpenClaw informa manualActionRequired: true o un
error de reserva del navegador, y pide al operador que complete el inicio de sesión en Google antes de
reintentar.
Establece preview.enrollmentAcknowledged: true solo después de confirmar que tu proyecto de Cloud,
principal de OAuth y participantes de la reunión están inscritos en el Programa de vista previa para desarrolladores de Google
Workspace para las APIs multimedia de Meet.
Configuración
La ruta común del agente de Chrome solo necesita el Plugin habilitado, BlackHole, SoX, una
clave de proveedor de transcripción en tiempo real y un proveedor TTS de OpenClaw configurado.
OpenAI es el proveedor de transcripción predeterminado; establece realtime.voiceProvider en
"google" y realtime.model para usar Google Gemini Live en modo bidi
sin cambiar el proveedor de transcripción predeterminado del modo agente:
brew install blackhole-2ch sox
export OPENAI_API_KEY=sk-...
# or
export GEMINI_API_KEY=...
Establece la configuración del Plugin en plugins.entries.google-meet.config:
{
plugins: {
entries: {
"google-meet": {
enabled: true,
config: {},
},
},
},
}
Valores predeterminados:
defaultTransport: "chrome"defaultMode: "agent"("realtime"se acepta solo como alias de compatibilidad heredado para"agent"; las nuevas llamadas a herramientas deberían decir"agent")chromeNode.node: id/nombre/IP de Node opcional parachrome-nodechrome.audioBackend: "blackhole-2ch"chrome.guestName: "OpenClaw Agent": nombre usado en la pantalla de invitado de Meet con sesión cerradachrome.autoJoin: true: completado del nombre de invitado y clic en Unirse ahora con mejor esfuerzo mediante la automatización del navegador de OpenClaw enchrome-nodechrome.reuseExistingTab: true: activar una pestaña de Meet existente en lugar de abrir duplicadoschrome.waitForInCallMs: 20000: esperar a que la pestaña de Meet informe que está en llamada antes de que se active la introducción con respuesta habladachrome.audioFormat: "pcm16-24khz": formato de audio del par de comandos. Usa"g711-ulaw-8khz"solo para pares de comandos heredados/personalizados que aún emitan audio de telefonía.chrome.audioBufferBytes: 4096: búfer de procesamiento de SoX para comandos de audio de par de comandos de Chrome generados. Es la mitad del búfer predeterminado de 8192 bytes de SoX, lo que reduce la latencia predeterminada de la canalización y deja margen para aumentarlo en hosts ocupados. Los valores por debajo del mínimo de SoX se limitan a 17 bytes.chrome.audioInputCommand: comando de SoX que lee desde CoreAudioBlackHole 2chy escribe audio enchrome.audioFormatchrome.audioOutputCommand: comando de SoX que lee audio enchrome.audioFormaty escribe en CoreAudioBlackHole 2chchrome.bargeInInputCommand: comando de micrófono local opcional que escribe PCM mono little-endian de 16 bits con signo para detectar interrupciones humanas mientras la reproducción del asistente está activa. Actualmente esto se aplica al puente de par de comandoschromealojado en el Gateway.chrome.bargeInRmsThreshold: 650: nivel RMS que cuenta como interrupción humana enchrome.bargeInInputCommandchrome.bargeInPeakThreshold: 2500: nivel pico que cuenta como interrupción humana enchrome.bargeInInputCommandchrome.bargeInCooldownMs: 900: retardo mínimo entre limpiezas repetidas de interrupciones humanasmode: "agent": modo predeterminado de respuesta hablada. El habla de los participantes la transcribe el proveedor de transcripción en tiempo real configurado, se envía al agente de OpenClaw configurado en una sesión de subagente por reunión y se reproduce mediante el entorno de ejecución TTS normal de OpenClaw.mode: "bidi": modo de reserva directo de modelo en tiempo real bidireccional. El proveedor de voz en tiempo real responde directamente al habla de los participantes y puede llamar aopenclaw_agent_consultpara respuestas más profundas o respaldadas por herramientas.mode: "transcribe": modo de solo observación sin el puente de respuesta hablada.realtime.provider: "openai": reserva de compatibilidad usada cuando los campos de proveedor con ámbito siguientes no están establecidos.realtime.transcriptionProvider: "openai": id del proveedor usado por el modoagentpara transcripción en tiempo real.realtime.voiceProvider: id del proveedor usado por el modobidipara voz en tiempo real directa. Establécelo en"google"para usar Gemini Live y mantener la transcripción en modo agente en OpenAI.realtime.toolPolicy: "safe-read-only"realtime.instructions: respuestas habladas breves, conopenclaw_agent_consultpara respuestas más profundasrealtime.introMessage: breve comprobación hablada de disponibilidad cuando se conecta el puente en tiempo real; establécelo en""para unirse en silenciorealtime.agentId: id opcional de agente de OpenClaw paraopenclaw_agent_consult; el valor predeterminado esmain
Sobrescrituras opcionales:
{
defaults: {
meeting: "https://meet.google.com/abc-defg-hij",
},
browser: {
defaultProfile: "openclaw",
},
chrome: {
guestName: "OpenClaw Agent",
waitForInCallMs: 30000,
bargeInInputCommand: [
"sox",
"-q",
"-t",
"coreaudio",
"External Microphone",
"-r",
"24000",
"-c",
"1",
"-b",
"16",
"-e",
"signed-integer",
"-t",
"raw",
"-",
],
},
chromeNode: {
node: "parallels-macos",
},
defaultMode: "agent",
realtime: {
provider: "openai",
transcriptionProvider: "openai",
voiceProvider: "google",
model: "gemini-2.5-flash-native-audio-preview-12-2025",
agentId: "jay",
toolPolicy: "owner",
introMessage: "Say exactly: I'm here.",
providers: {
google: {
voice: "Kore",
},
},
},
}
ElevenLabs para escuchar y hablar en modo agente:
{
messages: {
tts: {
provider: "elevenlabs",
providers: {
elevenlabs: {
modelId: "eleven_v3",
voiceId: "pMsXgVXv3BLzUgSXRplE",
},
},
},
},
plugins: {
entries: {
"google-meet": {
config: {
realtime: {
transcriptionProvider: "elevenlabs",
providers: {
elevenlabs: {
modelId: "scribe_v2_realtime",
audioFormat: "ulaw_8000",
sampleRate: 8000,
commitStrategy: "vad",
},
},
},
},
},
},
},
}
La voz persistente de Meet proviene de
messages.tts.providers.elevenlabs.voiceId. Las respuestas del agente también pueden usar
directivas por respuesta [[tts:voiceId=... model=eleven_v3]] cuando las
sobrescrituras del modelo TTS están habilitadas, pero la configuración es el valor predeterminado determinista para reuniones.
Al unirse, los registros deberían mostrar transcriptionProvider=elevenlabs y cada
respuesta hablada debería registrar provider=elevenlabs model=eleven_v3 voice=<voiceId>.
Configuración solo para Twilio:
{
defaultTransport: "twilio",
twilio: {
defaultDialInNumber: "+15551234567",
defaultPin: "123456",
},
voiceCall: {
gatewayUrl: "ws://127.0.0.1:18789",
},
}
voiceCall.enabled tiene el valor predeterminado true; con el transporte Twilio delega la
llamada PSTN real, DTMF y el saludo introductorio al Plugin Voice Call. Voice Call
reproduce la secuencia DTMF antes de abrir el flujo multimedia en tiempo real, y luego usa el
texto introductorio guardado como saludo inicial en tiempo real. Si voice-call no está
habilitado, Google Meet aún puede validar y registrar el plan de marcado, pero no puede
realizar la llamada de Twilio.
Herramienta
Los agentes pueden usar la herramienta google_meet:
{
"action": "join",
"url": "https://meet.google.com/abc-defg-hij",
"transport": "chrome-node",
"mode": "agent"
}
Usa transport: "chrome" cuando Chrome se ejecute en el host del Gateway. Usa
transport: "chrome-node" cuando Chrome se ejecute en un Node emparejado, como una VM de Parallels.
En ambos casos, los proveedores de modelos y openclaw_agent_consult se ejecutan en el
host del Gateway, por lo que las credenciales del modelo permanecen allí. Con el valor predeterminado mode: "agent",
el proveedor de transcripción en tiempo real gestiona la escucha, el agente de OpenClaw
configurado produce la respuesta, y el TTS normal de OpenClaw la reproduce en Meet. Usa
mode: "bidi" cuando quieras que el modelo de voz en tiempo real responda directamente.
El valor sin procesar mode: "realtime" sigue aceptándose como alias heredado de compatibilidad para
mode: "agent", pero ya no se anuncia en el esquema de herramientas del agente.
Los registros del modo agente incluyen el proveedor/modelo de transcripción resuelto al iniciar el bridge
y el proveedor de TTS, modelo, voz, formato de salida y frecuencia de muestreo después de
cada respuesta sintetizada.
Usa action: "status" para listar sesiones activas o inspeccionar un ID de sesión. Usa
action: "speak" con sessionId y message para hacer que el agente en tiempo real
hable de inmediato. Usa action: "test_speech" para crear o reutilizar la sesión,
activar una frase conocida y devolver el estado inCall cuando el host de Chrome pueda
informarlo. test_speech siempre fuerza mode: "agent" y falla si se le pide
ejecutarse en mode: "transcribe" porque las sesiones solo de observación intencionalmente no pueden
emitir voz. Su resultado speechOutputVerified se basa en que los bytes de salida de audio en tiempo real
aumenten durante esta llamada de prueba, por lo que una sesión reutilizada con audio anterior
no cuenta como una comprobación de voz correcta y nueva. Usa action: "leave" para marcar
una sesión como finalizada.
status incluye el estado de Chrome cuando está disponible:
inCall: Chrome parece estar dentro de la llamada de MeetmicMuted: estado del micrófono de Meet según el mejor esfuerzomanualActionRequired/manualActionReason/manualActionMessage: el perfil del navegador necesita inicio de sesión manual, admisión del anfitrión de Meet, permisos o reparación del control del navegador antes de que la voz pueda funcionarspeechReady/speechBlockedReason/speechBlockedMessage: si la voz administrada de Chrome está permitida ahora.speechReady: falsesignifica que OpenClaw no envió la frase introductoria/de prueba al bridge de audio.providerConnected/realtimeReady: estado del bridge de voz en tiempo reallastInputAt/lastOutputAt: último audio visto desde el bridge o enviado a élaudioOutputRouted/audioOutputDeviceLabel: si la salida multimedia de la pestaña de Meet se enrutó activamente al dispositivo BlackHole usado por el bridgelastSuppressedInputAt/suppressedInputBytes: entrada de loopback ignorada mientras la reproducción del asistente está activa
{
"action": "speak",
"sessionId": "meet_...",
"message": "Say exactly: I'm here and listening."
}
Modos agent y bidi
El modo agent de Chrome está optimizado para el comportamiento "mi agente está en la reunión". El
proveedor de transcripción en tiempo real escucha el audio de la reunión, las transcripciones finales de los participantes
se enrutan a través del agente de OpenClaw configurado, y la respuesta se
reproduce mediante el runtime normal de TTS de OpenClaw. Establece mode: "bidi" cuando quieras
que el modelo de voz en tiempo real responda directamente.
Los fragmentos cercanos de transcripción final se fusionan antes de la consulta para que un turno
hablado no produzca varias respuestas parciales obsoletas. La entrada en tiempo real también se
suprime mientras el audio en cola del asistente sigue reproduciéndose,
y los ecos recientes de transcripciones similares al asistente se ignoran antes de la consulta del agente
para que el loopback de BlackHole no haga que el agente responda a su propia voz.
| Modo | Quién decide la respuesta | Ruta de salida de voz | Cuándo usarlo |
|---|---|---|---|
agent |
El agente de OpenClaw configurado | Runtime normal de TTS de OpenClaw | Quieres el comportamiento "mi agente está en la reunión" |
bidi |
El modelo de voz en tiempo real | Respuesta de audio del proveedor de voz en tiempo real | Quieres el bucle de voz conversacional de menor latencia |
En modo bidi, cuando el modelo en tiempo real necesita razonamiento más profundo, información
actual o herramientas normales de OpenClaw, puede llamar a openclaw_agent_consult.
La herramienta consult ejecuta el agente OpenClaw normal en segundo plano con el contexto reciente de la transcripción de la reunión y devuelve una respuesta hablada concisa. En modo agent, OpenClaw envía esa respuesta directamente al runtime TTS; en modo bidi, el modelo de voz en tiempo real puede decir el resultado de consult de vuelta en la reunión. Usa la misma maquinaria compartida de consult que Voice Call.
De forma predeterminada, las consultas se ejecutan contra el agente main. Configura realtime.agentId cuando un carril de Meet deba consultar un espacio de trabajo de agente OpenClaw dedicado, valores predeterminados de modelo, política de herramientas, memoria e historial de sesión.
Las consultas en modo agente usan una clave de sesión por reunión agent:<id>:subagent:google-meet:<session> para que las preguntas de seguimiento conserven el contexto de la reunión mientras heredan la política normal del agente desde el agente configurado.
realtime.toolPolicy controla la ejecución de consult:
safe-read-only: expone la herramienta consult y limita el agente normal aread,web_search,web_fetch,x_search,memory_searchymemory_get.owner: expone la herramienta consult y permite que el agente normal use la política normal de herramientas del agente.none: no expone la herramienta consult al modelo de voz en tiempo real.
La clave de sesión de consult está acotada por sesión de Meet, por lo que las llamadas de consult de seguimiento pueden reutilizar el contexto anterior de consult durante la misma reunión.
Para forzar una comprobación de preparación hablada después de que Chrome se haya unido por completo a la llamada:
openclaw googlemeet speak meet_... "Say exactly: I'm here and listening."
Para el smoke completo de unirse y hablar:
openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \
--transport chrome-node \
--message "Say exactly: I'm here and listening."
Lista de comprobación de prueba en vivo
Usa esta secuencia antes de entregar una reunión a un agente desatendido:
openclaw googlemeet setup
openclaw nodes status
openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \
--transport chrome-node \
--message "Say exactly: Google Meet speech test complete."
Estado esperado de Chrome-node:
googlemeet setupestá todo en verde.googlemeet setupincluyechrome-node-connectedcuando Chrome-node es el transporte predeterminado o un nodo está fijado.nodes statusmuestra el nodo seleccionado conectado.- El nodo seleccionado anuncia tanto
googlemeet.chromecomobrowser.proxy. - La pestaña de Meet se une a la llamada y
test-speechdevuelve el estado de Chrome coninCall: true.
Para un host remoto de Chrome, como una VM macOS de Parallels, esta es la comprobación segura más corta después de actualizar el Gateway o la VM:
openclaw googlemeet setup
openclaw nodes status --connected
openclaw nodes invoke \
--node parallels-macos \
--command googlemeet.chrome \
--params '{"action":"setup"}'
Eso demuestra que el Plugin de Gateway está cargado, que el nodo de la VM está conectado con el token actual y que el puente de audio de Meet está disponible antes de que un agente abra una pestaña de reunión real.
Para un smoke de Twilio, usa una reunión que exponga detalles de marcado telefónico:
openclaw googlemeet setup
openclaw googlemeet join https://meet.google.com/abc-defg-hij \
--transport twilio \
--dial-in-number +15551234567 \
--pin 123456
Estado esperado de Twilio:
googlemeet setupincluye comprobaciones verdes detwilio-voice-call-plugin,twilio-voice-call-credentialsytwilio-voice-call-webhook.voicecallestá disponible en la CLI después de recargar el Gateway.- La sesión devuelta tiene
transport: "twilio"y untwilio.voiceCallId. openclaw logs --followmuestra TwiML DTMF servido antes de TwiML en tiempo real, y luego un puente en tiempo real con el saludo inicial en cola.googlemeet leave <sessionId>cuelga la llamada de voz delegada.
Solución de problemas
El agente no puede ver la herramienta de Google Meet
Confirma que el Plugin está habilitado en la configuración del Gateway y recarga el Gateway:
openclaw plugins list | grep google-meet
openclaw googlemeet setup
Si acabas de editar plugins.entries.google-meet, reinicia o recarga el Gateway. El agente en ejecución solo ve las herramientas de Plugin registradas por el proceso actual del Gateway.
En hosts de Gateway que no son macOS, la herramienta google_meet orientada al agente permanece visible, pero las acciones locales de respuesta hablada de Chrome se bloquean antes de llegar al puente de audio. El audio local de respuesta hablada de Chrome actualmente depende de BlackHole 2ch de macOS, por lo que los agentes de Linux deben usar mode: "transcribe", marcado de Twilio o un host chrome-node de macOS en lugar de la ruta predeterminada de agente local de Chrome.
No hay ningún nodo compatible con Google Meet conectado
En el host del nodo, ejecuta:
openclaw plugins enable google-meet
openclaw plugins enable browser
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
openclaw node run --host <gateway-lan-ip> --port 18789 --display-name parallels-macos
En el host del Gateway, aprueba el nodo y verifica los comandos:
openclaw devices list
openclaw devices approve <requestId>
openclaw nodes status
El nodo debe estar conectado y listar googlemeet.chrome además de browser.proxy. La configuración del Gateway debe permitir esos comandos de nodo:
{
gateway: {
nodes: {
allowCommands: ["browser.proxy", "googlemeet.chrome"],
},
},
}
Si googlemeet setup falla en chrome-node-connected o el registro del Gateway informa gateway token mismatch, reinstala o reinicia el nodo con el token actual del Gateway. Para un Gateway LAN, esto normalmente significa:
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
openclaw node install \
--host <gateway-lan-ip> \
--port 18789 \
--display-name parallels-macos \
--force
Luego recarga el servicio del nodo y vuelve a ejecutar:
openclaw googlemeet setup
openclaw nodes status --connected
El navegador se abre pero el agente no puede unirse
Ejecuta googlemeet test-listen para uniones solo de observación o googlemeet test-speech para uniones en tiempo real, y luego inspecciona el estado de Chrome devuelto. Si cualquiera de las pruebas informa manualActionRequired: true, muestra manualActionMessage al operador y deja de reintentar hasta que la acción del navegador esté completa.
Acciones manuales comunes:
- Iniciar sesión en el perfil de Chrome.
- Admitir al invitado desde la cuenta anfitriona de Meet.
- Conceder permisos de micrófono/cámara a Chrome cuando aparezca el aviso nativo de permisos de Chrome.
- Cerrar o reparar un diálogo de permisos de Meet atascado.
No informes "not signed in" solo porque Meet muestra "Do you want people to hear you in the meeting?". Ese es el intersticial de elección de audio de Meet; OpenClaw hace clic en Use microphone mediante automatización del navegador cuando está disponible y sigue esperando el estado real de la reunión. Para el fallback de navegador solo de creación, OpenClaw puede hacer clic en Continue without microphone porque crear la URL no necesita la ruta de audio en tiempo real.
La creación de la reunión falla
googlemeet create primero usa el endpoint spaces.create de la API de Google Meet cuando las credenciales OAuth están configuradas. Sin credenciales OAuth, vuelve al navegador del nodo Chrome fijado. Confirma:
- Para creación por API:
oauth.clientIdyoauth.refreshTokenestán configurados, o existen variables de entornoOPENCLAW_GOOGLE_MEET_*coincidentes. - Para creación por API: el token de actualización se emitió después de que se agregara el soporte de creación. A los tokens más antiguos puede faltarles el scope
meetings.space.created; vuelve a ejecutaropenclaw googlemeet auth login --jsony actualiza la configuración del Plugin. - Para fallback de navegador:
defaultTransport: "chrome-node"ychromeNode.nodeapuntan a un nodo conectado conbrowser.proxyygooglemeet.chrome. - Para fallback de navegador: el perfil de Chrome de OpenClaw en ese nodo ha iniciado sesión en Google y puede abrir
https://meet.google.com/new. - Para fallback de navegador: los reintentos reutilizan una pestaña existente de
https://meet.google.com/newo de solicitud de cuenta de Google antes de abrir una pestaña nueva. Si un agente agota el tiempo de espera, reintenta la llamada de la herramienta en lugar de abrir manualmente otra pestaña de Meet. - Para fallback de navegador: si la herramienta devuelve
manualActionRequired: true, usa los valores devueltosbrowser.nodeId,browser.targetId,browserUrlymanualActionMessagepara guiar al operador. No reintentes en bucle hasta que esa acción esté completa. - Para fallback de navegador: si Meet muestra "Do you want people to hear you in the meeting?", deja la pestaña abierta. OpenClaw debería hacer clic en Use microphone o, para el fallback solo de creación, Continue without microphone mediante automatización del navegador y seguir esperando la URL de Meet generada. Si no puede, el error debería mencionar
meet-audio-choice-required, nogoogle-login-required.
El agente se une pero no habla
Comprueba la ruta en tiempo real:
openclaw googlemeet setup
openclaw googlemeet doctor
Usa mode: "agent" para la ruta normal STT -> agente OpenClaw -> respuesta hablada TTS, o mode: "bidi" para el fallback directo de voz en tiempo real. mode: "transcribe" intencionalmente no inicia el puente de respuesta hablada. Para depuración solo de observación, ejecuta openclaw googlemeet status --json <session-id> después de que hablen participantes y comprueba captioning, transcriptLines y lastCaptionText. Si inCall es true pero transcriptLines se mantiene en 0, puede que los subtítulos de Meet estén deshabilitados, que nadie haya hablado desde que se instaló el observador, que haya cambiado la interfaz de Meet o que los subtítulos en vivo no estén disponibles para el idioma o la cuenta de la reunión.
googlemeet test-speech siempre comprueba la ruta en tiempo real e informa si se observaron bytes de salida del puente para esa invocación. Si speechOutputVerified es false y speechOutputTimedOut es true, el proveedor en tiempo real puede haber aceptado la emisión, pero OpenClaw no vio que nuevos bytes de salida llegaran al puente de audio de Chrome.
Verifica también:
- Hay una clave de proveedor en tiempo real disponible en el host del Gateway, como
OPENAI_API_KEYoGEMINI_API_KEY. BlackHole 2ches visible en el host de Chrome.soxexiste en el host de Chrome.- El micrófono y el altavoz de Meet están enrutados a través de la ruta de audio virtual usada por OpenClaw.
doctordebería mostrarmeet output routed: yespara uniones en tiempo real con Chrome local.
googlemeet doctor [session-id] imprime la sesión, el nodo, el estado dentro de la llamada, el motivo de acción manual, la conexión del proveedor en tiempo real, realtimeReady, la actividad de entrada/salida de audio, las últimas marcas de tiempo de audio, contadores de bytes y la URL del navegador. Usa googlemeet status [session-id] --json cuando necesites el JSON sin procesar. Usa googlemeet doctor --oauth cuando necesites verificar la actualización OAuth de Google Meet sin exponer tokens; agrega --meeting o --create-space cuando también necesites una prueba de la API de Google Meet.
Si un agente agotó el tiempo de espera y puedes ver una pestaña de Meet ya abierta, inspecciona esa pestaña sin abrir otra:
openclaw googlemeet recover-tab
openclaw googlemeet recover-tab https://meet.google.com/abc-defg-hij
La acción de herramienta equivalente es recover_current_tab. Enfoca e inspecciona una pestaña de Meet existente para el transporte seleccionado. Con chrome, usa control de navegador local a través del Gateway; con chrome-node, usa el nodo Chrome configurado. No abre una pestaña nueva ni crea una sesión nueva; informa el bloqueo actual, como inicio de sesión, admisión, permisos o estado de elección de audio. El comando CLI habla con el Gateway configurado, por lo que el Gateway debe estar ejecutándose; chrome-node también requiere que el nodo Chrome esté conectado.
Fallan las comprobaciones de configuración de Twilio
twilio-voice-call-plugin falla cuando voice-call no está permitido o no está habilitado. Agrégalo a plugins.allow, habilita plugins.entries.voice-call y recarga el Gateway.
twilio-voice-call-credentials falla cuando al backend de Twilio le falta el SID de cuenta, el token de autenticación o el número llamante. Configúralos en el host del Gateway:
export TWILIO_ACCOUNT_SID=AC...
export TWILIO_AUTH_TOKEN=...
export TWILIO_FROM_NUMBER=+15550001234
twilio-voice-call-webhook falla cuando voice-call no tiene exposición pública de Webhook, o cuando publicUrl apunta a loopback o a espacio de red privada. Configura plugins.entries.voice-call.config.publicUrl con la URL pública del proveedor o configura una exposición de túnel/Tailscale para voice-call.
Las URL de loopback y privadas no son válidas para callbacks de operadores. No uses localhost, 127.0.0.1, 0.0.0.0, 10.x, 172.16.x-172.31.x, 192.168.x, 169.254.x, fc00::/7 ni fd00::/8 como publicUrl.
Para una URL pública estable:
{
plugins: {
entries: {
"voice-call": {
enabled: true,
config: {
provider: "twilio",
fromNumber: "+15550001234",
publicUrl: "https://voice.example.com/voice/webhook",
},
},
},
},
}
Para el desarrollo local, usa un túnel o una exposición de Tailscale en lugar de una URL de host privada:
{
plugins: {
entries: {
"voice-call": {
config: {
tunnel: { provider: "ngrok" },
// or
tailscale: { mode: "funnel", path: "/voice/webhook" },
},
},
},
},
}
Luego reinicia o recarga el Gateway y ejecuta:
openclaw googlemeet setup --transport twilio
openclaw voicecall setup
openclaw voicecall smoke
voicecall smoke solo comprueba la preparación de forma predeterminada. Para hacer un ensayo sin cambios con un número específico:
openclaw voicecall smoke --to "+15555550123"
Añade --yes solo cuando quieras realizar intencionadamente una llamada de notificación
saliente real:
openclaw voicecall smoke --to "+15555550123" --yes
La llamada de Twilio se inicia pero nunca entra en la reunión
Confirma que el evento de Meet expone los detalles de marcación telefónica. Pasa el número de marcación exacto y el PIN, o una secuencia DTMF personalizada:
openclaw googlemeet join https://meet.google.com/abc-defg-hij \
--transport twilio \
--dial-in-number +15551234567 \
--dtmf-sequence ww123456#
Usa w iniciales o comas en --dtmf-sequence si el proveedor necesita una pausa
antes de introducir el PIN.
Si la llamada telefónica se crea pero la lista de participantes de Meet nunca muestra al participante por marcación:
- Ejecuta
openclaw googlemeet doctor <session-id>para confirmar el ID de llamada de Twilio delegada, si DTMF se puso en cola y si se solicitó el saludo inicial. - Ejecuta
openclaw voicecall status --call-id <id>y confirma que la llamada sigue activa. - Ejecuta
openclaw voicecall taily comprueba que los webhooks de Twilio están llegando al Gateway. - Ejecuta
openclaw logs --followy busca la secuencia de Meet de Twilio: Google Meet delega la entrada, Voice Call almacena y sirve TwiML DTMF previo a la conexión, Voice Call sirve TwiML en tiempo real para la llamada de Twilio, y luego Google Meet solicita la locución inicial convoicecall.speak. - Vuelve a ejecutar
openclaw googlemeet setup --transport twilio; se requiere una comprobación de configuración verde, pero no demuestra que la secuencia del PIN de la reunión sea correcta. - Confirma que el número de marcación pertenece a la misma invitación de Meet y región que el PIN.
- Aumenta
voiceCall.dtmfDelayMsdesde el valor predeterminado de 12 segundos si Meet responde lentamente o la transcripción de la llamada sigue mostrando la indicación que pide un PIN después de enviar el DTMF previo a la conexión. - Si el participante entra pero no oyes el saludo, revisa
openclaw logs --followpara ver la solicitudvoicecall.speakposterior a DTMF y la reproducción TTS por flujo multimedia o el respaldoOPENCLAW_DOCS_MARKER:calloutOpen:U2F5de Twilio. Si la transcripción de la llamada aún contiene "enter the meeting PIN", el tramo telefónico todavía no ha entrado en la sala de Meet, por lo que los participantes de la reunión no oirán la voz.
Si los webhooks no llegan, depura primero el Plugin Voice Call: el proveedor debe
alcanzar plugins.entries.voice-call.config.publicUrl o el túnel configurado.
Consulta Solución de problemas de llamadas de voz.
Notas
La API multimedia oficial de Google Meet está orientada a la recepción, por lo que hablar en una llamada de Meet todavía necesita una ruta de participante. Este Plugin mantiene visible ese límite: Chrome gestiona la participación del navegador y el enrutamiento de audio local; Twilio gestiona la participación por marcación telefónica.
Los modos de respuesta de Chrome necesitan BlackHole 2ch más una de estas opciones:
chrome.audioInputCommandmáschrome.audioOutputCommand: OpenClaw controla el puente y canaliza el audio enchrome.audioFormatentre esos comandos y el proveedor seleccionado. El modo agente usa transcripción en tiempo real más TTS normal; el modo bidi usa el proveedor de voz en tiempo real. La ruta predeterminada de Chrome es PCM16 de 24 kHz conchrome.audioBufferBytes: 4096; G.711 mu-law de 8 kHz sigue disponible para pares de comandos heredados.chrome.audioBridgeCommand: un comando de puente externo controla toda la ruta de audio local y debe salir después de iniciar o validar su demonio. Esto solo es válido parabidiporque el modoagentnecesita acceso directo al par de comandos para TTS.
Cuando un agente llama a la herramienta google_meet en modo agente, la sesión de consultor
de la reunión bifurca la transcripción actual del llamador antes de responder al habla de los participantes.
La sesión de Meet sigue separada (agent:<agentId>:subagent:google-meet:<sessionId>)
para que los seguimientos de la reunión no muten directamente la transcripción del llamador.
Para obtener audio dúplex limpio, enruta la salida de Meet y el micrófono de Meet a través de dispositivos virtuales separados o un grafo de dispositivos virtuales estilo Loopback. Un único dispositivo BlackHole compartido puede devolver el eco de otros participantes a la llamada.
Con el puente de Chrome por par de comandos, chrome.bargeInInputCommand puede escuchar un
micrófono local separado y borrar la reproducción del asistente cuando la persona empieza a
hablar. Esto mantiene el habla humana por delante de la salida del asistente incluso cuando la entrada de
local loopback compartida de BlackHole se suprime temporalmente durante la reproducción del asistente.
Al igual que chrome.audioInputCommand y chrome.audioOutputCommand, es un
comando local configurado por el operador. Usa una ruta de comando o lista de
argumentos de confianza explícita, y no lo apuntes a scripts de ubicaciones no confiables.
googlemeet speak activa el puente de audio de respuesta activo para una sesión de Chrome.
googlemeet leave detiene ese puente. Para sesiones de Twilio delegadas
mediante el Plugin Voice Call, leave también cuelga la llamada de voz subyacente.
Usa googlemeet end-active-conference cuando también quieras cerrar la conferencia
activa de Google Meet para un espacio gestionado por API.