Tools

Resumen de medios

OpenClaw genera imágenes, videos y música, entiende medios entrantes (imágenes, audio, video) y pronuncia las respuestas en voz alta con texto a voz. Todas las capacidades de medios son impulsadas por herramientas: el agente decide cuándo usarlas según la conversación, y cada herramienta solo aparece cuando está configurado al menos un proveedor de respaldo.

La voz en directo usa el contrato de sesión Talk en lugar de la ruta de la herramienta de medios de una sola ejecución. Talk tiene tres modos: realtime nativo del proveedor, stt-tts local o en streaming, y transcription para captura de voz solo de observación. Esos modos comparten catálogos de proveedores, envoltorios de eventos y semántica de cancelación con telefonía, reuniones, tiempo real del navegador y clientes nativos de pulsar para hablar.

Capacidades

Matriz de capacidades de proveedores

Proveedor Imagen Video Música TTS STT Voz en tiempo real Comprensión de medios
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

Asíncrono vs. sincrónico

Capacidad Modo Por qué
Imagen Sincrónico Las respuestas del proveedor vuelven en segundos; se completa en línea con la respuesta.
Texto a voz Sincrónico Las respuestas del proveedor vuelven en segundos; se adjuntan al audio de la respuesta.
Video Asíncrono El procesamiento del proveedor tarda 30 s a varios minutos; las colas lentas pueden ejecutarse hasta el tiempo de espera configurado.
Música (compartida) Asíncrono La misma característica de procesamiento del proveedor que el video.
Música (ComfyUI) Sincrónico El flujo de trabajo local se ejecuta en línea contra el servidor ComfyUI configurado.

Para herramientas asíncronas, OpenClaw envía la solicitud al proveedor, devuelve un id de tarea de inmediato y hace seguimiento del trabajo en el registro de tareas. El agente continúa respondiendo a otros mensajes mientras el trabajo se ejecuta. Cuando el proveedor termina, OpenClaw despierta al agente con las rutas de los medios generados para que pueda informar al usuario y, cuando lo exija la política de entrega de origen, retransmitir el resultado mediante la herramienta de mensajes. Para rutas de grupos/canales solo con herramienta de mensajes, OpenClaw trata la falta de evidencia de entrega de la herramienta de mensajes como un intento de finalización fallido y envía el respaldo de medios generado directamente al canal original.

Voz a texto y Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio y xAI pueden transcribir audio entrante mediante la ruta por lotes tools.media.audio cuando están configurados. Los plugins de canal que hacen una comprobación previa de una nota de voz para compuertas de mención o análisis de comandos marcan el adjunto transcrito en el contexto entrante, de modo que la pasada compartida de comprensión de medios reutiliza esa transcripción en lugar de hacer una segunda llamada STT para el mismo audio.

Deepgram, ElevenLabs, Mistral, OpenAI y xAI también registran proveedores de STT en streaming de Voice Call, por lo que el audio telefónico en directo puede reenviarse al proveedor seleccionado sin esperar una grabación completa.

Para conversaciones de usuario en directo, prefiere el modo Talk. Los adjuntos de audio por lotes permanecen en la ruta de medios; el tiempo real del navegador, pulsar para hablar nativo, telefonía y audio de reuniones deben usar eventos de Talk y los catálogos con alcance de sesión devueltos por el Gateway.

Asignaciones de proveedores (cómo se dividen los proveedores entre superficies)

Google

Superficies de imagen, video, música, TTS por lotes, voz en tiempo real de backend y comprensión de medios.

OpenAI

Superficies de imagen, video, TTS por lotes, STT por lotes, STT en streaming de Voice Call, voz en tiempo real de backend e incrustaciones de memoria.

DeepInfra

Enrutamiento de chat/modelos, generación/edición de imágenes, texto a video, TTS por lotes, STT por lotes, comprensión de medios de imagen y superficies de incrustaciones de memoria. Los modelos nativos de DeepInfra de reranking/clasificación/detección de objetos no se registran hasta que OpenClaw tenga contratos de proveedor dedicados para esas categorías.

xAI

Imagen, video, búsqueda, ejecución de código, TTS por lotes, STT por lotes y STT en streaming de Voice Call. La voz en tiempo real de xAI es una capacidad upstream, pero no está registrada en OpenClaw hasta que el contrato compartido de voz en tiempo real pueda representarla.

Relacionado

Was this useful?