Tools

Огляд медіа

OpenClaw генерує зображення, відео та музику, розуміє вхідні медіа (зображення, аудіо, відео) і озвучує відповіді за допомогою перетворення тексту на мовлення. Усі медіаможливості керуються інструментами: агент вирішує, коли їх використовувати, на основі розмови, а кожен інструмент з'являється лише тоді, коли налаштовано принаймні одного підтримувального провайдера.

Живе мовлення використовує контракт сеансу Talk замість шляху одноразового медіаінструмента. Talk має три режими: нативний для провайдера realtime, локальний або потоковий stt-tts і transcription для захоплення мовлення лише для спостереження. Ці режими спільно використовують каталоги провайдерів, конверти подій і семантику скасування з телефонією, зустрічами, браузерним реальним часом і нативними клієнтами push-to-talk.

Можливості

Генерація зображень

Створюйте й редагуйте зображення з текстових підказок або еталонних зображень через image_generate. Синхронно — завершується безпосередньо у відповіді.

Генерація відео

Текст-у-відео, зображення-у-відео та відео-у-відео через video_generate. Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.

Генерація музики

Генеруйте музику або аудіодоріжки через music_generate. Асинхронно на спільних провайдерах; шлях робочого процесу ComfyUI виконується синхронно.

Перетворення тексту на мовлення

Перетворюйте вихідні відповіді на озвучене аудіо через інструмент tts плюс конфігурацію messages.tts. Синхронно.

Розуміння медіа

Підсумовуйте вхідні зображення, аудіо та відео за допомогою модельних провайдерів із підтримкою зору та спеціалізованих plugins для розуміння медіа.

Перетворення мовлення на текст

Транскрибуйте вхідні голосові повідомлення через пакетне STT або провайдерів потокового STT для голосових викликів.

Матриця можливостей провайдерів

Провайдер	Зображення	Відео	Музика	TTS	STT	Голос у реальному часі	Розуміння медіа
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Асинхронно чи синхронно

Можливість	Режим	Чому
Зображення	Синхронний	Відповіді провайдера повертаються за секунди; завершується безпосередньо у відповіді.
Текст-у-мовлення	Синхронний	Відповіді провайдера повертаються за секунди; додаються до аудіо відповіді.
Відео	Асинхронний	Обробка провайдером триває від 30 с до кількох хвилин; повільні черги можуть працювати до налаштованого тайм-ауту.
Музика (спільна)	Асинхронний	Та сама характеристика обробки провайдером, що й для відео.
Музика (ComfyUI)	Синхронний	Локальний робочий процес виконується безпосередньо на налаштованому сервері ComfyUI.

Для асинхронних інструментів OpenClaw надсилає запит провайдеру, негайно повертає id завдання й відстежує роботу в реєстрі завдань. Агент продовжує відповідати на інші повідомлення, поки виконується завдання. Коли провайдер завершує роботу, OpenClaw пробуджує агента зі шляхами до згенерованих медіа, щоб він міг повідомити користувача і, коли цього вимагає політика доставки джерела, передати результат через інструмент повідомлень. Для групових/канальних маршрутів лише через інструмент повідомлень OpenClaw вважає відсутність доказу доставки інструментом повідомлень невдалою спробою завершення й надсилає згенеровані медіа як резервний варіант безпосередньо до початкового каналу.

Перетворення мовлення на текст і голосові виклики

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio та xAI можуть транскрибувати вхідне аудіо через пакетний шлях tools.media.audio, коли їх налаштовано. Channel plugins, які попередньо перевіряють голосову нотатку для пропускання за згадкою або розбору команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний прохід розуміння медіа повторно використовує цей транскрипт замість другого виклику STT для того самого аудіо.

Deepgram, ElevenLabs, Mistral, OpenAI та xAI також реєструють провайдерів потокового STT для голосових викликів, тож живе телефонне аудіо можна пересилати вибраному постачальнику без очікування завершеного запису.

Для живих розмов із користувачами надавайте перевагу режиму Talk. Пакетні аудіо вкладення залишаються на медійному шляху; браузерний реальний час, нативний push-to-talk, телефонія та аудіо зустрічей мають використовувати події Talk і каталоги в межах сеансу, повернуті Gateway.

Зіставлення провайдерів (як постачальники розподіляються між поверхнями)

Google

Поверхні зображень, відео, музики, пакетного TTS, бекендового голосу в реальному часі та розуміння медіа.

OpenAI

Поверхні зображень, відео, пакетного TTS, пакетного STT, потокового STT для голосових викликів, бекендового голосу в реальному часі та вбудовувань пам'яті.

DeepInfra

Поверхні маршрутизації чату/моделей, генерації/редагування зображень, тексту-у-відео, пакетного TTS, пакетного STT, розуміння медіазображень і вбудовувань пам'яті. Нативні для DeepInfra моделі переранжування/класифікації/виявлення об'єктів не реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих категорій.

xAI

Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для голосових викликів. Голос xAI Realtime є upstream-можливістю, але він не реєструється в OpenClaw, доки спільний контракт голосу в реальному часі не зможе його представити.

Пов'язане

Was this useful?