---
read_when:
    - Шукаєте огляд медіаможливостей OpenClaw
    - Вибір медіапровайдера для налаштування
    - Розуміння того, як працює асинхронна генерація медіа
sidebarTitle: Media overview
summary: Короткий огляд можливостей роботи із зображеннями, відео, музикою, мовленням і розумінням медіа
title: Огляд медіа
x-i18n:
    generated_at: "2026-05-12T08:46:32Z"
    model: gpt-5.5
    provider: openai
    source_hash: a7ca89d058467968ee140cb3318fe8a1fb96d09fe7c59982efce36eb9b714591
    source_path: tools/media-overview.md
    workflow: 16
---

OpenClaw генерує зображення, відео та музику, розуміє вхідні медіа
(зображення, аудіо, відео) і озвучує відповіді за допомогою перетворення тексту на мовлення. Усі
медіаможливості керуються інструментами: агент вирішує, коли їх використовувати, на основі
розмови, а кожен інструмент з'являється лише тоді, коли налаштовано принаймні одного
підтримувального провайдера.

Живе мовлення використовує контракт сеансу Talk замість шляху одноразового медіаінструмента.
Talk має три режими: нативний для провайдера `realtime`, локальний або потоковий
`stt-tts` і `transcription` для захоплення мовлення лише для спостереження. Ці режими
спільно використовують каталоги провайдерів, конверти подій і семантику скасування з
телефонією, зустрічами, браузерним реальним часом і нативними клієнтами push-to-talk.

## Можливості

<CardGroup cols={2}>
  <Card title="Генерація зображень" href="/uk/tools/image-generation" icon="image">
    Створюйте й редагуйте зображення з текстових підказок або еталонних зображень через
    `image_generate`. Синхронно — завершується безпосередньо у відповіді.
  </Card>
  <Card title="Генерація відео" href="/uk/tools/video-generation" icon="video">
    Текст-у-відео, зображення-у-відео та відео-у-відео через `video_generate`.
    Асинхронно — виконується у фоновому режимі й публікує результат, коли він готовий.
  </Card>
  <Card title="Генерація музики" href="/uk/tools/music-generation" icon="music">
    Генеруйте музику або аудіодоріжки через `music_generate`. Асинхронно на спільних
    провайдерах; шлях робочого процесу ComfyUI виконується синхронно.
  </Card>
  <Card title="Перетворення тексту на мовлення" href="/uk/tools/tts" icon="microphone">
    Перетворюйте вихідні відповіді на озвучене аудіо через інструмент `tts` плюс
    конфігурацію `messages.tts`. Синхронно.
  </Card>
  <Card title="Розуміння медіа" href="/uk/nodes/media-understanding" icon="eye">
    Підсумовуйте вхідні зображення, аудіо та відео за допомогою модельних
    провайдерів із підтримкою зору та спеціалізованих plugins для розуміння медіа.
  </Card>
  <Card title="Перетворення мовлення на текст" href="/uk/nodes/audio" icon="ear-listen">
    Транскрибуйте вхідні голосові повідомлення через пакетне STT або провайдерів
    потокового STT для голосових викликів.
  </Card>
</CardGroup>

## Матриця можливостей провайдерів

| Провайдер   | Зображення | Відео | Музика | TTS | STT | Голос у реальному часі | Розуміння медіа |
| ----------- | :--------: | :---: | :----: | :-: | :-: | :--------------------: | :-------------: |
| Alibaba     |            |   ✓   |        |     |     |                        |                 |
| BytePlus    |            |   ✓   |        |     |     |                        |                 |
| ComfyUI     |     ✓      |   ✓   |   ✓    |     |     |                        |                 |
| DeepInfra   |     ✓      |   ✓   |        |  ✓  |  ✓  |                        |        ✓        |
| Deepgram    |            |       |        |     |  ✓  |           ✓            |                 |
| ElevenLabs  |            |       |        |  ✓  |  ✓  |                        |                 |
| fal         |     ✓      |   ✓   |        |     |     |                        |                 |
| Google      |     ✓      |   ✓   |   ✓    |  ✓  |     |           ✓            |        ✓        |
| Gradium     |            |       |        |  ✓  |     |                        |                 |
| Local CLI   |            |       |        |  ✓  |     |                        |                 |
| Microsoft   |            |       |        |  ✓  |     |                        |                 |
| MiniMax     |     ✓      |   ✓   |   ✓    |  ✓  |     |                        |                 |
| Mistral     |            |       |        |     |  ✓  |                        |                 |
| OpenAI      |     ✓      |   ✓   |        |  ✓  |  ✓  |           ✓            |        ✓        |
| OpenRouter  |     ✓      |   ✓   |        |  ✓  |  ✓  |                        |        ✓        |
| Qwen        |            |   ✓   |        |     |     |                        |                 |
| Runway      |            |   ✓   |        |     |     |                        |                 |
| SenseAudio  |            |       |        |     |  ✓  |                        |                 |
| Together    |            |   ✓   |        |     |     |                        |                 |
| Vydra       |     ✓      |   ✓   |        |  ✓  |     |                        |                 |
| xAI         |     ✓      |   ✓   |        |  ✓  |  ✓  |                        |        ✓        |
| Xiaomi MiMo |     ✓      |       |        |  ✓  |     |                        |        ✓        |

<Note>
Розуміння медіа використовує будь-яку зареєстровану у вашій конфігурації провайдера
модель із підтримкою зору або аудіо. Наведена вище матриця перелічує провайдерів зі спеціалізованою
підтримкою розуміння медіа; більшість мультимодальних провайдерів LLM (Anthropic, Google,
OpenAI тощо) також можуть розуміти вхідні медіа, коли їх налаштовано як активну
модель відповіді.
</Note>

## Асинхронно чи синхронно

| Можливість       | Режим        | Чому                                                                                                 |
| ---------------- | ------------ | ---------------------------------------------------------------------------------------------------- |
| Зображення       | Синхронний   | Відповіді провайдера повертаються за секунди; завершується безпосередньо у відповіді.                |
| Текст-у-мовлення | Синхронний   | Відповіді провайдера повертаються за секунди; додаються до аудіо відповіді.                          |
| Відео            | Асинхронний  | Обробка провайдером триває від 30 с до кількох хвилин; повільні черги можуть працювати до налаштованого тайм-ауту. |
| Музика (спільна) | Асинхронний  | Та сама характеристика обробки провайдером, що й для відео.                                         |
| Музика (ComfyUI) | Синхронний   | Локальний робочий процес виконується безпосередньо на налаштованому сервері ComfyUI.                 |

Для асинхронних інструментів OpenClaw надсилає запит провайдеру, негайно повертає id
завдання й відстежує роботу в реєстрі завдань. Агент продовжує
відповідати на інші повідомлення, поки виконується завдання. Коли провайдер завершує роботу,
OpenClaw пробуджує агента зі шляхами до згенерованих медіа, щоб він міг повідомити
користувача і, коли цього вимагає політика доставки джерела, передати результат через
інструмент повідомлень. Для групових/канальних маршрутів лише через інструмент повідомлень OpenClaw вважає
відсутність доказу доставки інструментом повідомлень невдалою спробою завершення й надсилає
згенеровані медіа як резервний варіант безпосередньо до початкового каналу.

## Перетворення мовлення на текст і голосові виклики

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio та xAI можуть транскрибувати
вхідне аудіо через пакетний шлях `tools.media.audio`, коли їх налаштовано.
Channel plugins, які попередньо перевіряють голосову нотатку для пропускання за згадкою або розбору
команд, позначають транскрибоване вкладення у вхідному контексті, тож спільний
прохід розуміння медіа повторно використовує цей транскрипт замість другого
виклику STT для того самого аудіо.

Deepgram, ElevenLabs, Mistral, OpenAI та xAI також реєструють провайдерів
потокового STT для голосових викликів, тож живе телефонне аудіо можна пересилати вибраному
постачальнику без очікування завершеного запису.

Для живих розмов із користувачами надавайте перевагу [режиму Talk](/uk/nodes/talk). Пакетні аудіо
вкладення залишаються на медійному шляху; браузерний реальний час, нативний push-to-talk,
телефонія та аудіо зустрічей мають використовувати події Talk і каталоги в межах сеансу,
повернуті Gateway.

## Зіставлення провайдерів (як постачальники розподіляються між поверхнями)

<AccordionGroup>
  <Accordion title="Google">
    Поверхні зображень, відео, музики, пакетного TTS, бекендового голосу в реальному часі та
    розуміння медіа.
  </Accordion>
  <Accordion title="OpenAI">
    Поверхні зображень, відео, пакетного TTS, пакетного STT, потокового STT для голосових викликів, бекендового
    голосу в реальному часі та вбудовувань пам'яті.
  </Accordion>
  <Accordion title="DeepInfra">
    Поверхні маршрутизації чату/моделей, генерації/редагування зображень, тексту-у-відео, пакетного TTS,
    пакетного STT, розуміння медіазображень і вбудовувань пам'яті.
    Нативні для DeepInfra моделі переранжування/класифікації/виявлення об'єктів не
    реєструються, доки OpenClaw не матиме спеціалізованих контрактів провайдерів для цих
    категорій.
  </Accordion>
  <Accordion title="xAI">
    Зображення, відео, пошук, виконання коду, пакетний TTS, пакетний STT і потоковий STT для голосових
    викликів. Голос xAI Realtime є upstream-можливістю, але він
    не реєструється в OpenClaw, доки спільний контракт голосу в реальному часі не зможе
    його представити.
  </Accordion>
</AccordionGroup>

## Пов'язане

- [Генерація зображень](/uk/tools/image-generation)
- [Генерація відео](/uk/tools/video-generation)
- [Генерація музики](/uk/tools/music-generation)
- [Перетворення тексту на мовлення](/uk/tools/tts)
- [Розуміння медіа](/uk/nodes/media-understanding)
- [Аудіовузли](/uk/nodes/audio)
- [Режим Talk](/uk/nodes/talk)
