---
read_when:
    - به‌دنبال مروری بر قابلیت‌های رسانه‌ای OpenClaw هستید
    - تصمیم‌گیری دربارهٔ اینکه کدام ارائه‌دهندهٔ رسانه را پیکربندی کنید
    - درک نحوهٔ کار تولید رسانهٔ ناهمگام
sidebarTitle: Media overview
summary: قابلیت‌های تصویر، ویدیو، موسیقی، گفتار و درک رسانه در یک نگاه
title: نمای کلی رسانه
x-i18n:
    generated_at: "2026-05-12T08:47:44Z"
    model: gpt-5.5
    provider: openai
    source_hash: a7ca89d058467968ee140cb3318fe8a1fb96d09fe7c59982efce36eb9b714591
    source_path: tools/media-overview.md
    workflow: 16
---

OpenClaw تصویر، ویدیو و موسیقی تولید می‌کند، رسانه‌های ورودی
(تصویر، صدا، ویدیو) را می‌فهمد و پاسخ‌ها را با تبدیل متن به گفتار بلند می‌خواند. همهٔ
قابلیت‌های رسانه‌ای ابزارمحور هستند: عامل بر اساس گفتگو تصمیم می‌گیرد چه زمانی از آن‌ها استفاده کند
و هر ابزار فقط زمانی ظاهر می‌شود که دست‌کم یک
ارائه‌دهندهٔ پشتیبان پیکربندی شده باشد.

گفتار زنده به‌جای مسیر ابزار رسانهٔ یک‌باره، از قرارداد نشست Talk استفاده می‌کند.
Talk سه حالت دارد: `realtime` بومیِ ارائه‌دهنده، `stt-tts` محلی یا جریانی
و `transcription` برای ضبط گفتار فقط‌برای‌مشاهده. این حالت‌ها
کاتالوگ‌های ارائه‌دهنده، پوشش‌های رویداد و معناشناسی لغو را با
تلفنی، جلسه‌ها، بلادرنگ مرورگر و کلاینت‌های بومی push-to-talk مشترک دارند.

## قابلیت‌ها

<CardGroup cols={2}>
  <Card title="تولید تصویر" href="/fa/tools/image-generation" icon="image">
    ایجاد و ویرایش تصویرها از اعلان‌های متنی یا تصویرهای مرجع از طریق
    `image_generate`. همگام — درون‌خطی همراه پاسخ کامل می‌شود.
  </Card>
  <Card title="تولید ویدیو" href="/fa/tools/video-generation" icon="video">
    متن‌به‌ویدیو، تصویر‌به‌ویدیو و ویدیو‌به‌ویدیو از طریق `video_generate`.
    ناهمگام — در پس‌زمینه اجرا می‌شود و نتیجه را پس از آماده‌شدن ارسال می‌کند.
  </Card>
  <Card title="تولید موسیقی" href="/fa/tools/music-generation" icon="music">
    موسیقی یا ترک‌های صوتی را از طریق `music_generate` تولید کنید. روی
    ارائه‌دهندگان مشترک ناهمگام است؛ مسیر گردش‌کار ComfyUI به‌صورت همگام اجرا می‌شود.
  </Card>
  <Card title="تبدیل متن به گفتار" href="/fa/tools/tts" icon="microphone">
    پاسخ‌های خروجی را از طریق ابزار `tts` به‌همراه پیکربندی
    `messages.tts` به صدای گفتاری تبدیل کنید. همگام.
  </Card>
  <Card title="فهم رسانه" href="/fa/nodes/media-understanding" icon="eye">
    تصویرها، صداها و ویدیوهای ورودی را با استفاده از ارائه‌دهندگان مدل
    دارای قابلیت بینایی و Pluginهای اختصاصی فهم رسانه خلاصه کنید.
  </Card>
  <Card title="تبدیل گفتار به متن" href="/fa/nodes/audio" icon="ear-listen">
    پیام‌های صوتی ورودی را از طریق ارائه‌دهندگان STT دسته‌ای یا STT جریانی
    تماس صوتی رونویسی کنید.
  </Card>
</CardGroup>

## ماتریس قابلیت ارائه‌دهنده

| ارائه‌دهنده | تصویر | ویدیو | موسیقی | TTS | STT | صدای بلادرنگ | فهم رسانه |
| ----------- | :---: | :---: | :---: | :-: | :-: | :------------: | :-----------------: |
| Alibaba     |       |   ✓   |       |     |     |                |                     |
| BytePlus    |       |   ✓   |       |     |     |                |                     |
| ComfyUI     |   ✓   |   ✓   |   ✓   |     |     |                |                     |
| DeepInfra   |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Deepgram    |       |       |       |     |  ✓  |       ✓        |                     |
| ElevenLabs  |       |       |       |  ✓  |  ✓  |                |                     |
| fal         |   ✓   |   ✓   |       |     |     |                |                     |
| Google      |   ✓   |   ✓   |   ✓   |  ✓  |     |       ✓        |          ✓          |
| Gradium     |       |       |       |  ✓  |     |                |                     |
| Local CLI   |       |       |       |  ✓  |     |                |                     |
| Microsoft   |       |       |       |  ✓  |     |                |                     |
| MiniMax     |   ✓   |   ✓   |   ✓   |  ✓  |     |                |                     |
| Mistral     |       |       |       |     |  ✓  |                |                     |
| OpenAI      |   ✓   |   ✓   |       |  ✓  |  ✓  |       ✓        |          ✓          |
| OpenRouter  |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Qwen        |       |   ✓   |       |     |     |                |                     |
| Runway      |       |   ✓   |       |     |     |                |                     |
| SenseAudio  |       |       |       |     |  ✓  |                |                     |
| Together    |       |   ✓   |       |     |     |                |                     |
| Vydra       |   ✓   |   ✓   |       |  ✓  |     |                |                     |
| xAI         |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Xiaomi MiMo |   ✓   |       |       |  ✓  |     |                |          ✓          |

<Note>
فهم رسانه از هر مدل دارای قابلیت بینایی یا قابلیت صوتی که در
پیکربندی ارائه‌دهندهٔ شما ثبت شده باشد استفاده می‌کند. ماتریس بالا ارائه‌دهندگانی را فهرست می‌کند که
پشتیبانی اختصاصی فهم رسانه دارند؛ بیشتر ارائه‌دهندگان LLM چندوجهی (Anthropic، Google،
OpenAI و غیره) نیز وقتی به‌عنوان مدل پاسخ فعال پیکربندی شوند، می‌توانند رسانهٔ ورودی را بفهمند.
</Note>

## ناهمگام در برابر همگام

| قابلیت | حالت | دلیل |
| --------------- | ------------ | ---------------------------------------------------------------------------------------------------- |
| تصویر | همگام | پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ درون‌خطی همراه پاسخ کامل می‌شود. |
| تبدیل متن به گفتار | همگام | پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ به صدای پاسخ پیوست می‌شود. |
| ویدیو | ناهمگام | پردازش ارائه‌دهنده از ۳۰ ثانیه تا چند دقیقه طول می‌کشد؛ صف‌های کند می‌توانند تا پایان مهلت پیکربندی‌شده اجرا شوند. |
| موسیقی (مشترک) | ناهمگام | همان ویژگی پردازش ارائه‌دهنده مانند ویدیو را دارد. |
| موسیقی (ComfyUI) | همگام | گردش‌کار محلی به‌صورت درون‌خطی روی سرور ComfyUI پیکربندی‌شده اجرا می‌شود. |

برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائه‌دهنده ارسال می‌کند، بلافاصله یک شناسهٔ وظیفه
برمی‌گرداند و کار را در دفترکل وظیفه پیگیری می‌کند. عامل در حالی که کار اجرا می‌شود به پاسخ‌دادن
به پیام‌های دیگر ادامه می‌دهد. وقتی ارائه‌دهنده کار را تمام کرد،
OpenClaw عامل را با مسیرهای رسانهٔ تولیدشده بیدار می‌کند تا بتواند به
کاربر اطلاع دهد و، وقتی سیاست تحویل منبع لازم بداند، نتیجه را از طریق
ابزار پیام بازپخش کند. برای مسیرهای گروه/کانال فقط-ابزار-پیام، OpenClaw
نبود شواهد تحویل ابزار پیام را به‌عنوان تلاش تکمیل ناموفق در نظر می‌گیرد و
جایگزین رسانهٔ تولیدشده را مستقیما به کانال اصلی می‌فرستد.

## تبدیل گفتار به متن و تماس صوتی

Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، OpenRouter، SenseAudio و xAI همگی می‌توانند
صدای ورودی را از طریق مسیر دسته‌ای `tools.media.audio`، وقتی پیکربندی شده باشند، رونویسی کنند.
Pluginهای کانال که یک یادداشت صوتی را برای گیتینگ اشاره یا تجزیهٔ فرمان
پیش‌بررسی می‌کنند، پیوست رونویسی‌شده را روی زمینهٔ ورودی علامت‌گذاری می‌کنند، بنابراین گذر مشترک
فهم رسانه به‌جای انجام دومین فراخوانی STT برای همان صدا، از آن رونوشت دوباره استفاده می‌کند.

Deepgram، ElevenLabs، Mistral، OpenAI و xAI همچنین ارائه‌دهندگان STT جریانی
تماس صوتی را ثبت می‌کنند، بنابراین صدای تلفن زنده می‌تواند بدون انتظار
برای ضبط کامل‌شده به فروشندهٔ انتخاب‌شده ارسال شود.

برای گفتگوهای زندهٔ کاربر، [حالت Talk](/fa/nodes/talk) را ترجیح دهید. پیوست‌های صوتی دسته‌ای
روی مسیر رسانه باقی می‌مانند؛ بلادرنگ مرورگر، push-to-talk بومی،
تلفنی و صدای جلسه باید از رویدادهای Talk و کاتالوگ‌های محدود به نشست
که توسط Gateway برگردانده می‌شوند استفاده کنند.

## نگاشت‌های ارائه‌دهنده (فروشندگان چگونه میان سطح‌ها تقسیم می‌شوند)

<AccordionGroup>
  <Accordion title="Google">
    سطح‌های تصویر، ویدیو، موسیقی، TTS دسته‌ای، صدای بلادرنگ بک‌اند و
    فهم رسانه.
  </Accordion>
  <Accordion title="OpenAI">
    سطح‌های تصویر، ویدیو، TTS دسته‌ای، STT دسته‌ای، STT جریانی تماس صوتی،
    صدای بلادرنگ بک‌اند و جاسازی حافظه.
  </Accordion>
  <Accordion title="DeepInfra">
    مسیریابی چت/مدل، تولید/ویرایش تصویر، متن‌به‌ویدیو، TTS دسته‌ای،
    STT دسته‌ای، فهم رسانهٔ تصویری و سطح‌های جاسازی حافظه.
    مدل‌های بازرتبه‌بندی/طبقه‌بندی/تشخیص شیء بومی DeepInfra تا زمانی که
    OpenClaw قراردادهای اختصاصی ارائه‌دهنده برای آن
    دسته‌ها داشته باشد ثبت نمی‌شوند.
  </Accordion>
  <Accordion title="xAI">
    تصویر، ویدیو، جستجو، اجرای کد، TTS دسته‌ای، STT دسته‌ای و STT جریانی
    تماس صوتی. صدای بلادرنگ xAI یک قابلیت بالادستی است اما تا زمانی که
    قرارداد مشترک صدای بلادرنگ بتواند آن را نمایش دهد،
    در OpenClaw ثبت نمی‌شود.
  </Accordion>
</AccordionGroup>

## مرتبط

- [تولید تصویر](/fa/tools/image-generation)
- [تولید ویدیو](/fa/tools/video-generation)
- [تولید موسیقی](/fa/tools/music-generation)
- [تبدیل متن به گفتار](/fa/tools/tts)
- [فهم رسانه](/fa/nodes/media-understanding)
- [گره‌های صوتی](/fa/nodes/audio)
- [حالت Talk](/fa/nodes/talk)