---
read_when:
    - البحث عن نظرة عامة على إمكانات الوسائط في OpenClaw
    - تحديد موفّر الوسائط المراد تكوينه
    - فهم كيفية عمل توليد الوسائط غير المتزامن
sidebarTitle: Media overview
summary: لمحة سريعة عن إمكانات الصور والفيديو والموسيقى والكلام وفهم الوسائط
title: نظرة عامة على الوسائط
x-i18n:
    generated_at: "2026-05-12T08:47:11Z"
    model: gpt-5.5
    provider: openai
    source_hash: a7ca89d058467968ee140cb3318fe8a1fb96d09fe7c59982efce36eb9b714591
    source_path: tools/media-overview.md
    workflow: 16
---

ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة
(الصور والصوت والفيديو)، وينطق الردود صوتيًا باستخدام تحويل النص إلى كلام. جميع
إمكانات الوسائط مدفوعة بالأدوات: يقرر الوكيل متى يستخدمها بناءً
على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل.

يستخدم الكلام المباشر عقد جلسة Talk بدلاً من مسار أداة الوسائط ذات التنفيذ لمرة واحدة.
يحتوي Talk على ثلاثة أوضاع: `realtime` أصلي لدى المزود، و`stt-tts` محلي أو تدفقي،
و`transcription` لالتقاط الكلام بغرض المراقبة فقط. تشترك هذه الأوضاع
في فهارس المزودين ومغلفات الأحداث ودلالات الإلغاء مع
الاتصالات الهاتفية والاجتماعات والوقت الفعلي في المتصفح وعملاء اضغط للتحدث الأصليين.

## الإمكانات

<CardGroup cols={2}>
  <Card title="إنشاء الصور" href="/ar/tools/image-generation" icon="image">
    أنشئ الصور وحررها من المطالبات النصية أو الصور المرجعية عبر
    `image_generate`. متزامن — يكتمل ضمن الرد.
  </Card>
  <Card title="إنشاء الفيديو" href="/ar/tools/video-generation" icon="video">
    تحويل النص إلى فيديو، والصورة إلى فيديو، والفيديو إلى فيديو عبر `video_generate`.
    غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تكون جاهزة.
  </Card>
  <Card title="إنشاء الموسيقى" href="/ar/tools/music-generation" icon="music">
    أنشئ موسيقى أو مسارات صوتية عبر `music_generate`. غير متزامن على
    المزودين المشتركين؛ أما مسار سير عمل ComfyUI فيعمل بشكل متزامن.
  </Card>
  <Card title="تحويل النص إلى كلام" href="/ar/tools/tts" icon="microphone">
    حوّل الردود الصادرة إلى صوت منطوق عبر أداة `tts` إضافة إلى
    إعداد `messages.tts`. متزامن.
  </Card>
  <Card title="فهم الوسائط" href="/ar/nodes/media-understanding" icon="eye">
    لخّص الصور والصوت والفيديو الوارد باستخدام مزودي نماذج قادرين على الرؤية
    وPlugins مخصصة لفهم الوسائط.
  </Card>
  <Card title="تحويل الكلام إلى نص" href="/ar/nodes/audio" icon="ear-listen">
    فرّغ الرسائل الصوتية الواردة عبر مزودي STT الدفعي أو STT التدفقي
    الخاصين بالمكالمات الصوتية.
  </Card>
</CardGroup>

## مصفوفة إمكانات المزودين

| المزود    | الصور | الفيديو | الموسيقى | TTS | STT | الصوت في الوقت الفعلي | فهم الوسائط |
| ----------- | :---: | :---: | :---: | :-: | :-: | :------------: | :-----------------: |
| Alibaba     |       |   ✓   |       |     |     |                |                     |
| BytePlus    |       |   ✓   |       |     |     |                |                     |
| ComfyUI     |   ✓   |   ✓   |   ✓   |     |     |                |                     |
| DeepInfra   |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Deepgram    |       |       |       |     |  ✓  |       ✓        |                     |
| ElevenLabs  |       |       |       |  ✓  |  ✓  |                |                     |
| fal         |   ✓   |   ✓   |       |     |     |                |                     |
| Google      |   ✓   |   ✓   |   ✓   |  ✓  |     |       ✓        |          ✓          |
| Gradium     |       |       |       |  ✓  |     |                |                     |
| Local CLI   |       |       |       |  ✓  |     |                |                     |
| Microsoft   |       |       |       |  ✓  |     |                |                     |
| MiniMax     |   ✓   |   ✓   |   ✓   |  ✓  |     |                |                     |
| Mistral     |       |       |       |     |  ✓  |                |                     |
| OpenAI      |   ✓   |   ✓   |       |  ✓  |  ✓  |       ✓        |          ✓          |
| OpenRouter  |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Qwen        |       |   ✓   |       |     |     |                |                     |
| Runway      |       |   ✓   |       |     |     |                |                     |
| SenseAudio  |       |       |       |     |  ✓  |                |                     |
| Together    |       |   ✓   |       |     |     |                |                     |
| Vydra       |   ✓   |   ✓   |       |  ✓  |     |                |                     |
| xAI         |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Xiaomi MiMo |   ✓   |       |       |  ✓  |     |                |          ✓          |

<Note>
يستخدم فهم الوسائط أي نموذج قادر على الرؤية أو قادر على الصوت ومسجل
في تكوين المزود لديك. تسرد المصفوفة أعلاه المزودين الذين لديهم دعم
مخصص لفهم الوسائط؛ يستطيع معظم مزودي LLM متعددة الوسائط (Anthropic وGoogle
وOpenAI وغيرها) فهم الوسائط الواردة أيضًا عند تكوينها كنموذج
الرد النشط.
</Note>

## غير متزامن مقابل متزامن

| الإمكانية      | الوضع         | السبب                                                                                                  |
| --------------- | ------------ | ---------------------------------------------------------------------------------------------------- |
| الصور           | متزامن  | تعود استجابات المزود خلال ثوان؛ ويكتمل ضمن الرد.                                   |
| تحويل النص إلى كلام  | متزامن  | تعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد.                                   |
| الفيديو           | غير متزامن | تستغرق معالجة المزود من 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة. |
| الموسيقى (مشتركة)  | غير متزامن | لها خاصية معالجة المزود نفسها مثل الفيديو.                                                    |
| الموسيقى (ComfyUI) | متزامن  | يعمل سير العمل المحلي ضمن المسار نفسه على خادم ComfyUI المكوّن.                                    |

بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزود، ويعيد معرّف مهمة
فورًا، ويتتبع المهمة في سجل المهام. يستمر الوكيل
في الرد على الرسائل الأخرى أثناء تشغيل المهمة. عندما ينتهي المزود،
ينبّه OpenClaw الوكيل بمسارات الوسائط المولدة كي يتمكن من إخبار
المستخدم، وعند إلزام سياسة التسليم من المصدر بذلك، يمرر النتيجة عبر
أداة الرسائل. بالنسبة إلى مسارات المجموعات/القنوات المعتمدة على أداة الرسائل فقط، يتعامل OpenClaw
مع غياب دليل التسليم عبر أداة الرسائل كمحاولة إكمال فاشلة، ويرسل
الوسائط المولدة الاحتياطية مباشرةً إلى القناة الأصلية.

## تحويل الكلام إلى نص والمكالمة الصوتية

يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وOpenRouter وSenseAudio وxAI تفريغ
الصوت الوارد عبر مسار `tools.media.audio` الدفعي عند تكوينها.
تضع Plugins القنوات التي تفحص رسالة صوتية مسبقًا لغرض بوابة الإشارة أو
تحليل الأوامر علامة على المرفق المفرغ في السياق الوارد، لذلك تعيد
مرحلة فهم الوسائط المشتركة استخدام ذلك النص بدلاً من إجراء استدعاء
STT ثانٍ للصوت نفسه.

تسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضًا مزودي STT تدفقيين
للمكالمات الصوتية، بحيث يمكن تمرير صوت الهاتف المباشر إلى المورّد المحدد
دون انتظار اكتمال التسجيل.

لمحادثات المستخدم المباشرة، فضّل [وضع Talk](/ar/nodes/talk). تبقى
مرفقات الصوت الدفعي على مسار الوسائط؛ أما الوقت الفعلي في المتصفح، واضغط للتحدث الأصلي،
والاتصالات الهاتفية، وصوت الاجتماعات فيجب أن تستخدم أحداث Talk والفهارس محددة الجلسة
التي يعيدها Gateway.

## خرائط المزودين (كيف يقسّم المورّدون الأسطح)

<AccordionGroup>
  <Accordion title="Google">
    أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الوقت الفعلي على الخلفية
    وفهم الوسائط.
  </Accordion>
  <Accordion title="OpenAI">
    أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية والصوت
    في الوقت الفعلي على الخلفية وتضمينات الذاكرة.
  </Accordion>
  <Accordion title="DeepInfra">
    أسطح توجيه الدردشة/النماذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي،
    وSTT الدفعي، وفهم وسائط الصور، وتضمينات الذاكرة.
    لا تُسجل نماذج DeepInfra الأصلية لإعادة الترتيب/التصنيف/اكتشاف الكائنات
    إلى أن يمتلك OpenClaw عقود مزودين مخصصة لتلك
    الفئات.
  </Accordion>
  <Accordion title="xAI">
    الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT التدفقي
    للمكالمات الصوتية. صوت xAI Realtime قدرة من upstream لكنها
    غير مسجلة في OpenClaw إلى أن يتمكن عقد الصوت في الوقت الفعلي المشترك من
    تمثيلها.
  </Accordion>
</AccordionGroup>

## ذو صلة

- [إنشاء الصور](/ar/tools/image-generation)
- [إنشاء الفيديو](/ar/tools/video-generation)
- [إنشاء الموسيقى](/ar/tools/music-generation)
- [تحويل النص إلى كلام](/ar/tools/tts)
- [فهم الوسائط](/ar/nodes/media-understanding)
- [عُقد الصوت](/ar/nodes/audio)
- [وضع Talk](/ar/nodes/talk)