Tools

نظرة عامة على الوسائط

ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود صوتيًا باستخدام تحويل النص إلى كلام. جميع إمكانات الوسائط مدفوعة بالأدوات: يقرر الوكيل متى يستخدمها بناءً على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل.

يستخدم الكلام المباشر عقد جلسة Talk بدلاً من مسار أداة الوسائط ذات التنفيذ لمرة واحدة. يحتوي Talk على ثلاثة أوضاع: realtime أصلي لدى المزود، وstt-tts محلي أو تدفقي، وtranscription لالتقاط الكلام بغرض المراقبة فقط. تشترك هذه الأوضاع في فهارس المزودين ومغلفات الأحداث ودلالات الإلغاء مع الاتصالات الهاتفية والاجتماعات والوقت الفعلي في المتصفح وعملاء اضغط للتحدث الأصليين.

الإمكانات

إنشاء الصور

أنشئ الصور وحررها من المطالبات النصية أو الصور المرجعية عبر image_generate. متزامن — يكتمل ضمن الرد.

إنشاء الفيديو

تحويل النص إلى فيديو، والصورة إلى فيديو، والفيديو إلى فيديو عبر video_generate. غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تكون جاهزة.

إنشاء الموسيقى

أنشئ موسيقى أو مسارات صوتية عبر music_generate. غير متزامن على المزودين المشتركين؛ أما مسار سير عمل ComfyUI فيعمل بشكل متزامن.

تحويل النص إلى كلام

حوّل الردود الصادرة إلى صوت منطوق عبر أداة tts إضافة إلى إعداد messages.tts. متزامن.

فهم الوسائط

لخّص الصور والصوت والفيديو الوارد باستخدام مزودي نماذج قادرين على الرؤية وPlugins مخصصة لفهم الوسائط.

تحويل الكلام إلى نص

فرّغ الرسائل الصوتية الواردة عبر مزودي STT الدفعي أو STT التدفقي الخاصين بالمكالمات الصوتية.

مصفوفة إمكانات المزودين

المزود	الصور	الفيديو	الموسيقى	TTS	STT	الصوت في الوقت الفعلي	فهم الوسائط
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

غير متزامن مقابل متزامن

الإمكانية	الوضع	السبب
الصور	متزامن	تعود استجابات المزود خلال ثوان؛ ويكتمل ضمن الرد.
تحويل النص إلى كلام	متزامن	تعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد.
الفيديو	غير متزامن	تستغرق معالجة المزود من 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة.
الموسيقى (مشتركة)	غير متزامن	لها خاصية معالجة المزود نفسها مثل الفيديو.
الموسيقى (ComfyUI)	متزامن	يعمل سير العمل المحلي ضمن المسار نفسه على خادم ComfyUI المكوّن.

بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزود، ويعيد معرّف مهمة فورًا، ويتتبع المهمة في سجل المهام. يستمر الوكيل في الرد على الرسائل الأخرى أثناء تشغيل المهمة. عندما ينتهي المزود، ينبّه OpenClaw الوكيل بمسارات الوسائط المولدة كي يتمكن من إخبار المستخدم، وعند إلزام سياسة التسليم من المصدر بذلك، يمرر النتيجة عبر أداة الرسائل. بالنسبة إلى مسارات المجموعات/القنوات المعتمدة على أداة الرسائل فقط، يتعامل OpenClaw مع غياب دليل التسليم عبر أداة الرسائل كمحاولة إكمال فاشلة، ويرسل الوسائط المولدة الاحتياطية مباشرةً إلى القناة الأصلية.

تحويل الكلام إلى نص والمكالمة الصوتية

يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وOpenRouter وSenseAudio وxAI تفريغ الصوت الوارد عبر مسار tools.media.audio الدفعي عند تكوينها. تضع Plugins القنوات التي تفحص رسالة صوتية مسبقًا لغرض بوابة الإشارة أو تحليل الأوامر علامة على المرفق المفرغ في السياق الوارد، لذلك تعيد مرحلة فهم الوسائط المشتركة استخدام ذلك النص بدلاً من إجراء استدعاء STT ثانٍ للصوت نفسه.

تسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضًا مزودي STT تدفقيين للمكالمات الصوتية، بحيث يمكن تمرير صوت الهاتف المباشر إلى المورّد المحدد دون انتظار اكتمال التسجيل.

لمحادثات المستخدم المباشرة، فضّل وضع Talk. تبقى مرفقات الصوت الدفعي على مسار الوسائط؛ أما الوقت الفعلي في المتصفح، واضغط للتحدث الأصلي، والاتصالات الهاتفية، وصوت الاجتماعات فيجب أن تستخدم أحداث Talk والفهارس محددة الجلسة التي يعيدها Gateway.

خرائط المزودين (كيف يقسّم المورّدون الأسطح)

Google

أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الوقت الفعلي على الخلفية وفهم الوسائط.

OpenAI

أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية والصوت في الوقت الفعلي على الخلفية وتضمينات الذاكرة.

DeepInfra

أسطح توجيه الدردشة/النماذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي، وSTT الدفعي، وفهم وسائط الصور، وتضمينات الذاكرة. لا تُسجل نماذج DeepInfra الأصلية لإعادة الترتيب/التصنيف/اكتشاف الكائنات إلى أن يمتلك OpenClaw عقود مزودين مخصصة لتلك الفئات.

xAI

الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية. صوت xAI Realtime قدرة من upstream لكنها غير مسجلة في OpenClaw إلى أن يتمكن عقد الصوت في الوقت الفعلي المشترك من تمثيلها.

ذو صلة

Was this useful?