Tools

نظرة عامة على الوسائط

ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود صوتيًا باستخدام تحويل النص إلى كلام. جميع إمكانات الوسائط مدفوعة بالأدوات: يقرر الوكيل متى يستخدمها بناءً على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل.

يستخدم الكلام المباشر عقد جلسة Talk بدلاً من مسار أداة الوسائط ذات التنفيذ لمرة واحدة. يحتوي Talk على ثلاثة أوضاع: realtime أصلي لدى المزود، وstt-tts محلي أو تدفقي، وtranscription لالتقاط الكلام بغرض المراقبة فقط. تشترك هذه الأوضاع في فهارس المزودين ومغلفات الأحداث ودلالات الإلغاء مع الاتصالات الهاتفية والاجتماعات والوقت الفعلي في المتصفح وعملاء اضغط للتحدث الأصليين.

الإمكانات

مصفوفة إمكانات المزودين

المزود الصور الفيديو الموسيقى TTS STT الصوت في الوقت الفعلي فهم الوسائط
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

غير متزامن مقابل متزامن

الإمكانية الوضع السبب
الصور متزامن تعود استجابات المزود خلال ثوان؛ ويكتمل ضمن الرد.
تحويل النص إلى كلام متزامن تعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد.
الفيديو غير متزامن تستغرق معالجة المزود من 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة.
الموسيقى (مشتركة) غير متزامن لها خاصية معالجة المزود نفسها مثل الفيديو.
الموسيقى (ComfyUI) متزامن يعمل سير العمل المحلي ضمن المسار نفسه على خادم ComfyUI المكوّن.

بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزود، ويعيد معرّف مهمة فورًا، ويتتبع المهمة في سجل المهام. يستمر الوكيل في الرد على الرسائل الأخرى أثناء تشغيل المهمة. عندما ينتهي المزود، ينبّه OpenClaw الوكيل بمسارات الوسائط المولدة كي يتمكن من إخبار المستخدم، وعند إلزام سياسة التسليم من المصدر بذلك، يمرر النتيجة عبر أداة الرسائل. بالنسبة إلى مسارات المجموعات/القنوات المعتمدة على أداة الرسائل فقط، يتعامل OpenClaw مع غياب دليل التسليم عبر أداة الرسائل كمحاولة إكمال فاشلة، ويرسل الوسائط المولدة الاحتياطية مباشرةً إلى القناة الأصلية.

تحويل الكلام إلى نص والمكالمة الصوتية

يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وOpenRouter وSenseAudio وxAI تفريغ الصوت الوارد عبر مسار tools.media.audio الدفعي عند تكوينها. تضع Plugins القنوات التي تفحص رسالة صوتية مسبقًا لغرض بوابة الإشارة أو تحليل الأوامر علامة على المرفق المفرغ في السياق الوارد، لذلك تعيد مرحلة فهم الوسائط المشتركة استخدام ذلك النص بدلاً من إجراء استدعاء STT ثانٍ للصوت نفسه.

تسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضًا مزودي STT تدفقيين للمكالمات الصوتية، بحيث يمكن تمرير صوت الهاتف المباشر إلى المورّد المحدد دون انتظار اكتمال التسجيل.

لمحادثات المستخدم المباشرة، فضّل وضع Talk. تبقى مرفقات الصوت الدفعي على مسار الوسائط؛ أما الوقت الفعلي في المتصفح، واضغط للتحدث الأصلي، والاتصالات الهاتفية، وصوت الاجتماعات فيجب أن تستخدم أحداث Talk والفهارس محددة الجلسة التي يعيدها Gateway.

خرائط المزودين (كيف يقسّم المورّدون الأسطح)

Google

أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الوقت الفعلي على الخلفية وفهم الوسائط.

OpenAI

أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية والصوت في الوقت الفعلي على الخلفية وتضمينات الذاكرة.

DeepInfra

أسطح توجيه الدردشة/النماذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي، وSTT الدفعي، وفهم وسائط الصور، وتضمينات الذاكرة. لا تُسجل نماذج DeepInfra الأصلية لإعادة الترتيب/التصنيف/اكتشاف الكائنات إلى أن يمتلك OpenClaw عقود مزودين مخصصة لتلك الفئات.

xAI

الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT التدفقي للمكالمات الصوتية. صوت xAI Realtime قدرة من upstream لكنها غير مسجلة في OpenClaw إلى أن يتمكن عقد الصوت في الوقت الفعلي المشترك من تمثيلها.

ذو صلة

Was this useful?