Tools

نظرة عامة على الوسائط

ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود بصوت عال عبر تحويل النص إلى كلام. جميع قدرات الوسائط قائمة على الأدوات: يقرر الوكيل متى يستخدمها بناء على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل.

يستخدم الكلام المباشر عقد جلسة Talk بدلا من مسار أداة الوسائط لمرة واحدة. لدى Talk ثلاثة أوضاع: realtime الأصلي لدى المزود، وstt-tts المحلي أو المتدفق، وtranscription لالتقاط الكلام للمراقبة فقط. تشترك هذه الأوضاع في كتالوجات المزودين، ومغلفات الأحداث، ودلالات الإلغاء مع الاتصالات الهاتفية والاجتماعات والزمن الحقيقي في المتصفح وعملاء اضغط للتحدث الأصليين.

القدرات

إنشاء الصور

أنشئ الصور وحررها من المطالبات النصية أو الصور المرجعية عبر image_generate. متزامن — يكتمل ضمن الرد.

إنشاء الفيديو

من نص إلى فيديو، ومن صورة إلى فيديو، ومن فيديو إلى فيديو عبر video_generate. غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تصبح جاهزة.

إنشاء الموسيقى

أنشئ موسيقى أو مسارات صوتية عبر music_generate. غير متزامن على المزودين المشتركين؛ ويعمل مسار سير عمل ComfyUI بشكل متزامن.

تحويل النص إلى كلام

حوّل الردود الصادرة إلى صوت منطوق عبر أداة tts مع إعداد messages.tts. متزامن.

فهم الوسائط

لخّص الصور والصوت والفيديو الواردة باستخدام مزودي النماذج القادرين على الرؤية وPlugins مخصصة لفهم الوسائط.

تحويل الكلام إلى نص

انسخ الرسائل الصوتية الواردة عبر مزودي STT الدفعي أو STT المتدفق للمكالمة الصوتية.

مصفوفة قدرات المزودين

المزود	الصور	الفيديو	الموسيقى	TTS	STT	الصوت في الزمن الحقيقي	فهم الوسائط
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓			✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

غير متزامن مقابل متزامن

القدرة	الوضع	السبب
الصور	متزامن	تعود استجابات المزود خلال ثوان؛ وتكتمل ضمن الرد.
تحويل النص إلى كلام	متزامن	تعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد.
الفيديو	غير متزامن	تستغرق معالجة المزود 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة.
الموسيقى (مشتركة)	غير متزامن	نفس خاصية معالجة المزود الموجودة في الفيديو.
الموسيقى (ComfyUI)	متزامن	يعمل سير العمل المحلي ضمن المسار نفسه مقابل خادم ComfyUI المكوّن.

بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزود، ويعيد معرف مهمة فورا، ويتتبع المهمة في سجل المهام. يواصل الوكيل الرد على الرسائل الأخرى أثناء تشغيل المهمة. عند انتهاء المزود، يوقظ OpenClaw الوكيل مع مسارات الوسائط المولدة لكي يتمكن من إخبار المستخدم، وعند تطلب سياسة تسليم المصدر ذلك، يمرر النتيجة عبر أداة الرسائل. بالنسبة إلى مسارات المجموعات/القنوات التي تقتصر على أداة الرسائل، يتعامل OpenClaw مع غياب دليل التسليم عبر أداة الرسائل كمحاولة إكمال فاشلة، ويرسل بديل الوسائط المولدة مباشرة إلى القناة الأصلية.

تحويل الكلام إلى نص والمكالمة الصوتية

يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وSenseAudio وxAI نسخ الصوت الوارد عبر مسار tools.media.audio الدفعي عند تكوينها. تضع Plugins القنوات التي تجري فحصا مسبقا لملاحظة صوتية من أجل بوابة الإشارة أو تحليل الأوامر علامة على المرفق المنسوخ في السياق الوارد، لذلك تعيد مرحلة فهم الوسائط المشتركة استخدام ذلك النص المنسوخ بدلا من إجراء استدعاء STT ثان للصوت نفسه.

يسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضا مزودي STT المتدفق للمكالمة الصوتية، لذلك يمكن تمرير صوت الهاتف المباشر إلى البائع المحدد دون انتظار تسجيل مكتمل.

بالنسبة إلى محادثات المستخدم المباشرة، فضّل وضع Talk. تبقى مرفقات الصوت الدفعي على مسار الوسائط؛ ويجب أن يستخدم الزمن الحقيقي في المتصفح، واضغط للتحدث الأصلي، والاتصالات الهاتفية، وصوت الاجتماعات أحداث Talk والكتالوجات ذات نطاق الجلسة التي يعيدها Gateway.

تعيينات المزودين (كيف ينقسم البائعون عبر الأسطح)

Google

أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الزمن الحقيقي الخلفي وفهم الوسائط.

OpenAI

أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT المتدفق للمكالمة الصوتية والصوت في الزمن الحقيقي الخلفي وتضمينات الذاكرة.

DeepInfra

توجيه المحادثة/النموذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي، وSTT الدفعي، وفهم وسائط الصور، وأسطح تضمينات الذاكرة. لا تُسجل نماذج إعادة الترتيب/التصنيف/اكتشاف الكائنات الأصلية في DeepInfra حتى يمتلك OpenClaw عقود مزودين مخصصة لتلك الفئات.

xAI

الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT المتدفق للمكالمة الصوتية. صوت xAI في الزمن الحقيقي قدرة من upstream لكنها غير مسجلة في OpenClaw حتى يتمكن عقد الصوت في الزمن الحقيقي المشترك من تمثيلها.

نظرة عامة على الوسائط

القدرات

مصفوفة قدرات المزودين

غير متزامن مقابل متزامن

تحويل الكلام إلى نص والمكالمة الصوتية

تعيينات المزودين (كيف ينقسم البائعون عبر الأسطح)

ذو صلة

Ask OpenClaw

# القدرات

# مصفوفة قدرات المزودين

# غير متزامن مقابل متزامن

# تحويل الكلام إلى نص والمكالمة الصوتية

# تعيينات المزودين (كيف ينقسم البائعون عبر الأسطح)

# ذو صلة

القدرات

مصفوفة قدرات المزودين

غير متزامن مقابل متزامن

تحويل الكلام إلى نص والمكالمة الصوتية

تعيينات المزودين (كيف ينقسم البائعون عبر الأسطح)

ذو صلة