Tools
نظرة عامة على الوسائط
ينشئ OpenClaw الصور ومقاطع الفيديو والموسيقى، ويفهم الوسائط الواردة (الصور والصوت والفيديو)، وينطق الردود بصوت عال عبر تحويل النص إلى كلام. جميع قدرات الوسائط قائمة على الأدوات: يقرر الوكيل متى يستخدمها بناء على المحادثة، ولا تظهر كل أداة إلا عند تكوين مزود داعم واحد على الأقل.
يستخدم الكلام المباشر عقد جلسة Talk بدلا من مسار أداة الوسائط لمرة واحدة.
لدى Talk ثلاثة أوضاع: realtime الأصلي لدى المزود، وstt-tts المحلي أو
المتدفق، وtranscription لالتقاط الكلام للمراقبة فقط. تشترك هذه الأوضاع
في كتالوجات المزودين، ومغلفات الأحداث، ودلالات الإلغاء مع الاتصالات الهاتفية
والاجتماعات والزمن الحقيقي في المتصفح وعملاء اضغط للتحدث الأصليين.
القدرات
أنشئ الصور وحررها من المطالبات النصية أو الصور المرجعية عبر
image_generate. متزامن — يكتمل ضمن الرد.
من نص إلى فيديو، ومن صورة إلى فيديو، ومن فيديو إلى فيديو عبر video_generate.
غير متزامن — يعمل في الخلفية وينشر النتيجة عندما تصبح جاهزة.
أنشئ موسيقى أو مسارات صوتية عبر music_generate. غير متزامن على
المزودين المشتركين؛ ويعمل مسار سير عمل ComfyUI بشكل متزامن.
حوّل الردود الصادرة إلى صوت منطوق عبر أداة tts مع إعداد
messages.tts. متزامن.
لخّص الصور والصوت والفيديو الواردة باستخدام مزودي النماذج القادرين على الرؤية وPlugins مخصصة لفهم الوسائط.
انسخ الرسائل الصوتية الواردة عبر مزودي STT الدفعي أو STT المتدفق للمكالمة الصوتية.
مصفوفة قدرات المزودين
| المزود | الصور | الفيديو | الموسيقى | TTS | STT | الصوت في الزمن الحقيقي | فهم الوسائط |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
غير متزامن مقابل متزامن
| القدرة | الوضع | السبب |
|---|---|---|
| الصور | متزامن | تعود استجابات المزود خلال ثوان؛ وتكتمل ضمن الرد. |
| تحويل النص إلى كلام | متزامن | تعود استجابات المزود خلال ثوان؛ وتُرفق بصوت الرد. |
| الفيديو | غير متزامن | تستغرق معالجة المزود 30 ثانية إلى عدة دقائق؛ وقد تعمل الطوابير البطيئة حتى انتهاء المهلة المكوّنة. |
| الموسيقى (مشتركة) | غير متزامن | نفس خاصية معالجة المزود الموجودة في الفيديو. |
| الموسيقى (ComfyUI) | متزامن | يعمل سير العمل المحلي ضمن المسار نفسه مقابل خادم ComfyUI المكوّن. |
بالنسبة إلى الأدوات غير المتزامنة، يرسل OpenClaw الطلب إلى المزود، ويعيد معرف مهمة فورا، ويتتبع المهمة في سجل المهام. يواصل الوكيل الرد على الرسائل الأخرى أثناء تشغيل المهمة. عند انتهاء المزود، يوقظ OpenClaw الوكيل مع مسارات الوسائط المولدة لكي يتمكن من إخبار المستخدم، وعند تطلب سياسة تسليم المصدر ذلك، يمرر النتيجة عبر أداة الرسائل. بالنسبة إلى مسارات المجموعات/القنوات التي تقتصر على أداة الرسائل، يتعامل OpenClaw مع غياب دليل التسليم عبر أداة الرسائل كمحاولة إكمال فاشلة، ويرسل بديل الوسائط المولدة مباشرة إلى القناة الأصلية.
تحويل الكلام إلى نص والمكالمة الصوتية
يمكن لكل من Deepgram وDeepInfra وElevenLabs وMistral وOpenAI وSenseAudio وxAI نسخ
الصوت الوارد عبر مسار tools.media.audio الدفعي عند تكوينها. تضع Plugins
القنوات التي تجري فحصا مسبقا لملاحظة صوتية من أجل بوابة الإشارة أو تحليل
الأوامر علامة على المرفق المنسوخ في السياق الوارد، لذلك تعيد مرحلة فهم
الوسائط المشتركة استخدام ذلك النص المنسوخ بدلا من إجراء استدعاء STT ثان للصوت نفسه.
يسجل Deepgram وElevenLabs وMistral وOpenAI وxAI أيضا مزودي STT المتدفق للمكالمة الصوتية، لذلك يمكن تمرير صوت الهاتف المباشر إلى البائع المحدد دون انتظار تسجيل مكتمل.
بالنسبة إلى محادثات المستخدم المباشرة، فضّل وضع Talk. تبقى مرفقات الصوت الدفعي على مسار الوسائط؛ ويجب أن يستخدم الزمن الحقيقي في المتصفح، واضغط للتحدث الأصلي، والاتصالات الهاتفية، وصوت الاجتماعات أحداث Talk والكتالوجات ذات نطاق الجلسة التي يعيدها Gateway.
تعيينات المزودين (كيف ينقسم البائعون عبر الأسطح)
أسطح الصور والفيديو والموسيقى وTTS الدفعي والصوت في الزمن الحقيقي الخلفي وفهم الوسائط.
OpenAI
أسطح الصور والفيديو وTTS الدفعي وSTT الدفعي وSTT المتدفق للمكالمة الصوتية والصوت في الزمن الحقيقي الخلفي وتضمينات الذاكرة.
DeepInfra
توجيه المحادثة/النموذج، وإنشاء/تحرير الصور، وتحويل النص إلى فيديو، وTTS الدفعي، وSTT الدفعي، وفهم وسائط الصور، وأسطح تضمينات الذاكرة. لا تُسجل نماذج إعادة الترتيب/التصنيف/اكتشاف الكائنات الأصلية في DeepInfra حتى يمتلك OpenClaw عقود مزودين مخصصة لتلك الفئات.
xAI
الصور والفيديو والبحث وتنفيذ التعليمات البرمجية وTTS الدفعي وSTT الدفعي وSTT المتدفق للمكالمة الصوتية. صوت xAI في الزمن الحقيقي قدرة من upstream لكنها غير مسجلة في OpenClaw حتى يتمكن عقد الصوت في الزمن الحقيقي المشترك من تمثيلها.