Tools
نمای کلی رسانهها
OpenClaw تصویر، ویدئو و موسیقی تولید میکند، رسانههای ورودی (تصویر، صدا، ویدئو) را میفهمد و پاسخها را با تبدیل متن به گفتار بلند میخواند. همهٔ قابلیتهای رسانهای ابزارمحور هستند: عامل بر اساس مکالمه تصمیم میگیرد چه زمانی از آنها استفاده کند، و هر ابزار فقط زمانی ظاهر میشود که دستکم یک ارائهدهندهٔ پشتیبان پیکربندی شده باشد.
گفتار زنده بهجای مسیر ابزار رسانهٔ تکمرحلهای از قرارداد نشست Talk استفاده میکند.
Talk سه حالت دارد: realtime بومیِ ارائهدهنده، stt-tts محلی یا جریانی،
و transcription برای ضبط گفتار فقط در حالت مشاهده. این حالتها
کاتالوگهای ارائهدهنده، پوششهای رویداد و معنای لغو را با
تلفن، جلسهها، بلادرنگ مرورگر، و کلاینتهای بومی فشار-برای-صحبت مشترک دارند.
قابلیتها
تصویرها را از اعلانهای متنی یا تصویرهای مرجع از طریق
image_generate ایجاد و ویرایش کنید. همگام — درونخطی همراه پاسخ کامل میشود.
متنبهویدئو، تصویربهویدئو، و ویدئوبهویدئو از طریق video_generate.
ناهمگام — در پسزمینه اجرا میشود و نتیجه را پس از آمادهشدن ارسال میکند.
موسیقی یا ترکهای صوتی را از طریق music_generate تولید کنید. روی ارائهدهندگان مشترک
ناهمگام است؛ مسیر گردشکار ComfyUI بهصورت همگام اجرا میشود.
پاسخهای خروجی را با ابزار tts بههمراه پیکربندی
messages.tts به صدای گفتاری تبدیل کنید. همگام.
تصویرها، صدا و ویدئوی ورودی را با استفاده از ارائهدهندگان مدل دارای قابلیت بینایی و Pluginهای اختصاصی درک رسانه خلاصه کنید.
پیامهای صوتی ورودی را از طریق STT دستهای یا ارائهدهندگان STT جریانی Voice Call رونویسی کنید.
ماتریس قابلیتهای ارائهدهنده
| ارائهدهنده | تصویر | ویدئو | موسیقی | TTS | STT | صدای بلادرنگ | درک رسانه |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
ناهمگام در برابر همگام
| قابلیت | حالت | دلیل |
|---|---|---|
| تصویر | همگام | پاسخهای ارائهدهنده در چند ثانیه برمیگردند؛ درونخطی همراه پاسخ کامل میشود. |
| تبدیل متن به گفتار | همگام | پاسخهای ارائهدهنده در چند ثانیه برمیگردند؛ به صدای پاسخ پیوست میشود. |
| ویدئو | ناهمگام | پردازش ارائهدهنده از 30 ثانیه تا چند دقیقه طول میکشد؛ صفهای کند میتوانند تا زمانپایان پیکربندیشده اجرا شوند. |
| موسیقی (مشترک) | ناهمگام | همان ویژگی پردازش ارائهدهنده مانند ویدئو را دارد. |
| موسیقی (ComfyUI) | همگام | گردشکار محلی درونخطی روی سرور ComfyUI پیکربندیشده اجرا میشود. |
برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائهدهنده ارسال میکند، فوراً یک شناسهٔ وظیفه برمیگرداند و کار را در دفتر وظایف پیگیری میکند. عامل هنگام اجرای کار به پاسخدادن به پیامهای دیگر ادامه میدهد. وقتی ارائهدهنده کار را تمام میکند، OpenClaw عامل را با مسیرهای رسانهٔ تولیدشده بیدار میکند تا بتواند به کاربر اطلاع دهد و، وقتی سیاست تحویل منبع لازم بداند، نتیجه را از طریق ابزار پیام بازپخش کند. برای مسیرهای گروه/کانال که فقط از ابزار پیام استفاده میکنند، OpenClaw نبود شواهد تحویل ابزار پیام را بهعنوان تلاش ناموفق برای تکمیل در نظر میگیرد و جایگزین رسانهٔ تولیدشده را مستقیماً به کانال اصلی میفرستد.
تبدیل گفتار به متن و Voice Call
Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، SenseAudio، و xAI همگی میتوانند
صدای ورودی را وقتی پیکربندی شده باشند از طریق مسیر دستهای tools.media.audio رونویسی کنند.
Pluginهای کانال که یک یادداشت صوتی را برای دروازهگذاری اشاره یا تجزیهٔ فرمان
پیشبررسی میکنند، پیوست رونویسیشده را روی زمینهٔ ورودی علامتگذاری میکنند، بنابراین گذر مشترک
درک رسانه بهجای انجام یک فراخوانی STT دوم برای همان صدا، همان رونوشت را بازاستفاده میکند.
Deepgram، ElevenLabs، Mistral، OpenAI، و xAI همچنین ارائهدهندگان STT جریانی Voice Call را ثبت میکنند، بنابراین صدای زندهٔ تلفن میتواند بدون انتظار برای کاملشدن ضبط به فروشندهٔ انتخابشده ارسال شود.
برای مکالمههای زندهٔ کاربر، حالت Talk را ترجیح دهید. پیوستهای صوتی دستهای روی مسیر رسانه میمانند؛ صدای بلادرنگ مرورگر، فشار-برای-صحبت بومی، تلفن، و جلسه باید از رویدادهای Talk و کاتالوگهای محدود به نشست که Gateway برمیگرداند استفاده کنند.
نگاشتهای ارائهدهنده (چگونگی تقسیم فروشندگان در سطحها)
سطحهای تصویر، ویدئو، موسیقی، TTS دستهای، صدای بلادرنگ بکاند، و درک رسانه.
OpenAI
سطحهای تصویر، ویدئو، TTS دستهای، STT دستهای، STT جریانی Voice Call، صدای بلادرنگ بکاند، و تعبیهٔ حافظه.
DeepInfra
سطحهای مسیریابی چت/مدل، تولید/ویرایش تصویر، متنبهویدئو، TTS دستهای، STT دستهای، درک رسانهٔ تصویر، و تعبیهٔ حافظه. مدلهای بازرتبهبندی/طبقهبندی/تشخیص شیء بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائهدهنده برای آن دستهها نداشته باشد ثبت نمیشوند.
xAI
تصویر، ویدئو، جستوجو، اجرای کد، TTS دستهای، STT دستهای، و STT جریانی Voice Call. صدای بلادرنگ xAI یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای بلادرنگ بتواند آن را نمایش دهد در OpenClaw ثبت نمیشود.