Tools

نمای کلی رسانه‌ها

OpenClaw تصویر، ویدئو و موسیقی تولید می‌کند، رسانه‌های ورودی (تصویر، صدا، ویدئو) را می‌فهمد و پاسخ‌ها را با تبدیل متن به گفتار بلند می‌خواند. همهٔ قابلیت‌های رسانه‌ای ابزارمحور هستند: عامل بر اساس مکالمه تصمیم می‌گیرد چه زمانی از آن‌ها استفاده کند، و هر ابزار فقط زمانی ظاهر می‌شود که دست‌کم یک ارائه‌دهندهٔ پشتیبان پیکربندی شده باشد.

گفتار زنده به‌جای مسیر ابزار رسانهٔ تک‌مرحله‌ای از قرارداد نشست Talk استفاده می‌کند. Talk سه حالت دارد: realtime بومیِ ارائه‌دهنده، stt-tts محلی یا جریانی، و transcription برای ضبط گفتار فقط در حالت مشاهده. این حالت‌ها کاتالوگ‌های ارائه‌دهنده، پوشش‌های رویداد و معنای لغو را با تلفن، جلسه‌ها، بلادرنگ مرورگر، و کلاینت‌های بومی فشار-برای-صحبت مشترک دارند.

قابلیت‌ها

تولید تصویر

تصویرها را از اعلان‌های متنی یا تصویرهای مرجع از طریق image_generate ایجاد و ویرایش کنید. همگام — درون‌خطی همراه پاسخ کامل می‌شود.

تولید ویدئو

متن‌به‌ویدئو، تصویر‌به‌ویدئو، و ویدئو‌به‌ویدئو از طریق video_generate. ناهمگام — در پس‌زمینه اجرا می‌شود و نتیجه را پس از آماده‌شدن ارسال می‌کند.

تولید موسیقی

موسیقی یا ترک‌های صوتی را از طریق music_generate تولید کنید. روی ارائه‌دهندگان مشترک ناهمگام است؛ مسیر گردش‌کار ComfyUI به‌صورت همگام اجرا می‌شود.

تبدیل متن به گفتار

پاسخ‌های خروجی را با ابزار tts به‌همراه پیکربندی messages.tts به صدای گفتاری تبدیل کنید. همگام.

درک رسانه

تصویرها، صدا و ویدئوی ورودی را با استفاده از ارائه‌دهندگان مدل دارای قابلیت بینایی و Pluginهای اختصاصی درک رسانه خلاصه کنید.

تبدیل گفتار به متن

پیام‌های صوتی ورودی را از طریق STT دسته‌ای یا ارائه‌دهندگان STT جریانی Voice Call رونویسی کنید.

ماتریس قابلیت‌های ارائه‌دهنده

ارائه‌دهنده	تصویر	ویدئو	موسیقی	TTS	STT	صدای بلادرنگ	درک رسانه
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓		✓			✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

ناهمگام در برابر همگام

قابلیت	حالت	دلیل
تصویر	همگام	پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ درون‌خطی همراه پاسخ کامل می‌شود.
تبدیل متن به گفتار	همگام	پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ به صدای پاسخ پیوست می‌شود.
ویدئو	ناهمگام	پردازش ارائه‌دهنده از 30 ثانیه تا چند دقیقه طول می‌کشد؛ صف‌های کند می‌توانند تا زمان‌پایان پیکربندی‌شده اجرا شوند.
موسیقی (مشترک)	ناهمگام	همان ویژگی پردازش ارائه‌دهنده مانند ویدئو را دارد.
موسیقی (ComfyUI)	همگام	گردش‌کار محلی درون‌خطی روی سرور ComfyUI پیکربندی‌شده اجرا می‌شود.

برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائه‌دهنده ارسال می‌کند، فوراً یک شناسهٔ وظیفه برمی‌گرداند و کار را در دفتر وظایف پیگیری می‌کند. عامل هنگام اجرای کار به پاسخ‌دادن به پیام‌های دیگر ادامه می‌دهد. وقتی ارائه‌دهنده کار را تمام می‌کند، OpenClaw عامل را با مسیرهای رسانهٔ تولیدشده بیدار می‌کند تا بتواند به کاربر اطلاع دهد و، وقتی سیاست تحویل منبع لازم بداند، نتیجه را از طریق ابزار پیام بازپخش کند. برای مسیرهای گروه/کانال که فقط از ابزار پیام استفاده می‌کنند، OpenClaw نبود شواهد تحویل ابزار پیام را به‌عنوان تلاش ناموفق برای تکمیل در نظر می‌گیرد و جایگزین رسانهٔ تولیدشده را مستقیماً به کانال اصلی می‌فرستد.

تبدیل گفتار به متن و Voice Call

Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، SenseAudio، و xAI همگی می‌توانند صدای ورودی را وقتی پیکربندی شده باشند از طریق مسیر دسته‌ای tools.media.audio رونویسی کنند. Pluginهای کانال که یک یادداشت صوتی را برای دروازه‌گذاری اشاره یا تجزیهٔ فرمان پیش‌بررسی می‌کنند، پیوست رونویسی‌شده را روی زمینهٔ ورودی علامت‌گذاری می‌کنند، بنابراین گذر مشترک درک رسانه به‌جای انجام یک فراخوانی STT دوم برای همان صدا، همان رونوشت را بازاستفاده می‌کند.

Deepgram، ElevenLabs، Mistral، OpenAI، و xAI همچنین ارائه‌دهندگان STT جریانی Voice Call را ثبت می‌کنند، بنابراین صدای زندهٔ تلفن می‌تواند بدون انتظار برای کامل‌شدن ضبط به فروشندهٔ انتخاب‌شده ارسال شود.

برای مکالمه‌های زندهٔ کاربر، حالت Talk را ترجیح دهید. پیوست‌های صوتی دسته‌ای روی مسیر رسانه می‌مانند؛ صدای بلادرنگ مرورگر، فشار-برای-صحبت بومی، تلفن، و جلسه باید از رویدادهای Talk و کاتالوگ‌های محدود به نشست که Gateway برمی‌گرداند استفاده کنند.

نگاشت‌های ارائه‌دهنده (چگونگی تقسیم فروشندگان در سطح‌ها)

Google

سطح‌های تصویر، ویدئو، موسیقی، TTS دسته‌ای، صدای بلادرنگ بک‌اند، و درک رسانه.

OpenAI

سطح‌های تصویر، ویدئو، TTS دسته‌ای، STT دسته‌ای، STT جریانی Voice Call، صدای بلادرنگ بک‌اند، و تعبیهٔ حافظه.

DeepInfra

سطح‌های مسیریابی چت/مدل، تولید/ویرایش تصویر، متن‌به‌ویدئو، TTS دسته‌ای، STT دسته‌ای، درک رسانهٔ تصویر، و تعبیهٔ حافظه. مدل‌های بازرتبه‌بندی/طبقه‌بندی/تشخیص شیء بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائه‌دهنده برای آن دسته‌ها نداشته باشد ثبت نمی‌شوند.

xAI

تصویر، ویدئو، جست‌وجو، اجرای کد، TTS دسته‌ای، STT دسته‌ای، و STT جریانی Voice Call. صدای بلادرنگ xAI یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای بلادرنگ بتواند آن را نمایش دهد در OpenClaw ثبت نمی‌شود.

نمای کلی رسانه‌ها

قابلیت‌ها

ماتریس قابلیت‌های ارائه‌دهنده

ناهمگام در برابر همگام

تبدیل گفتار به متن و Voice Call

نگاشت‌های ارائه‌دهنده (چگونگی تقسیم فروشندگان در سطح‌ها)

مرتبط

Ask OpenClaw

# قابلیت‌ها

# ماتریس قابلیت‌های ارائه‌دهنده

# ناهمگام در برابر همگام

# تبدیل گفتار به متن و Voice Call

# نگاشت‌های ارائه‌دهنده (چگونگی تقسیم فروشندگان در سطح‌ها)

# مرتبط

قابلیت‌ها

ماتریس قابلیت‌های ارائه‌دهنده

ناهمگام در برابر همگام

تبدیل گفتار به متن و Voice Call

نگاشت‌های ارائه‌دهنده (چگونگی تقسیم فروشندگان در سطح‌ها)

مرتبط