Tools

نمای کلی رسانه‌ها

OpenClaw تصویر، ویدئو و موسیقی تولید می‌کند، رسانه‌های ورودی (تصویر، صدا، ویدئو) را می‌فهمد و پاسخ‌ها را با تبدیل متن به گفتار بلند می‌خواند. همهٔ قابلیت‌های رسانه‌ای ابزارمحور هستند: عامل بر اساس مکالمه تصمیم می‌گیرد چه زمانی از آن‌ها استفاده کند، و هر ابزار فقط زمانی ظاهر می‌شود که دست‌کم یک ارائه‌دهندهٔ پشتیبان پیکربندی شده باشد.

گفتار زنده به‌جای مسیر ابزار رسانهٔ تک‌مرحله‌ای از قرارداد نشست Talk استفاده می‌کند. Talk سه حالت دارد: realtime بومیِ ارائه‌دهنده، stt-tts محلی یا جریانی، و transcription برای ضبط گفتار فقط در حالت مشاهده. این حالت‌ها کاتالوگ‌های ارائه‌دهنده، پوشش‌های رویداد و معنای لغو را با تلفن، جلسه‌ها، بلادرنگ مرورگر، و کلاینت‌های بومی فشار-برای-صحبت مشترک دارند.

قابلیت‌ها

ماتریس قابلیت‌های ارائه‌دهنده

ارائه‌دهنده تصویر ویدئو موسیقی TTS STT صدای بلادرنگ درک رسانه
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

ناهمگام در برابر همگام

قابلیت حالت دلیل
تصویر همگام پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ درون‌خطی همراه پاسخ کامل می‌شود.
تبدیل متن به گفتار همگام پاسخ‌های ارائه‌دهنده در چند ثانیه برمی‌گردند؛ به صدای پاسخ پیوست می‌شود.
ویدئو ناهمگام پردازش ارائه‌دهنده از 30 ثانیه تا چند دقیقه طول می‌کشد؛ صف‌های کند می‌توانند تا زمان‌پایان پیکربندی‌شده اجرا شوند.
موسیقی (مشترک) ناهمگام همان ویژگی پردازش ارائه‌دهنده مانند ویدئو را دارد.
موسیقی (ComfyUI) همگام گردش‌کار محلی درون‌خطی روی سرور ComfyUI پیکربندی‌شده اجرا می‌شود.

برای ابزارهای ناهمگام، OpenClaw درخواست را به ارائه‌دهنده ارسال می‌کند، فوراً یک شناسهٔ وظیفه برمی‌گرداند و کار را در دفتر وظایف پیگیری می‌کند. عامل هنگام اجرای کار به پاسخ‌دادن به پیام‌های دیگر ادامه می‌دهد. وقتی ارائه‌دهنده کار را تمام می‌کند، OpenClaw عامل را با مسیرهای رسانهٔ تولیدشده بیدار می‌کند تا بتواند به کاربر اطلاع دهد و، وقتی سیاست تحویل منبع لازم بداند، نتیجه را از طریق ابزار پیام بازپخش کند. برای مسیرهای گروه/کانال که فقط از ابزار پیام استفاده می‌کنند، OpenClaw نبود شواهد تحویل ابزار پیام را به‌عنوان تلاش ناموفق برای تکمیل در نظر می‌گیرد و جایگزین رسانهٔ تولیدشده را مستقیماً به کانال اصلی می‌فرستد.

تبدیل گفتار به متن و Voice Call

Deepgram، DeepInfra، ElevenLabs، Mistral، OpenAI، SenseAudio، و xAI همگی می‌توانند صدای ورودی را وقتی پیکربندی شده باشند از طریق مسیر دسته‌ای tools.media.audio رونویسی کنند. Pluginهای کانال که یک یادداشت صوتی را برای دروازه‌گذاری اشاره یا تجزیهٔ فرمان پیش‌بررسی می‌کنند، پیوست رونویسی‌شده را روی زمینهٔ ورودی علامت‌گذاری می‌کنند، بنابراین گذر مشترک درک رسانه به‌جای انجام یک فراخوانی STT دوم برای همان صدا، همان رونوشت را بازاستفاده می‌کند.

Deepgram، ElevenLabs، Mistral، OpenAI، و xAI همچنین ارائه‌دهندگان STT جریانی Voice Call را ثبت می‌کنند، بنابراین صدای زندهٔ تلفن می‌تواند بدون انتظار برای کامل‌شدن ضبط به فروشندهٔ انتخاب‌شده ارسال شود.

برای مکالمه‌های زندهٔ کاربر، حالت Talk را ترجیح دهید. پیوست‌های صوتی دسته‌ای روی مسیر رسانه می‌مانند؛ صدای بلادرنگ مرورگر، فشار-برای-صحبت بومی، تلفن، و جلسه باید از رویدادهای Talk و کاتالوگ‌های محدود به نشست که Gateway برمی‌گرداند استفاده کنند.

نگاشت‌های ارائه‌دهنده (چگونگی تقسیم فروشندگان در سطح‌ها)

Google

سطح‌های تصویر، ویدئو، موسیقی، TTS دسته‌ای، صدای بلادرنگ بک‌اند، و درک رسانه.

OpenAI

سطح‌های تصویر، ویدئو، TTS دسته‌ای، STT دسته‌ای، STT جریانی Voice Call، صدای بلادرنگ بک‌اند، و تعبیهٔ حافظه.

DeepInfra

سطح‌های مسیریابی چت/مدل، تولید/ویرایش تصویر، متن‌به‌ویدئو، TTS دسته‌ای، STT دسته‌ای، درک رسانهٔ تصویر، و تعبیهٔ حافظه. مدل‌های بازرتبه‌بندی/طبقه‌بندی/تشخیص شیء بومی DeepInfra تا زمانی که OpenClaw قراردادهای اختصاصی ارائه‌دهنده برای آن دسته‌ها نداشته باشد ثبت نمی‌شوند.

xAI

تصویر، ویدئو، جست‌وجو، اجرای کد، TTS دسته‌ای، STT دسته‌ای، و STT جریانی Voice Call. صدای بلادرنگ xAI یک قابلیت بالادستی است اما تا زمانی که قرارداد مشترک صدای بلادرنگ بتواند آن را نمایش دهد در OpenClaw ثبت نمی‌شود.

مرتبط