Tools
ภาพรวมสื่อ
OpenClaw สร้างรูปภาพ วิดีโอ และเพลง เข้าใจสื่อขาเข้า (รูปภาพ เสียง วิดีโอ) และพูดคำตอบออกเสียงด้วยการแปลงข้อความเป็นเสียง ความสามารถด้านสื่อทั้งหมด ขับเคลื่อนด้วยเครื่องมือ: เอเจนต์จะตัดสินใจว่าจะใช้เมื่อใดตาม บทสนทนา และแต่ละเครื่องมือจะปรากฏเฉพาะเมื่อมี provider รองรับอย่างน้อยหนึ่งราย ที่กำหนดค่าไว้
การพูดสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว
Talk มีสามโหมด: realtime แบบ native ของ provider, stt-tts ภายในเครื่องหรือแบบสตรีม
และ transcription สำหรับการจับเสียงพูดแบบเฝ้าดูเท่านั้น โหมดเหล่านี้
ใช้แค็ตตาล็อก provider, ซองเหตุการณ์ และความหมายของการยกเลิกร่วมกับ
โทรศัพท์ การประชุม realtime บนเบราว์เซอร์ และไคลเอ็นต์ push-to-talk แบบ native
ความสามารถ
สร้างและแก้ไขรูปภาพจาก prompt ข้อความหรือรูปภาพอ้างอิงผ่าน
image_generate แบบซิงโครนัส — เสร็จสิ้นในบรรทัดเดียวกับคำตอบ
ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน video_generate
แบบอะซิงโครนัส — ทำงานในเบื้องหลังและโพสต์ผลลัพธ์เมื่อพร้อม
สร้างเพลงหรือแทร็กเสียงผ่าน music_generate แบบอะซิงโครนัสบน
provider ที่ใช้ร่วมกัน; เส้นทาง workflow ของ ComfyUI ทำงานแบบซิงโครนัส
แปลงคำตอบขาออกเป็นเสียงพูดผ่านเครื่องมือ tts พร้อม
การกำหนดค่า messages.tts แบบซิงโครนัส
สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ model provider ที่รองรับ vision และ Plugin สำหรับการเข้าใจสื่อโดยเฉพาะ
ถอดเสียงข้อความเสียงขาเข้าผ่าน provider STT แบบ batch หรือ STT แบบสตรีมของ Voice Call
ตารางความสามารถของ provider
| Provider | รูปภาพ | วิดีโอ | เพลง | TTS | STT | เสียงแบบ realtime | การเข้าใจสื่อ |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
อะซิงโครนัสกับซิงโครนัส
| ความสามารถ | โหมด | เหตุผล |
|---|---|---|
| รูปภาพ | ซิงโครนัส | การตอบกลับจาก provider กลับมาในไม่กี่วินาที; เสร็จสิ้นในบรรทัดเดียวกับคำตอบ |
| การแปลงข้อความเป็นเสียง | ซิงโครนัส | การตอบกลับจาก provider กลับมาในไม่กี่วินาที; แนบกับเสียงของคำตอบ |
| วิดีโอ | อะซิงโครนัส | การประมวลผลของ provider ใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้จนถึง timeout ที่กำหนดค่าไว้ |
| เพลง (ที่ใช้ร่วมกัน) | อะซิงโครนัส | มีลักษณะการประมวลผลของ provider เหมือนกับวิดีโอ |
| เพลง (ComfyUI) | ซิงโครนัส | workflow ภายในเครื่องทำงานในบรรทัดเดียวกับเซิร์ฟเวอร์ ComfyUI ที่กำหนดค่าไว้ |
สำหรับเครื่องมือแบบอะซิงโครนัส OpenClaw จะส่งคำขอไปยัง provider, ส่งคืน task id ทันที และติดตามงานใน task ledger เอเจนต์จะตอบสนอง ข้อความอื่นต่อไปขณะที่งานกำลังทำงาน เมื่อ provider ทำงานเสร็จ OpenClaw จะปลุกเอเจนต์พร้อม path สื่อที่สร้างขึ้น เพื่อให้เอเจนต์บอก ผู้ใช้ได้ และเมื่อ policy การส่งมอบจากแหล่งที่มากำหนด จะส่งต่อผลลัพธ์ผ่าน เครื่องมือข้อความ สำหรับเส้นทางกลุ่ม/ช่องทางที่ใช้ได้เฉพาะเครื่องมือข้อความ OpenClaw ถือว่า หลักฐานการส่งมอบด้วยเครื่องมือข้อความที่ขาดหายเป็นความพยายามทำให้เสร็จสิ้นที่ล้มเหลว และส่ง สื่อ fallback ที่สร้างขึ้นโดยตรงไปยังช่องทางต้นทาง
การแปลงเสียงเป็นข้อความและ Voice Call
Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio และ xAI ทั้งหมดสามารถถอดเสียง
เสียงขาเข้าผ่านเส้นทาง batch tools.media.audio ได้เมื่อกำหนดค่าไว้
Plugin ช่องทางที่ preflight ข้อความเสียงสำหรับการกรอง mention หรือการแยกวิเคราะห์
คำสั่ง จะทำเครื่องหมายไฟล์แนบที่ถอดเสียงแล้วบน context ขาเข้า เพื่อให้รอบ
การเข้าใจสื่อที่ใช้ร่วมกันนำ transcript นั้นกลับมาใช้แทนการเรียก
STT ครั้งที่สองสำหรับเสียงเดียวกัน
Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียน provider STT แบบสตรีมของ Voice Call ด้วย ดังนั้นเสียงโทรศัพท์สดจึงสามารถส่งต่อไปยัง vendor ที่เลือก ได้โดยไม่ต้องรอให้การบันทึกเสร็จสมบูรณ์
สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ โหมด Talk เป็นหลัก ไฟล์แนบเสียงแบบ batch จะอยู่บนเส้นทางสื่อ; realtime บนเบราว์เซอร์, push-to-talk แบบ native, โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแค็ตตาล็อกที่ผูกกับเซสชัน ซึ่ง Gateway ส่งคืน
การแมป provider (วิธีที่ vendor แยกตามพื้นผิว)
พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบ batch, เสียง realtime ฝั่ง backend และ การเข้าใจสื่อ
OpenAI
พื้นผิวรูปภาพ วิดีโอ TTS แบบ batch, STT แบบ batch, STT แบบสตรีมของ Voice Call, เสียง realtime ฝั่ง backend และ memory-embedding
DeepInfra
พื้นผิวการกำหนดเส้นทาง chat/model, การสร้าง/แก้ไขรูปภาพ, ข้อความเป็นวิดีโอ, TTS แบบ batch, STT แบบ batch, การเข้าใจสื่อรูปภาพ และ memory-embedding model rerank/classification/object-detection แบบ native ของ DeepInfra จะยังไม่ ลงทะเบียนจนกว่า OpenClaw จะมีสัญญา provider เฉพาะสำหรับหมวดหมู่เหล่านั้น
xAI
รูปภาพ วิดีโอ การค้นหา code-execution, TTS แบบ batch, STT แบบ batch และ STT แบบสตรีมของ Voice Call เสียง xAI Realtime เป็นความสามารถ upstream แต่ยัง ไม่ได้ลงทะเบียนใน OpenClaw จนกว่าสัญญาเสียง realtime ที่ใช้ร่วมกันจะสามารถ แสดงแทนได้