---
read_when:
    - กำลังมองหาภาพรวมเกี่ยวกับความสามารถด้านสื่อของ OpenClaw
    - การตัดสินใจว่าจะกำหนดค่าผู้ให้บริการสื่อใด
    - ทำความเข้าใจวิธีการทำงานของการสร้างสื่อแบบอะซิงโครนัส
sidebarTitle: Media overview
summary: ภาพรวมความสามารถด้านรูปภาพ วิดีโอ ดนตรี เสียงพูด และการทำความเข้าใจสื่อ
title: ภาพรวมสื่อ
x-i18n:
    generated_at: "2026-05-12T08:46:50Z"
    model: gpt-5.5
    provider: openai
    source_hash: a7ca89d058467968ee140cb3318fe8a1fb96d09fe7c59982efce36eb9b714591
    source_path: tools/media-overview.md
    workflow: 16
---

OpenClaw สร้างรูปภาพ วิดีโอ และเพลง เข้าใจสื่อขาเข้า
(รูปภาพ เสียง วิดีโอ) และพูดคำตอบออกเสียงด้วยการแปลงข้อความเป็นเสียง ความสามารถด้านสื่อทั้งหมด
ขับเคลื่อนด้วยเครื่องมือ: เอเจนต์จะตัดสินใจว่าจะใช้เมื่อใดตาม
บทสนทนา และแต่ละเครื่องมือจะปรากฏเฉพาะเมื่อมี provider รองรับอย่างน้อยหนึ่งราย
ที่กำหนดค่าไว้

การพูดสดใช้สัญญาเซสชัน Talk แทนเส้นทางเครื่องมือสื่อแบบครั้งเดียว
Talk มีสามโหมด: `realtime` แบบ native ของ provider, `stt-tts` ภายในเครื่องหรือแบบสตรีม
และ `transcription` สำหรับการจับเสียงพูดแบบเฝ้าดูเท่านั้น โหมดเหล่านี้
ใช้แค็ตตาล็อก provider, ซองเหตุการณ์ และความหมายของการยกเลิกร่วมกับ
โทรศัพท์ การประชุม realtime บนเบราว์เซอร์ และไคลเอ็นต์ push-to-talk แบบ native

## ความสามารถ

<CardGroup cols={2}>
  <Card title="การสร้างรูปภาพ" href="/th/tools/image-generation" icon="image">
    สร้างและแก้ไขรูปภาพจาก prompt ข้อความหรือรูปภาพอ้างอิงผ่าน
    `image_generate` แบบซิงโครนัส — เสร็จสิ้นในบรรทัดเดียวกับคำตอบ
  </Card>
  <Card title="การสร้างวิดีโอ" href="/th/tools/video-generation" icon="video">
    ข้อความเป็นวิดีโอ รูปภาพเป็นวิดีโอ และวิดีโอเป็นวิดีโอผ่าน `video_generate`
    แบบอะซิงโครนัส — ทำงานในเบื้องหลังและโพสต์ผลลัพธ์เมื่อพร้อม
  </Card>
  <Card title="การสร้างเพลง" href="/th/tools/music-generation" icon="music">
    สร้างเพลงหรือแทร็กเสียงผ่าน `music_generate` แบบอะซิงโครนัสบน
    provider ที่ใช้ร่วมกัน; เส้นทาง workflow ของ ComfyUI ทำงานแบบซิงโครนัส
  </Card>
  <Card title="การแปลงข้อความเป็นเสียง" href="/th/tools/tts" icon="microphone">
    แปลงคำตอบขาออกเป็นเสียงพูดผ่านเครื่องมือ `tts` พร้อม
    การกำหนดค่า `messages.tts` แบบซิงโครนัส
  </Card>
  <Card title="การเข้าใจสื่อ" href="/th/nodes/media-understanding" icon="eye">
    สรุปรูปภาพ เสียง และวิดีโอขาเข้าโดยใช้ model provider
    ที่รองรับ vision และ Plugin สำหรับการเข้าใจสื่อโดยเฉพาะ
  </Card>
  <Card title="การแปลงเสียงเป็นข้อความ" href="/th/nodes/audio" icon="ear-listen">
    ถอดเสียงข้อความเสียงขาเข้าผ่าน provider STT แบบ batch หรือ STT แบบสตรีมของ Voice Call
  </Card>
</CardGroup>

## ตารางความสามารถของ provider

| Provider    | รูปภาพ | วิดีโอ | เพลง | TTS | STT | เสียงแบบ realtime | การเข้าใจสื่อ |
| ----------- | :---: | :---: | :---: | :-: | :-: | :------------: | :-----------------: |
| Alibaba     |       |   ✓   |       |     |     |                |                     |
| BytePlus    |       |   ✓   |       |     |     |                |                     |
| ComfyUI     |   ✓   |   ✓   |   ✓   |     |     |                |                     |
| DeepInfra   |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Deepgram    |       |       |       |     |  ✓  |       ✓        |                     |
| ElevenLabs  |       |       |       |  ✓  |  ✓  |                |                     |
| fal         |   ✓   |   ✓   |       |     |     |                |                     |
| Google      |   ✓   |   ✓   |   ✓   |  ✓  |     |       ✓        |          ✓          |
| Gradium     |       |       |       |  ✓  |     |                |                     |
| Local CLI   |       |       |       |  ✓  |     |                |                     |
| Microsoft   |       |       |       |  ✓  |     |                |                     |
| MiniMax     |   ✓   |   ✓   |   ✓   |  ✓  |     |                |                     |
| Mistral     |       |       |       |     |  ✓  |                |                     |
| OpenAI      |   ✓   |   ✓   |       |  ✓  |  ✓  |       ✓        |          ✓          |
| OpenRouter  |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Qwen        |       |   ✓   |       |     |     |                |                     |
| Runway      |       |   ✓   |       |     |     |                |                     |
| SenseAudio  |       |       |       |     |  ✓  |                |                     |
| Together    |       |   ✓   |       |     |     |                |                     |
| Vydra       |   ✓   |   ✓   |       |  ✓  |     |                |                     |
| xAI         |   ✓   |   ✓   |       |  ✓  |  ✓  |                |          ✓          |
| Xiaomi MiMo |   ✓   |       |       |  ✓  |     |                |          ✓          |

<Note>
การเข้าใจสื่อใช้ model ใดก็ได้ที่รองรับ vision หรือเสียงซึ่งลงทะเบียนไว้
ในการกำหนดค่า provider ของคุณ ตารางด้านบนแสดงรายการ provider ที่มีการรองรับ
การเข้าใจสื่อโดยเฉพาะ; provider LLM หลายรูปแบบส่วนใหญ่ (Anthropic, Google,
OpenAI เป็นต้น) ก็สามารถเข้าใจสื่อขาเข้าได้เช่นกันเมื่อกำหนดค่าเป็น model ตอบกลับ
ที่ใช้งานอยู่
</Note>

## อะซิงโครนัสกับซิงโครนัส

| ความสามารถ      | โหมด         | เหตุผล                                                                                                  |
| --------------- | ------------ | ---------------------------------------------------------------------------------------------------- |
| รูปภาพ           | ซิงโครนัส  | การตอบกลับจาก provider กลับมาในไม่กี่วินาที; เสร็จสิ้นในบรรทัดเดียวกับคำตอบ                                   |
| การแปลงข้อความเป็นเสียง  | ซิงโครนัส  | การตอบกลับจาก provider กลับมาในไม่กี่วินาที; แนบกับเสียงของคำตอบ                                   |
| วิดีโอ           | อะซิงโครนัส | การประมวลผลของ provider ใช้เวลา 30 วินาทีถึงหลายนาที; คิวที่ช้าอาจทำงานได้จนถึง timeout ที่กำหนดค่าไว้ |
| เพลง (ที่ใช้ร่วมกัน)  | อะซิงโครนัส | มีลักษณะการประมวลผลของ provider เหมือนกับวิดีโอ                                                    |
| เพลง (ComfyUI) | ซิงโครนัส  | workflow ภายในเครื่องทำงานในบรรทัดเดียวกับเซิร์ฟเวอร์ ComfyUI ที่กำหนดค่าไว้                                    |

สำหรับเครื่องมือแบบอะซิงโครนัส OpenClaw จะส่งคำขอไปยัง provider, ส่งคืน task
id ทันที และติดตามงานใน task ledger เอเจนต์จะตอบสนอง
ข้อความอื่นต่อไปขณะที่งานกำลังทำงาน เมื่อ provider ทำงานเสร็จ
OpenClaw จะปลุกเอเจนต์พร้อม path สื่อที่สร้างขึ้น เพื่อให้เอเจนต์บอก
ผู้ใช้ได้ และเมื่อ policy การส่งมอบจากแหล่งที่มากำหนด จะส่งต่อผลลัพธ์ผ่าน
เครื่องมือข้อความ สำหรับเส้นทางกลุ่ม/ช่องทางที่ใช้ได้เฉพาะเครื่องมือข้อความ OpenClaw ถือว่า
หลักฐานการส่งมอบด้วยเครื่องมือข้อความที่ขาดหายเป็นความพยายามทำให้เสร็จสิ้นที่ล้มเหลว และส่ง
สื่อ fallback ที่สร้างขึ้นโดยตรงไปยังช่องทางต้นทาง

## การแปลงเสียงเป็นข้อความและ Voice Call

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio และ xAI ทั้งหมดสามารถถอดเสียง
เสียงขาเข้าผ่านเส้นทาง batch `tools.media.audio` ได้เมื่อกำหนดค่าไว้
Plugin ช่องทางที่ preflight ข้อความเสียงสำหรับการกรอง mention หรือการแยกวิเคราะห์
คำสั่ง จะทำเครื่องหมายไฟล์แนบที่ถอดเสียงแล้วบน context ขาเข้า เพื่อให้รอบ
การเข้าใจสื่อที่ใช้ร่วมกันนำ transcript นั้นกลับมาใช้แทนการเรียก
STT ครั้งที่สองสำหรับเสียงเดียวกัน

Deepgram, ElevenLabs, Mistral, OpenAI และ xAI ยังลงทะเบียน provider STT แบบสตรีมของ Voice Call
ด้วย ดังนั้นเสียงโทรศัพท์สดจึงสามารถส่งต่อไปยัง vendor ที่เลือก
ได้โดยไม่ต้องรอให้การบันทึกเสร็จสมบูรณ์

สำหรับบทสนทนาสดกับผู้ใช้ ให้ใช้ [โหมด Talk](/th/nodes/talk) เป็นหลัก ไฟล์แนบเสียงแบบ batch
จะอยู่บนเส้นทางสื่อ; realtime บนเบราว์เซอร์, push-to-talk แบบ native,
โทรศัพท์ และเสียงการประชุมควรใช้เหตุการณ์ Talk และแค็ตตาล็อกที่ผูกกับเซสชัน
ซึ่ง Gateway ส่งคืน

## การแมป provider (วิธีที่ vendor แยกตามพื้นผิว)

<AccordionGroup>
  <Accordion title="Google">
    พื้นผิวรูปภาพ วิดีโอ เพลง TTS แบบ batch, เสียง realtime ฝั่ง backend และ
    การเข้าใจสื่อ
  </Accordion>
  <Accordion title="OpenAI">
    พื้นผิวรูปภาพ วิดีโอ TTS แบบ batch, STT แบบ batch, STT แบบสตรีมของ Voice Call, เสียง
    realtime ฝั่ง backend และ memory-embedding
  </Accordion>
  <Accordion title="DeepInfra">
    พื้นผิวการกำหนดเส้นทาง chat/model, การสร้าง/แก้ไขรูปภาพ, ข้อความเป็นวิดีโอ, TTS แบบ batch,
    STT แบบ batch, การเข้าใจสื่อรูปภาพ และ memory-embedding
    model rerank/classification/object-detection แบบ native ของ DeepInfra จะยังไม่
    ลงทะเบียนจนกว่า OpenClaw จะมีสัญญา provider เฉพาะสำหรับหมวดหมู่เหล่านั้น
  </Accordion>
  <Accordion title="xAI">
    รูปภาพ วิดีโอ การค้นหา code-execution, TTS แบบ batch, STT แบบ batch และ STT แบบสตรีมของ Voice
    Call เสียง xAI Realtime เป็นความสามารถ upstream แต่ยัง
    ไม่ได้ลงทะเบียนใน OpenClaw จนกว่าสัญญาเสียง realtime ที่ใช้ร่วมกันจะสามารถ
    แสดงแทนได้
  </Accordion>
</AccordionGroup>

## ที่เกี่ยวข้อง

- [การสร้างรูปภาพ](/th/tools/image-generation)
- [การสร้างวิดีโอ](/th/tools/video-generation)
- [การสร้างเพลง](/th/tools/music-generation)
- [การแปลงข้อความเป็นเสียง](/th/tools/tts)
- [การเข้าใจสื่อ](/th/nodes/media-understanding)
- [โหนดเสียง](/th/nodes/audio)
- [โหมด Talk](/th/nodes/talk)