Tools

メディアの概要

OpenClaw は画像、動画、音楽を生成し、受信メディア (画像、音声、動画)を理解し、テキスト読み上げで返信を音声として読み上げます。すべての メディア機能はツール駆動です。エージェントは会話に基づいて使用タイミングを判断し、 各ツールは少なくとも 1 つのバックエンド provider が設定されている場合にのみ表示されます。

ライブ音声は、単発のメディアツール パスではなく Talk セッション契約を使用します。Talk には 3 つのモードがあります。provider ネイティブの realtime、ローカルまたはストリーミングの stt-tts、観察専用の音声キャプチャ向けの transcription です。これらのモードは、 telephony、会議、ブラウザリアルタイム、ネイティブのプッシュトゥトーククライアントと provider カタログ、イベントエンベロープ、キャンセルセマンティクスを共有します。

機能

Provider 機能マトリクス

Provider 画像 動画 音楽 TTS STT リアルタイム音声 メディア理解
Alibaba
BytePlus
ComfyUI
DeepInfra
Deepgram
ElevenLabs
fal
Google
Gradium
Local CLI
Microsoft
MiniMax
Mistral
OpenAI
OpenRouter
Qwen
Runway
SenseAudio
Together
Vydra
xAI
Xiaomi MiMo

非同期と同期

機能 モード 理由
画像 同期式 Provider のレスポンスは数秒で返り、返信内でインラインに完了します。
テキスト読み上げ 同期式 Provider のレスポンスは数秒で返り、返信オーディオに添付されます。
動画 非同期 Provider の処理には 30 秒から数分かかります。遅いキューは設定されたタイムアウトまで実行されることがあります。
音楽(共有) 非同期 動画と同じ provider 処理特性です。
音楽(ComfyUI) 同期式 ローカルワークフローは、設定された ComfyUI サーバーに対してインラインで実行されます。

非同期ツールでは、OpenClaw はリクエストを provider に送信し、ただちにタスク id を返して、タスク台帳でジョブを追跡します。エージェントは ジョブの実行中も他のメッセージへの応答を続けます。provider が完了すると、 OpenClaw は生成されたメディアパスとともにエージェントを起動し、エージェントが ユーザーに知らせ、ソース配信ポリシーで必要な場合は メッセージツールを通じて結果を中継できるようにします。メッセージツール専用のグループ/チャンネルルートでは、OpenClaw は メッセージツールの配信証拠が欠けていることを完了試行の失敗として扱い、 生成メディアのフォールバックを元のチャンネルに直接送信します。

音声テキスト化と Voice Call

Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、OpenRouter、SenseAudio、xAI はすべて、設定されている場合、 バッチ tools.media.audio パスを通じて受信音声を文字起こしできます。 メンションゲーティングまたはコマンド 解析のためにボイスノートをプリフライトするチャンネル Plugin は、受信コンテキスト上に文字起こし済み添付ファイルをマークするため、共有 メディア理解パスは同じ音声に対して 2 回目の STT 呼び出しを行わず、その transcript を再利用します。

Deepgram、ElevenLabs、Mistral、OpenAI、xAI は Voice Call ストリーミング STT provider も登録するため、ライブ電話音声を、完了した録音を待たずに選択された vendor へ転送できます。

ライブのユーザー会話では、Talk モードを優先してください。バッチ音声 添付ファイルはメディアパスに留まります。ブラウザリアルタイム、ネイティブのプッシュトゥトーク、 telephony、会議音声は、Talk イベントと Gateway から返されるセッションスコープの カタログを使用する必要があります。

Provider マッピング(vendor がサーフェス間でどのように分かれるか)

Google

画像、動画、音楽、バッチ TTS、バックエンドリアルタイム音声、 メディア理解サーフェス。

OpenAI

画像、動画、バッチ TTS、バッチ STT、Voice Call ストリーミング STT、バックエンド リアルタイム音声、メモリ埋め込みサーフェス。

DeepInfra

チャット/モデルルーティング、画像生成/編集、テキストから動画、バッチ TTS、 バッチ STT、画像メディア理解、メモリ埋め込みサーフェス。 DeepInfra ネイティブのリランク/分類/物体検出モデルは、OpenClaw がそれらの カテゴリ専用の provider 契約を持つまで登録されません。

xAI

画像、動画、検索、コード実行、バッチ TTS、バッチ STT、Voice Call ストリーミング STT。xAI Realtime 音声はアップストリーム機能ですが、 共有リアルタイム音声契約がそれを表現できるようになるまで OpenClaw には登録されません。

関連

Was this useful?