Tools

Generowanie obrazów

Narzędzie image_generate pozwala agentowi tworzyć i edytować obrazy za pomocą skonfigurowanych providerów. Wygenerowane obrazy są dostarczane automatycznie jako załączniki multimedialne w odpowiedzi agenta.

Szybki start

  • Skonfiguruj uwierzytelnianie

    Ustaw klucz API dla co najmniej jednego providera (na przykład OPENAI_API_KEY, GEMINI_API_KEY, OPENROUTER_API_KEY) albo zaloguj się za pomocą OpenAI Codex OAuth.

  • Wybierz model domyślny (opcjonalnie)

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,      },    },  },}

    Codex OAuth używa tego samego odwołania do modelu openai/gpt-image-2. Gdy skonfigurowany jest profil OAuth openai-codex, OpenClaw kieruje żądania obrazów przez ten profil OAuth zamiast najpierw próbować OPENAI_API_KEY. Jawna konfiguracja models.providers.openai (klucz API, niestandardowy/Azure bazowy URL) przełącza z powrotem na bezpośrednią trasę OpenAI Images API.

  • Zapytaj agenta

    "Wygeneruj obraz przyjaznej maskotki robota."

    Agent automatycznie wywołuje image_generate. Lista dozwolonych narzędzi nie jest potrzebna - narzędzie jest domyślnie włączone, gdy dostępny jest provider.

  • Typowe trasy

    Cel Odwołanie do modelu Uwierzytelnianie
    Generowanie obrazów OpenAI z rozliczaniem przez API openai/gpt-image-2 OPENAI_API_KEY
    Generowanie obrazów OpenAI z uwierzytelnianiem subskrypcji Codex openai/gpt-image-2 OpenAI Codex OAuth
    PNG/WebP OpenAI z przezroczystym tłem openai/gpt-image-1.5 OPENAI_API_KEY lub OpenAI Codex OAuth
    Generowanie obrazów DeepInfra deepinfra/black-forest-labs/FLUX-1-schnell DEEPINFRA_API_KEY
    Generowanie obrazów OpenRouter openrouter/google/gemini-3.1-flash-image-preview OPENROUTER_API_KEY
    Generowanie obrazów LiteLLM litellm/gpt-image-2 LITELLM_API_KEY
    Generowanie obrazów Google Gemini google/gemini-3.1-flash-image-preview GEMINI_API_KEY lub GOOGLE_API_KEY

    To samo narzędzie image_generate obsługuje generowanie obrazu z tekstu oraz edycję obrazów referencyjnych. Użyj image dla jednej referencji albo images dla wielu referencji. Wskazówki wyjścia obsługiwane przez providera, takie jak quality, outputFormat i background, są przekazywane, gdy są dostępne, i zgłaszane jako zignorowane, gdy provider ich nie obsługuje. Wbudowana obsługa przezroczystego tła jest specyficzna dla OpenAI; inni providerzy mogą nadal zachowywać kanał alfa PNG, jeśli emituje go ich backend.

    Obsługiwani providerzy

    Provider Model domyślny Obsługa edycji Uwierzytelnianie
    ComfyUI workflow Tak (1 obraz, skonfigurowane w workflow) COMFY_API_KEY lub COMFY_CLOUD_API_KEY dla chmury
    DeepInfra black-forest-labs/FLUX-1-schnell Tak (1 obraz) DEEPINFRA_API_KEY
    fal fal-ai/flux/dev Tak (limity zależne od modelu) FAL_KEY
    Google gemini-3.1-flash-image-preview Tak GEMINI_API_KEY lub GOOGLE_API_KEY
    LiteLLM gpt-image-2 Tak (do 5 obrazów wejściowych) LITELLM_API_KEY
    MiniMax image-01 Tak (referencja obiektu) MINIMAX_API_KEY lub MiniMax OAuth (minimax-portal)
    OpenAI gpt-image-2 Tak (do 4 obrazów) OPENAI_API_KEY lub OpenAI Codex OAuth
    OpenRouter google/gemini-3.1-flash-image-preview Tak (do 5 obrazów wejściowych) OPENROUTER_API_KEY
    Vydra grok-imagine Nie VYDRA_API_KEY
    xAI grok-imagine-image Tak (do 5 obrazów) XAI_API_KEY

    Użyj action: "list", aby sprawdzić dostępnych providerów i modele w czasie działania:

    text
    /tool image_generate action=list

    Możliwości providerów

    Możliwość ComfyUI DeepInfra fal Google MiniMax OpenAI Vydra xAI
    Generowanie (maks. liczba) Zdefiniowane przez workflow 4 4 4 9 4 1 4
    Edycja / referencja 1 obraz (workflow) 1 obraz Flux: 1; GPT: 10; NB2: 14 Do 5 obrazów 1 obraz (referencja obiektu) Do 5 obrazów - Do 5 obrazów
    Kontrola rozmiaru - - Do 4K - -
    Proporcje obrazu - - - -
    Rozdzielczość (1K/2K/4K) - - - - - 1K, 2K

    Parametry narzędzia

    promptstringrequired

    Prompt generowania obrazu. Wymagany dla action: "generate".

    action"generate" | "list"default: generate

    Użyj "list", aby sprawdzić dostępnych providerów i modele w czasie działania.

    modelstring

    Nadpisanie providera/modelu (np. openai/gpt-image-2). Użyj openai/gpt-image-1.5 dla przezroczystych teł OpenAI.

    imagestring

    Pojedyncza ścieżka obrazu referencyjnego albo URL dla trybu edycji.

    imagesstring[]

    Wiele obrazów referencyjnych dla trybu edycji (do 5 u obsługujących providerów).

    sizestring

    Wskazówka rozmiaru: 1024x1024, 1536x1024, 1024x1536, 2048x2048, 3840x2160.

    aspectRatiostring

    Proporcje obrazu: 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.

    resolution"1K" | "2K" | "4K"
    quality"low" | "medium" | "high" | "auto"

    Wskazówka jakości, gdy provider ją obsługuje.

    outputFormat"png" | "jpeg" | "webp"

    Wskazówka formatu wyjściowego, gdy provider go obsługuje.

    background"transparent" | "opaque" | "auto"

    Wskazówka tła, gdy provider ją obsługuje. Użyj transparent z outputFormat: "png" albo "webp" dla providerów obsługujących przezroczystość.

    countnumber
    timeoutMsnumber

    Opcjonalny limit czasu żądania providera w milisekundach. Gdy Codex wywołuje image_generate przez narzędzia dynamiczne, ta wartość dla pojedynczego wywołania nadal zastępuje skonfigurowaną wartość domyślną i jest ograniczona do 600000 ms.

    filenamestring
    openaiobject

    Wskazówki tylko dla OpenAI: background, moderation, outputCompression i user.

    Konfiguracja

    Wybór modelu

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openai/gpt-image-2",        timeoutMs: 180_000,        fallbacks: [          "openrouter/google/gemini-3.1-flash-image-preview",          "google/gemini-3.1-flash-image-preview",          "fal/fal-ai/flux/dev",        ],      },    },  },}

    Kolejność wyboru providerów

    OpenClaw próbuje providerów w tej kolejności:

    1. Parametr model z wywołania narzędzia (jeśli agent go określi).
    2. imageGenerationModel.primary z konfiguracji.
    3. imageGenerationModel.fallbacks w kolejności.
    4. Automatyczne wykrywanie - wyłącznie domyślne providery z dostępnym uwierzytelnianiem:
      • najpierw bieżący domyślny provider;
      • pozostali zarejestrowani providerzy generowania obrazów w kolejności identyfikatorów providerów.

    Jeśli provider zawiedzie (błąd uwierzytelniania, limit częstotliwości itd.), następny skonfigurowany kandydat jest próbowany automatycznie. Jeśli wszystkie zawiodą, błąd zawiera szczegóły z każdej próby.

    Nadpisania modelu dla pojedynczego wywołania są dokładne

    Nadpisanie model dla pojedynczego wywołania próbuje tylko tego providera/modelu i nie przechodzi do skonfigurowanego głównego/awaryjnego ani automatycznie wykrytych providerów.

    Automatyczne wykrywanie uwzględnia uwierzytelnianie

    Domyślny provider trafia na listę kandydatów tylko wtedy, gdy OpenClaw może faktycznie uwierzytelnić tego providera. Ustaw agents.defaults.mediaGenerationAutoProviderFallback: false, aby używać tylko jawnych wpisów model, primary i fallbacks.

    Limity czasu

    Ustaw agents.defaults.imageGenerationModel.timeoutMs dla wolnych backendów obrazów. Parametr narzędzia timeoutMs dla pojedynczego wywołania zastępuje skonfigurowaną wartość domyślną. Wywołania narzędzi dynamicznych Codex respektują ten sam budżet czasu, ograniczony przez maksymalny limit mostka narzędzi dynamicznych OpenClaw wynoszący 600000 ms.

    Sprawdzanie w czasie działania

    Użyj action: "list", aby sprawdzić aktualnie zarejestrowanych providerów, ich modele domyślne i wskazówki dotyczące zmiennych środowiskowych uwierzytelniania.

    Edycja obrazów

    OpenAI, OpenRouter, Google, DeepInfra, fal, MiniMax, ComfyUI i xAI obsługują edycję obrazów referencyjnych. Przekaż ścieżkę obrazu referencyjnego albo URL:

    text
    "Generate a watercolor version of this photo" + image: "/path/to/photo.jpg"

    OpenAI, OpenRouter, Google i xAI obsługują do 5 obrazów referencyjnych przez parametr images. fal obsługuje 1 obraz referencyjny dla Flux image-to-image, do 10 dla edycji GPT Image 2 oraz do 14 dla edycji Nano Banana 2. MiniMax i ComfyUI obsługują 1.

    Szczegółowe omówienie dostawców

    OpenAI gpt-image-2 (i gpt-image-1.5)

    Generowanie obrazów OpenAI domyślnie używa openai/gpt-image-2. Jeśli skonfigurowano profil OAuth openai-codex, OpenClaw ponownie używa tego samego profilu OAuth, którego używają modele czatu subskrypcji Codex, i wysyła żądanie obrazu przez backend Codex Responses. Starsze bazowe adresy URL Codex, takie jak https://chatgpt.com/backend-api, są kanonizowane do https://chatgpt.com/backend-api/codex dla żądań obrazów. OpenClaw nie przełącza się po cichu na OPENAI_API_KEY dla tego żądania - aby wymusić bezpośrednie routowanie przez OpenAI Images API, skonfiguruj jawnie models.providers.openai z kluczem API, niestandardowym bazowym adresem URL albo endpointem Azure.

    Modele openai/gpt-image-1.5, openai/gpt-image-1 i openai/gpt-image-1-mini nadal można wybrać jawnie. Użyj gpt-image-1.5 do wyjścia PNG/WebP z przezroczystym tłem; obecne API gpt-image-2 odrzuca background: "transparent".

    gpt-image-2 obsługuje zarówno generowanie tekst-na-obraz, jak i edycję obrazów referencyjnych przez to samo narzędzie image_generate. OpenClaw przekazuje do OpenAI prompt, count, size, quality, outputFormat oraz obrazy referencyjne. OpenAI nie otrzymuje bezpośrednio aspectRatio ani resolution; gdy to możliwe, OpenClaw mapuje je na obsługiwany size, w przeciwnym razie narzędzie zgłasza je jako zignorowane nadpisania.

    Opcje specyficzne dla OpenAI znajdują się w obiekcie openai:

    json
    {  "quality": "low",  "outputFormat": "jpeg",  "openai": {    "background": "opaque",    "moderation": "low",    "outputCompression": 60,    "user": "end-user-42"  }}

    openai.background przyjmuje transparent, opaque albo auto; przezroczyste wyniki wymagają outputFormat png albo webp oraz modelu obrazów OpenAI obsługującego przezroczystość. OpenClaw kieruje domyślne żądania gpt-image-2 z przezroczystym tłem do gpt-image-1.5. openai.outputCompression stosuje się do wyjść JPEG/WebP.

    Wskazówka najwyższego poziomu background jest neutralna względem dostawcy i obecnie mapuje się na to samo pole żądania OpenAI background, gdy wybrany jest dostawca OpenAI. Dostawcy, którzy nie deklarują obsługi tła, zwracają ją w ignoredOverrides, zamiast otrzymać nieobsługiwany parametr.

    Aby kierować generowanie obrazów OpenAI przez wdrożenie Azure OpenAI zamiast api.openai.com, zobacz endpointy Azure OpenAI.

    Modele obrazów OpenRouter

    Generowanie obrazów OpenRouter używa tego samego OPENROUTER_API_KEY i jest routowane przez API obrazów chat completions OpenRouter. Wybieraj modele obrazów OpenRouter z prefiksem openrouter/:

    json5
    {  agents: {    defaults: {      imageGenerationModel: {        primary: "openrouter/google/gemini-3.1-flash-image-preview",      },    },  },}

    OpenClaw przekazuje do OpenRouter prompt, count, obrazy referencyjne oraz zgodne z Gemini wskazówki aspectRatio / resolution. Obecne wbudowane skróty modeli obrazów OpenRouter obejmują google/gemini-3.1-flash-image-preview, google/gemini-3-pro-image-preview i openai/gpt-5.4-image-2. Użyj action: "list", aby zobaczyć, co udostępnia skonfigurowany Plugin.

    Podwójne uwierzytelnianie MiniMax

    Generowanie obrazów MiniMax jest dostępne przez obie dołączone ścieżki uwierzytelniania MiniMax:

    • minimax/image-01 dla konfiguracji z kluczem API
    • minimax-portal/image-01 dla konfiguracji OAuth
    xAI grok-imagine-image

    Dołączony dostawca xAI używa /v1/images/generations dla żądań zawierających tylko prompt oraz /v1/images/edits, gdy obecne jest image albo images.

    • Modele: xai/grok-imagine-image, xai/grok-imagine-image-pro
    • Liczba: do 4
    • Referencje: jedno image albo do pięciu images
    • Proporcje obrazu: 1:1, 16:9, 9:16, 4:3, 3:4, 2:3, 3:2
    • Rozdzielczości: 1K, 2K
    • Wyniki: zwracane jako załączniki obrazów zarządzane przez OpenClaw

    OpenClaw celowo nie udostępnia natywnych dla xAI opcji quality, mask, user ani dodatkowych proporcji obrazu dostępnych tylko natywnie, dopóki te kontrolki nie pojawią się we współdzielonym, międzydostawczym kontrakcie image_generate.

    Przykłady

    Generowanie (krajobraz 4K)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="A clean editorial poster for OpenClaw image generation" size=3840x2160 count=1

    Generowanie (przezroczysty PNG)

    text
    /tool image_generate action=generate model=openai/gpt-image-1.5 prompt="A simple red circle sticker on a transparent background" outputFormat=png background=transparent

    Równoważne CLI:

    bash
    openclaw infer image generate \--model openai/gpt-image-1.5 \--output-format png \--background transparent \--prompt "A simple red circle sticker on a transparent background" \--json

    Generowanie (dwa kwadratowe)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Two visual directions for a calm productivity app icon" size=1024x1024 count=2

    Edycja (jedna referencja)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Keep the subject, replace the background with a bright studio setup" image=/path/to/reference.png size=1024x1536

    Edycja (wiele referencji)

    text
    /tool image_generate action=generate model=openai/gpt-image-2 prompt="Combine the character identity from the first image with the color palette from the second" images='["/path/to/character.png","/path/to/palette.jpg"]' size=1536x1024

    Te same flagi --output-format i --background są dostępne w openclaw infer image edit; --openai-background pozostaje aliasem specyficznym dla OpenAI. Dołączeni dostawcy inni niż OpenAI nie deklarują obecnie jawnej kontroli tła, więc background: "transparent" jest dla nich zgłaszane jako zignorowane.

    Powiązane

    • Przegląd narzędzi - wszystkie dostępne narzędzia agenta
    • ComfyUI - konfiguracja lokalnego ComfyUI i workflow Comfy Cloud
    • fal - konfiguracja dostawcy obrazów i wideo fal
    • Google (Gemini) - konfiguracja dostawcy obrazów Gemini
    • MiniMax - konfiguracja dostawcy obrazów MiniMax
    • OpenAI - konfiguracja dostawcy OpenAI Images
    • Vydra - konfiguracja obrazów, wideo i mowy Vydra
    • xAI - konfiguracja obrazów, wideo, wyszukiwania, wykonywania kodu i TTS Grok
    • Odniesienie konfiguracji - konfiguracja imageGenerationModel
    • Modele - konfiguracja modeli i failover
    Was this useful?