Tools

Busca na web

A ferramenta web_fetch faz um HTTP GET simples e extrai conteúdo legível (HTML para markdown ou texto). Ela não executa JavaScript.

Para sites com muito JS ou páginas protegidas por login, use o Navegador Web.

Início rápido

web_fetch vem habilitada por padrão -- nenhuma configuração é necessária. O agente pode chamá-la imediatamente:

javascript
await web_fetch({ url: "https://example.com/article" });

Parâmetros da ferramenta

urlstringrequired

URL a buscar. Somente http(s).

extractMode'markdown' | 'text'default: markdown

Formato de saída após a extração do conteúdo principal.

maxCharsnumber

Trunca a saída para esta quantidade de caracteres.

Como funciona

  • Fetch

    Envia um HTTP GET com um User-Agent semelhante ao Chrome e o cabeçalho Accept-Language. Bloqueia hostnames privados/internos e verifica redirects novamente.

  • Extract

    Executa Readability (extração do conteúdo principal) na resposta HTML.

  • Fallback (optional)

    Se Readability falhar e Firecrawl estiver configurado, tenta novamente pela API do Firecrawl com modo de contorno de bots.

  • Cache

    Os resultados são armazenados em cache por 15 minutos (configurável) para reduzir buscas repetidas da mesma URL.

  • Configuração

    json5
    {  tools: {    web: {      fetch: {        enabled: true, // default: true        provider: "firecrawl", // optional; omit for auto-detect        maxChars: 50000, // max output chars        maxCharsCap: 50000, // hard cap for maxChars param        maxResponseBytes: 2000000, // max download size before truncation        timeoutSeconds: 30,        cacheTtlMinutes: 15,        maxRedirects: 3,        useTrustedEnvProxy: false, // let a trusted HTTP(S) env proxy resolve DNS        readability: true, // use Readability extraction        userAgent: "Mozilla/5.0 ...", // override User-Agent        ssrfPolicy: {          allowRfc2544BenchmarkRange: true, // opt-in for trusted fake-IP proxies using 198.18.0.0/15          allowIpv6UniqueLocalRange: true, // opt-in for trusted fake-IP proxies using fc00::/7        },      },    },  },}

    Fallback do Firecrawl

    Se a extração do Readability falhar, web_fetch pode recorrer ao Firecrawl para contorno de bots e melhor extração:

    json5
    {  tools: {    web: {      fetch: {        provider: "firecrawl", // optional; omit for auto-detect from available credentials      },    },  },  plugins: {    entries: {      firecrawl: {        enabled: true,        config: {          webFetch: {            apiKey: "fc-...", // optional if FIRECRAWL_API_KEY is set            baseUrl: "https://api.firecrawl.dev",            onlyMainContent: true,            maxAgeMs: 86400000, // cache duration (1 day)            timeoutSeconds: 60,          },        },      },    },  },}

    plugins.entries.firecrawl.config.webFetch.apiKey aceita objetos SecretRef. A configuração legada tools.web.fetch.firecrawl.* é migrada automaticamente por openclaw doctor --fix.

    Comportamento atual em runtime:

    • tools.web.fetch.provider seleciona explicitamente o provedor de fallback de busca.
    • Se provider for omitido, o OpenClaw detecta automaticamente o primeiro provedor pronto de web-fetch a partir das credenciais disponíveis. web_fetch fora do sandbox pode usar plugins instalados que declaram contracts.webFetchProviders e registram um provedor correspondente em runtime. Hoje, o provedor incluído é o Firecrawl.
    • Chamadas web_fetch em sandbox permanecem limitadas aos provedores incluídos.
    • Se Readability estiver desabilitado, web_fetch pula direto para o fallback do provedor selecionado. Se nenhum provedor estiver disponível, ela falha fechada.

    Proxy env confiável

    Se sua implantação exigir que web_fetch passe por um proxy de saída HTTP(S) confiável, defina tools.web.fetch.useTrustedEnvProxy: true.

    Nesse modo, o OpenClaw ainda aplica verificações SSRF baseadas em hostname antes de enviar a requisição, mas permite que o proxy resolva DNS em vez de fazer fixação de DNS local. Habilite isso somente quando o proxy for controlado pelo operador e aplicar a política de saída após a resolução de DNS.

    Limites e segurança

    • maxChars é limitado a tools.web.fetch.maxCharsCap
    • O corpo da resposta é limitado a maxResponseBytes antes do parsing; respostas grandes demais são truncadas com um aviso
    • Hostnames privados/internos são bloqueados
    • tools.web.fetch.ssrfPolicy.allowRfc2544BenchmarkRange e tools.web.fetch.ssrfPolicy.allowIpv6UniqueLocalRange são opt-ins restritos para stacks de proxy fake-IP confiáveis; deixe-os indefinidos, a menos que seu proxy seja dono desses intervalos sintéticos e aplique sua própria política de destino
    • Redirects são verificados e limitados por maxRedirects
    • useTrustedEnvProxy é um opt-in explícito e só deve ser habilitado para proxies controlados pelo operador que ainda apliquem política de saída após a resolução de DNS
    • web_fetch é de melhor esforço -- alguns sites precisam do Navegador Web

    Perfis de ferramentas

    Se você usa perfis de ferramentas ou allowlists, adicione web_fetch ou group:web:

    json5
    {  tools: {    allow: ["web_fetch"],    // or: allow: ["group:web"]  (includes web_fetch, web_search, and x_search)  },}

    Relacionados

    • Pesquisa Web -- pesquise na web com vários provedores
    • Navegador Web -- automação completa de navegador para sites com muito JS
    • Firecrawl -- ferramentas de pesquisa e scraping do Firecrawl
    Was this useful?