--- read_when: - Chcesz używać Deepgram speech-to-text dla załączników audio - Chcesz używać transkrypcji strumieniowej Deepgram dla Voice Call - Potrzebujesz szybkiego przykładu konfiguracji Deepgram summary: Transkrypcja Deepgram dla przychodzących notatek głosowych title: Deepgram x-i18n: generated_at: "2026-04-25T13:56:08Z" model: gpt-5.4 provider: openai source_hash: 9d591aa24a5477fd9fe69b7a0dc44b204d28ea0c2f89e6dfef66f9ceb76da34d source_path: providers/deepgram.md workflow: 15 --- Deepgram to API speech-to-text. W OpenClaw jest używane do transkrypcji przychodzącego audio/notatek głosowych przez `tools.media.audio` oraz do strumieniowego STT Voice Call przez `plugins.entries.voice-call.config.streaming`. W przypadku transkrypcji wsadowej OpenClaw przesyła cały plik audio do Deepgram i wstrzykuje transkrypt do potoku odpowiedzi (`{{Transcript}}` + blok `[Audio]`). W przypadku strumieniowego Voice Call OpenClaw przekazuje na żywo ramki G.711 u-law przez endpoint WebSocket `listen` Deepgram i emituje transkrypty częściowe albo końcowe, gdy Deepgram je zwraca. | Szczegół | Wartość | | ------------- | ---------------------------------------------------------- | | Strona WWW | [deepgram.com](https://deepgram.com) | | Dokumentacja | [developers.deepgram.com](https://developers.deepgram.com) | | Uwierzytelnianie | `DEEPGRAM_API_KEY` | | Model domyślny | `nova-3` | ## Pierwsze kroki Dodaj klucz API Deepgram do środowiska: ``` DEEPGRAM_API_KEY=dg_... ``` ```json5 { tools: { media: { audio: { enabled: true, models: [{ provider: "deepgram", model: "nova-3" }], }, }, }, } ``` Wyślij wiadomość audio przez dowolny połączony kanał. OpenClaw transkrybuje ją przez Deepgram i wstrzykuje transkrypt do potoku odpowiedzi. ## Opcje konfiguracji | Opcja | Ścieżka | Opis | | ---------------- | ------------------------------------------------------------- | ------------------------------------- | | `model` | `tools.media.audio.models[].model` | Identyfikator modelu Deepgram (domyślnie: `nova-3`) | | `language` | `tools.media.audio.models[].language` | Wskazówka języka (opcjonalnie) | | `detect_language` | `tools.media.audio.providerOptions.deepgram.detect_language` | Włącz wykrywanie języka (opcjonalnie) | | `punctuate` | `tools.media.audio.providerOptions.deepgram.punctuate` | Włącz interpunkcję (opcjonalnie) | | `smart_format` | `tools.media.audio.providerOptions.deepgram.smart_format` | Włącz inteligentne formatowanie (opcjonalnie) | ```json5 { tools: { media: { audio: { enabled: true, models: [{ provider: "deepgram", model: "nova-3", language: "en" }], }, }, }, } ``` ```json5 { tools: { media: { audio: { enabled: true, providerOptions: { deepgram: { detect_language: true, punctuate: true, smart_format: true, }, }, models: [{ provider: "deepgram", model: "nova-3" }], }, }, }, } ``` ## Strumieniowe STT Voice Call Dołączony Plugin `deepgram` rejestruje również providera transkrypcji w czasie rzeczywistym dla Plugin Voice Call. | Ustawienie | Ścieżka konfiguracji | Domyślnie | | --------------- | ---------------------------------------------------------------------- | --------------------------------- | | Klucz API | `plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey` | Fallback do `DEEPGRAM_API_KEY` | | Model | `...deepgram.model` | `nova-3` | | Język | `...deepgram.language` | (nieustawione) | | Kodowanie | `...deepgram.encoding` | `mulaw` | | Częstotliwość próbkowania | `...deepgram.sampleRate` | `8000` | | Endpointing | `...deepgram.endpointingMs` | `800` | | Wyniki pośrednie | `...deepgram.interimResults` | `true` | ```json5 { plugins: { entries: { "voice-call": { config: { streaming: { enabled: true, provider: "deepgram", providers: { deepgram: { apiKey: "${DEEPGRAM_API_KEY}", model: "nova-3", endpointingMs: 800, language: "en-US", }, }, }, }, }, }, }, } ``` Voice Call odbiera dźwięk telefoniczny jako 8 kHz G.711 u-law. Provider strumieniowy Deepgram domyślnie używa `encoding: "mulaw"` i `sampleRate: 8000`, więc ramki multimedialne Twilio mogą być przekazywane bezpośrednio. ## Uwagi Uwierzytelnianie przebiega według standardowej kolejności uwierzytelniania providera. `DEEPGRAM_API_KEY` to najprostsza ścieżka. Nadpisz endpointy lub nagłówki przez `tools.media.audio.baseUrl` i `tools.media.audio.headers`, gdy używasz proxy. Wyjście podlega tym samym zasadom audio co u innych providerów (limity rozmiaru, timeouty, wstrzykiwanie transkryptu). ## Powiązane Przegląd potoku przetwarzania audio, obrazów i wideo. Pełna dokumentacja konfiguracji, w tym ustawienia narzędzi multimedialnych. Typowe problemy i kroki debugowania. Najczęściej zadawane pytania dotyczące konfiguracji OpenClaw.