Ranní přehled toho nejdůležitějšího z posledních dní pro AI chatboty, voice/voiceboty a jejich provoz v telco (latence, telephony integrace, spolehlivost a provozní detaily).
OpenAI: Realtime API je GA + nový model gpt-realtime (MCP, obrázky, SIP volání)
OpenAI posunulo Realtime API do režimu „generally available“ a současně představilo nový speech‑to‑speech model gpt-realtime, který má být lépe „production-ready“ pro hlasové agenty. Prakticky to znamená méně lepení pipeline (STT → LLM → TTS) a víc end‑to‑end audia přes jedno rozhraní, což obvykle snižuje latenci a počet míst, kde se to v provozu rozbije. Pro telco je zásadní přímá podpora SIP – napojení na PBX/voice infrastrukturu a call-flow bez nutnosti vlastních „bridge“ vrstev. Z provozního pohledu zaujme důraz na přesnější instruction following (např. čtení povinných disclaimerů „slovo od slova“) a lepší práci s alfanumerikou (telefonní čísla, VINy), což jsou typické slabiny hlasových botů v kontaktních centrech. Takeaway: pokud dnes stavíte voiceboty, zvažte architekturu „audio-first“ (end‑to‑end) a explicitně otestujte: přepis/čtení čísel, přepínání jazyků, a režii asynchronních tool-callů (aby dlouhé backend dotazy nerozbíjely konverzační tok).
Zdroj: openai.com – Introducing gpt-realtime and Realtime API updates
OpenAI: praktický návod na Realtime API přes SIP (telefonní hovory, transfery, refer)
Vedle blogu je pro implementaci klíčová i dokumentace k „Realtime API with SIP“, která popisuje, jak agent skutečně „sedí“ na hovoru přes standardní telephony protokol. To je rozdíl mezi demo „voice mode“ a nasazením do telco světa, kde řešíte směrování, přepojení, hold, transfer, a dohledatelné call-id. Pro voicebot provoz v telco je zajímavé, že se telephony integrace dá brát jako první‑třídní kanál: agent nemusí být jen webová WebRTC hračka, ale může obsluhovat běžné příchozí/odchozí hovory. Typicky to zjednoduší integraci s existujícími SBC/PBX a sníží počet vlastních komponent, které držíte (a patchujete) vy. Takeaway: udělejte si checklist pro „call control“ (transfer, refer, failover), měřte end‑to‑end latenci na reálných linkách, a přidejte guardrails pro právní povinnosti (identifikace AI, záznam hovoru, souhlasy) přímo do konverzačního designu i do telephony flow.
Zdroj: platform.openai.com – Realtime API with SIP
LiveKit Agents 1.4.5 (11. března): méně „leaků“ do TTS, lepší websocket režim a stabilita plánování
Na GitHubu vyšel release [email protected] (11. 3.), který je praktický pro každého, kdo skládá hlasové agenty z komponent v reálném čase (WebRTC/WebSocket audio, STT/TTS pluginy, tool-calling). Z pohledu provozu je cenná oprava, která brání „propadávání“ textu z function_call do TTS výstupu – to je přesně ten typ bugů, který v call-centru zní jako „agent začal číst JSON“. Přibyly i provozní detaily: raw logování API chyb přes STT/TTS pluginy, ochrana proti negativní délce spánku v plánování (edge case, který umí rozházet turn-taking), a změny okolo websocket connection poolu pro OpenAI Responses režim. Pro telco integrace je zajímavé i průběžné rozšiřování pluginů (např. diarizace u NVIDIA STT a další STT/TTS provideri), protože to snižuje vendor lock‑in a usnadňuje A/B testy kvality a ceny. Takeaway: pokud jedete LiveKit/Pipecat‑like stack, aktualizujte a doplňte automatické testy na „nežádoucí output“ do TTS (tool-calls, logy), plus přidejte observabilitu (error logs, confidence) jako standardní metriky pro provozní dohled.
Zdroj: GitHub – Releases · livekit/agents
NVIDIA Riva ASR (NIM) 1.8.0: sloučení telephony profilu + známé „gotchas“ (VAD, diarizace, ulimit)
V release notes pro NVIDIA NIM Riva ASR je praktická změna: model Parakeet CTC 1.1b (en-US) má sloučené default a telephony profily a zmiňované zlepšení přesnosti. To je přesně oblast, kde telco use-case často trpí (8 kHz audio, komprese, šum, přeslechy), takže sjednocení profilů může zjednodušit konfiguraci i rollout. Současně release notes otevřeně uvádí provozní rizika: diarizace může dávat špatné speaker tagy v low-latency režimu, a profily se Silero VAD mohou snižovat přesnost a zvyšovat latenci – typická trade-off past při ladění „barge-in“. Hodně praktický detail je i workaround na „Too many open files“ přes --ulimit nofile=2048:2048, což je přesně ten typ incidentu, který se objeví až při špičce v kontaktním centru. Takeaway: při nasazení ASR do telco dělejte load testy se simulovanými hovory, hlídejte file descriptor limity v kontejnerech, a diarizaci/VAD testujte odděleně (jiná metrika úspěchu než jen WER: turn-taking, interrupce, a latence).
Zdroj: docs.nvidia.com – Release Notes — NVIDIA NIM Riva ASR
Závěr: 3 rychlé takeaways pro telco/voice
- Telephony integrace (SIP) se rychle posouvá do „first-class“ podpory – plánujte call control, failover a compliance jako součást architektury, ne jako doplněk.
- U voice agentů jsou provozní bugy často „akustické“: hlídejte, co může omylem skončit v TTS (tool-calls, logy, JSON), a mějte na to automatické testy.
- Latence vs. přesnost (VAD/diarizace/endpointing) je pořád klíčový trade-off – měřte na reálném telco audiu a ve špičkovém zatížení, ne jen na laboratorních samplech.
