Dnešní rychlý ranní briefing se soustředí na to, co se v posledních dnech posunulo u produkčních voice agentů: realtime API/telephony napojení, open‑source frameworky a praktické změny v platformách pro provoz voicebotů.
OpenAI: Realtime API je „generally available“ + gpt-realtime a SIP volání
OpenAI oznámilo obecnou dostupnost Realtime API a nový speech‑to‑speech model gpt-realtime, který má být lépe použitelný pro produkční voice agenty (nižší latence, lepší instrukční poslušnost a přesnější tool/function calling). Vedle toho přibyly funkce, které jsou pro telco/CCaaS scénáře zásadní: podpora SIP (přímé propojení na telefonní infrastrukturu), možnost připojit vzdálené MCP servery (nástroje/integace), a také vstupy obrázků pro multimodální asistenty. Prakticky to znamená, že se snižuje integrační „lepidlo“ kolem přepojení do PSTN/PBX a současně roste očekávání na robustní guardrails a observabilitu (protože speech‑to‑speech pipeline je jedna, méně „míst“, kde se dřív dalo ladit). Pro stavbu voicebotů v telco je důležité i to, že model se explicitně zlepšuje v práci s alfanumerikou (čísla smluv, telefonní čísla, VIN apod.) a ve stabilitě chování dle skriptů (compliance, disclaimer). Takeaway: pokud dnes provozujete hlasové asistenty přes řetězec STT→LLM→TTS, vyplatí se otestovat, zda speech‑to‑speech varianta zjednoduší latenci a kvalitu – ale zároveň si dopředu připravit testy pro compliance texty, čtení čísel a fallbacky při výpadku toolů.
Zdroj: https://openai.com/index/introducing-gpt-realtime/
Voicegain: Release 1.130.0 – „Call Insights“ přes LLM, OIDC SSO a praktické API doplňky
Voicegain ve vydání 1.130.0 posouvá platformu směrem k hlubší analytice hovorů: přidává Call Insights vypočtené z transkriptu pomocí LLM a navazující konfigurace/stránky pro „Call Insights Answers“. To je pro telco provoz voicebotů zajímavé hlavně proto, že se tím zjednodušuje standardní „after‑call“ workflow: z transkriptu se dají systematicky vytáhnout signály jako vyřešeno/nevýřešeno, sentiment, důvody a odůvodnění (v release se mimo jiné mění škála sentimentu z −1..+1 na −10..+10). Z pohledu provozu je důležitý i přídavek OIDC SSO a různé opravy kolem přenosu dat do copilot/agent‑code panelů – typicky věci, které v enterprise nasazení bolí víc než „nový model“. Pro stavbu botů v telco je praktický i nový endpoint na sběr uživatelského feedbacku a mechanismy pro offline zpracování transkriptu, což pomáhá, když potřebujete reprocessovat historická data (např. změna promptů, audit). Takeaway: pokud máte call‑analytics a QA proces roztříštěný do více nástrojů, tohle je signál, že se vyplatí sjednotit „single source of truth“ nad transkriptem a doplnit měření kvality/CSAT/NPS přímo do pipeline.
Zdroj: https://voicegain.github.io/platform/RELEASE.html
LiveKit Agents (open‑source): serverový framework pro realtime voice agenty nad WebRTC + telephony integrace
LiveKit publikuje a rozvíjí open‑source framework LiveKit Agents pro stavbu realtime, server‑side voice agentů nad WebRTC (a jejich telephony stackem). Zaujme hlavně tím, že nabízí „skládací“ architekturu: můžete kombinovat různé STT/LLM/TTS providery, přidat semantic turn detection (méně skákání do řeči) a využít RPC/Data API pro výměnu kontextu s klienty. Pro telco je klíčová explicitní podpora telephony integrace (SIP/phone) a možnost provozovat stack self‑hosted, což často rozhoduje kvůli latenci, regulaci a datové suverenitě. V praxi to může zrychlit prototypování a standardizovat běžné provozní prvky (job scheduling, session management, test framework), které si jinak každý tým píše „na koleni“. Takeaway: pokud stavíte voiceboty pro kontaktní centrum, zvažte LiveKit jako „media/transport vrstvu“: zvlášť v situacích, kdy potřebujete kontrolu nad jitter/packet loss chováním a nechcete vše tlačit přes proprietární CCaaS.
Zdroj: https://github.com/livekit/agents
Závěr – 3 praktické takeaways pro telco/voice
- Realtime + SIP je konečně „first‑class“ téma: připravte si testy na compliance skripty, alfanumeriku a fallbacky toolů.
- Call‑insights nad transkriptem se posouvají do mainstreamu: vyplatí se sjednotit QA/analytics pipeline a měřit dopad promptů.
- Open‑source realtime frameworky (WebRTC) dávají smysl tam, kde je kritická latence a kontrola nad provozem (self‑hosted).
