Ranní briefing pro chatboty a voice/voiceboty: dnes hlavně o tom, jak se zrychluje real‑time hlasová interakce, co se mění v enterprise contact‑center platformách a co si vzít z praktického „phone‑calling“ agenta.
OpenAI Realtime API přes WebSocket: audio end‑to‑end, méně latence a lepší turn‑taking
Článek popisuje posun od klasického řetězce STT → LLM → TTS k architektuře, kde se audio streamuje přímo do modelu přes persistentní WebSocket a odpověď se vrací jako audio delta stream. Prakticky to znamená méně „hopů“, nižší latenci a možnost vést přirozenější dialog, protože model může současně „poslouchat“ i „mluvit“ v jednom duplexním kanálu. Z pohledu telco je důležité i to, že se počítá s formáty jako PCM16 (24 kHz) i G.711 (8 kHz), tedy nativně telekomunikační audio, které se typicky používá ve VoIP/SIP světě. Další podstatná část je řízení konverzačního stavu (session/item/response) a práce s VAD – vedle ticha‑based detekce se zmiňuje „semantic VAD“, která má snížit nechtěné skákání do řeči při přirozených pauzách. Takeaway pro provoz voicebotů v telco: investujte do event‑driven streamingu, jasně definujte „cut/truncate“ při barge‑in a otestujte VAD/endpointing na reálných hovorech (rušení, dvojitá řeč, přepojování), protože právě to dělá rozdíl mezi demem a produkcí.
Genesys Cloud (23. 2. 2026): změny kolem TTS, transkripcí, maskování citlivých dat a bot kontextu
Genesys v „features coming soon“ pro release 23. 2. 2026 uvádí několik věcí, které jsou pro telco automatizaci a voice provoz přímo relevantní. Klíčový signál je plánovaný konec nativní podpory vybraných Google/Microsoft TTS hlasů v srpnu 2026 a přesun do integračního režimu „Bring Your Own TTS“ – to může měnit nákladovou strukturu i provozní odpovědnosti (billing, SLA, fallback). V bot flow přibývá nativní akce „Get Assigned Customer Intents“ (až 25 posledních intentů), která usnadní personalizaci a kontext‑aware routing bez vlastních data‑actions, což je užitečné pro scénáře typu opakované volání na linku, rozpoznání „už jsme to řešili“ apod. Z hlediska compliance je důležitý posun v „sensitive data masking“ pro více jazyků (voice i chat), což v telco kontextu typicky míří na PII/PCI v transkriptech a analytice. A pro výkon/latenci stojí za zmínku regionální caching pro Architect prompty (IVR rychlost v multi‑region setupu) a také to, že EVTS přechází na Amazon Transcribe jako jediného providera – to je relevantní pro konzistenci kvality, monitoring chyb a porovnatelnost metrik. Praktický takeaway: začněte už teď mapovat, kde v platformě spoléháte na „native TTS“, připravte migrační plán + fallback hlas, a u botů zvažte ukládání/řízení intent kontextu jako first‑class signál pro routing a zkrácení AHT.
Praktický „agent, co volá“: Twilio ConversationRelay + Claude + ElevenLabs, bez práce s audiostreamy
Autor popisuje konkrétní implementaci, kde Twilio zajišťuje telefonii a přes ConversationRelay převádí hlas na text a text na hlas, zatímco „mozek“ dělá LLM (Claude) a výsledný TTS může být přes ElevenLabs. Pro stavbu voicebotů je zajímavý hlavně princip: namísto vlastního audio pipeline řeší server jen textové zprávy přes WebSocket, čímž dramaticky klesá integrační složitost (žádné vlastní STT/TTS, endpointing, jitter buffer apod.). V telco provozu je ale zásadní i „část, kterou nikdo neříká“: výběr hlasu (kvalita vs osobnost, tiché selhání některých hlasů), spolehlivost tunelování/veřejné dostupnosti endpointů a nutnost držet odpovědi krátké – hlas není chat, dlouhé monology ničí UX. Hezky praktická je i myšlenka „context injection“ (na začátku hovoru přečíst persistentní knowledge + aktuální úkol), která je analogií toho, co v contact center děláme s CRM kontextem a posledními interakcemi. Takeaway: pokud chcete rychle prototypovat hlasové eskalace (např. NOC/on‑call, provozní schvalování, outage komunikace), zvažte architekturu, kde telephony platforma abstrahuje audio a vy ladíte hlavně dialog, guardrails a kontext – ale počítejte s tvrdým testováním hlasů, failoverem a monitoringem „ticha“/no‑audio stavů.
Menší postřeh: „HTTP 413 místo 200“ jako drobný, ale důležitý signál pro robustní integrace
V tom samém Genesys přehledu je nenápadná, ale užitečná změna: když vizualizace journey narazí na payload limity, systém nově vrací HTTP 413 (Payload Too Large) namísto HTTP 200. Na první pohled detail, ale v telco integracích (kde se data často agregují po milionech eventů) jsou správné HTTP semantiky klíčové pro retry/backoff logiku, alerting a automatizované „circuit breaking“. Pokud vaše boty nebo analytické pipeline dělají API volání do contact‑center platforem, podobné změny mohou být rozdíl mezi tichým selháním a správně zachycenou degradací služby. Praktický takeaway: v integračních klientech logujte status kódy + velikost odpovědi, a do runbooků přidejte konkrétní akce pro 4xx typu 413 (split dotazu, zúžení časového okna, dimenze/filtry). Tohle jsou přesně ty maličkosti, které v produkci šetří hodiny incident response.
3 rychlé takeaways pro telco/voice:
- Real‑time voice je o streamingu + událostech (barge‑in, truncate, VAD), ne o „dalším LLM promptu“.
- TTS se v enterprise platformách přesouvá do integračního/BYOT režimu – připravte si migrační a nákladový plán.
- Nejrychlejší prototypy vyhrají, když telephony abstrahuje audio; největší rizika pak bývají hlas/UX, spolehlivost a monitoring.
