Ranní AI/Voice briefing – 2026-04-14

Dnešní ranní briefing vybírá tři čerstvé technické novinky z oblasti AI chatbotů a voice/voicebotů, se zaměřením na provoz v telco a kontaktních centrech. Všechny zdroje jsou prakticky použitelné (release notes / open‑source / provozní optimalizace).

Google Cloud Contact Center AI Platform: nové možnosti pro transfery, jazyk a kvalitu dat (release notes)

V posledních release notes Google Cloud Contact Center AI Platform přibyly (a byly opraveny) věci, které v praxi typicky bolí až v produkci: přesnější přepojování, metadata a přepis. V prerelease poznámkách (10. 4. 2026) je například podpora volby jazyka u přímých volání na čísla agentů/extensiony, což je důležité pro multi‑brand/multi‑country telco hotline bez nutnosti dělat složitý front‑door IVR jen kvůli jazyku. Dále zmiňují možnost, aby virtuální agent přepojil hovor přímo na konkrétního lidského agenta podle agent_id nebo agent_extension, což zlepšuje routing pro VIP zákazníky, retention nebo technické eskalace. V opravách je vidět několik typických provozních incidentů: nesoulad transcriptu s reálnou konverzací, zkrácené časy eskalací v metadatech, nebo dokonce ukončování audio session po 15 minutách, což u delších telco hovorů může způsobovat nečekané eskalace a rozpad SLA. Praktický takeaway pro stavbu/provoz botů: kontrolujte integritní metriky (délka session vs. call leg), validujte transcripts end‑to‑end (CRM, PDF exporty, redakce), a pro transfery používejte explicitní identifikátory cílového agenta (ne jen „queue“), aby bylo chování deterministické a auditovatelné.

Zdroj: Google Cloud – Contact Center AI Platform release notes

Open‑source AVA (AI Voice Agent) pro Asterisk/FreePBX: streaming LLM→TTS overlap a sub‑2s „perceived latency“

Na GitHubu je čerstvě aktualizovaný open‑source projekt „AVA – AI Voice Agent for Asterisk/FreePBX“, který řeší reálnou telco integraci přes Asterisk (Stasis) a RTP/Audiosocket. V release notes v README (v6.4.1) autoři popisují CPU optimalizace latence: odpovědi se streamují po větách, takže se každá věta syntetizuje a přehrává okamžitě, místo čekání na celý text — výsledkem je snížení „perceived latency“ z 3–10 s na <2 s u pipeline konfigurací. Přidávají také „filler audio“ (okamžité potvrzení typu „Chvilku prosím“) ve stejné syntetizované hlasové identitě, což je osvědčený trik pro snížení frustrace volajícího, když LLM zrovna počítá. Z praktických detailů je zajímavá optimalizace PCM→µ‑law konverze bez dočasných WAV souborů (10–50 ms per response) a preflight hardening (kontroly portů, RAM/disku, buildx), což přímo míří na stabilitu nasazení. Pro telco týmy je takeaway jasný: když stavíte voiceboty, vyplatí se měřit latenci po segmentech (STT, NLU/LLM, TTS, transport) a zkracovat „time‑to‑first‑audio“ i za cenu dílčího streaming režimu; navíc je to dobrá referenční implementace pro on‑prem/hybrid architektury, kde chcete audio držet lokálně a jen „mozek“ posílat do cloudu.

Zdroj: GitHub – AVA AI Voice Agent for Asterisk/FreePBX

ElevenLabs: praktické vzory pro snižování latence v TTS pipeline (streaming, caching, edge)

ElevenLabs publikovali technicky orientovaný článek o tom, kde se v TTS pipeline bere latence a jak ji systematicky snižovat. Zmiňují klasické trade‑offy mezi kvalitou a rychlostí (velké modely vs. inference time) a doporučují záměrně volit model podle use‑case: u telco self‑care a call‑deflection je často důležitější rychlá, stabilní odezva než maximální expresivita. Prakticky nejdůležitější je rozdíl mezi „full synthesis“ a streaming TTS: pokud dokážete posílat audio průběžně, zlepšíte plynulost konverzace a snížíte nepříjemná ticha (což má přímý dopad na abandon rate a CSAT). Dále doporučují preloading/caching často používaných frází (navigace, statusy, omluvy), což se v telco dá použít např. pro potvrzení identity, opt‑in věty nebo standardní disclaimery. Další část je o edge/on‑device (nebo on‑prem) inference, která snižuje síťovou latenci a závislost na regionu API; v telco prostředí to pomáhá i z pohledu compliance a řízení dat. Takeaway: navrhněte TTS vrstvu jako „latency product“ (SLO na time‑to‑first‑byte audio, fallback regiony, WebSocket/WebRTC transport), a zaveďte měření a cache politiku stejně disciplinovaně jako u API gateway.

Zdroj: ElevenLabs – Enhancing conversational AI latency with efficient TTS pipelines

Závěr: 3 takeaways pro telco/voice

Řiďte voice latenci metrikou „time‑to‑first‑audio“ a používejte streaming (LLM→TTS overlap, streaming TTS) + krátké filler potvrzení.
Transfery a eskalace dělejte deterministicky (agent_id/extension), a průběžně auditujte transcripts a session metadata (CRM, redakce, exporty).
Budujte fallbacky: caching standardních frází, regionální odolnost API, a hybrid/on‑prem varianty pro citlivé audio a stabilitu.

Post Views: 6