Ranní AI/Voice briefing – 2026-03-27

Ranní výběr novinek k AI chatbotům a voice/voicebotům s důrazem na provozní realitu (latence, náklady, compliance) a použitelnost v telco.

Genesys Cloud: ceník „Enhanced TTS“ (účtování po milionech znaků, free v bot/survey flow)

Genesys upřesnil, jak se v Genesys Cloud účtuje nativní text-to-speech „Enhanced TTS“ a co přesně se započítává do spotřeby (znaky včetně mezer a interpunkce, účtovací jednotka 1M znaků za měsíc se zaokrouhlením nahoru). Pro standardní hlasy uvádí cenu 5 USD / 1M znaků a pro „advanced“ (neural/wavenet) 20 USD / 1M znaků, přičemž ceny jsou uvedené i pro více měn. Důležité je, že Enhanced TTS je zahrnuté bez příplatku, pokud jej používáte přímo v Architect bot flow nebo voice survey flow – tedy typicky v těch scénářích, které v contact-centru/telco dělají největší objemy. Pro telco provoz voicebotů je to prakticky „cost lever“: vyplatí se hlídat, kde TTS generujete (Architect vs. externí mikroservisa) a jak dlouhé jsou promptované odpovědi (zejména u LLM, které mají tendenci „kecat“). Takeaway: nastavte si metriky „znaky TTS / hovor“, limity délky odpovědi a šablony pro stručnost; u billing/retence use-case to může udělat řádově jiné jednotkové náklady.

Zdroj: Genesys Cloud Resource Center – Genesys Enhanced TTS pricing

LiveKit: „Sequential pipeline“ architektura pro voice agenty (VAD → STT → LLM → TTS) a proč bez streamingu vzniká „pocit rozbitosti“

LiveKit publikoval praktický rozbor nejběžnější produkční architektury voice agentů – tzv. sekvenční (kaskádové) pipeline: Audio In → VAD → STT → LLM → TTS → Audio Out. Klíčová pointa je latence a překryv kroků: pokud jednotlivé fáze běží blokově, snadno se dostanete na 1–2+ sekundy, což už uživatelsky působí „pomalu/rozbitě“; se streamingem se pipeline chová spíš jako max(latencí fází) a dá se reálně mířit na 400–800 ms. Pro telco voiceboty to dopadá na konkrétní engineering rozhodnutí: streaming STT (parciální přepisy), streaming tokenů z LLM a streaming TTS audio chunků je rozdíl mezi „IVR s AI“ a skutečně konverzačním zážitkem. Článek také zmiňuje praktické hrany jako barge‑in (přerušení uživatelem), echo/noise falešné interrupce a bezpečné chování u tool-callů (nezrušitelné kroky vs. přerušitelné). Takeaway: i když se teď hodně mluví o speech‑to‑speech modelech, v regulovaném telco (audit, debug, determinismus) bude kaskádová pipeline ještě dlouho default – ale jen pokud ji postavíte streamově a s promyšleným interruption policy.

Zdroj: LiveKit Blog – Sequential Pipeline Architecture for Voice Agents

LiveKit: Human‑in‑the‑Loop (HITL) pro voice agenty – „propose → commit“ jako enterprise pojistka

Druhý čerstvý text od LiveKit jde přímo na bolavé místo produkčních voicebotů: co dělat s hovory, kde už nejde jen o FAQ, ale o riziko (refund, identita/KYC, GDPR požadavky, eskalace na supervisor). HITL pattern popisuje jako „supervised autonomy“: agent zpracuje většinu interakcí, ale u citlivých momentů navrhne akci, pozastaví se a čeká na lidské schválení/úpravu (propose → commit), než se stane něco nevratného. Pro telco provoz je zásadní i UX detail „I already explained this“ – tedy nutnost předat člověku kontext (shrnutí, transcript s časem, intent+confidence, entity, sentiment, policy flags), jinak eskalace zničí NPS a prodraží AHT. Článek rozlišuje synchronní (blokující) a asynchronní HITL a dává praktické signály pro eskalaci: risk, nízká confidence, komplexita, regulace, emoce/sentiment. Takeaway: pokud chcete agentní automatizaci ve velkém, HITL není „nice to have“, ale architektonická komponenta – navrhujte ji od začátku, měřte míru eskalací a kvalitu evidence packu, ne až po prvním incidentu.

Zdroj: LiveKit Blog – The Human-in-the-Loop (HITL) Pattern for Voice Agents

Z toho plyne pro telco: 3 rychlé takeaways

  • Měřte latenci po fázích (VAD/STT/LLM/TTS/transport) a stavte vše streamově; jinak i „chytrý“ bot působí pomalu.
  • Náklady na TTS nejsou detail: hlídejte „znaky na hovor“, limity délky odpovědí a kde TTS vzniká (nativní flow vs. externí služba).
  • HITL jako pojistka pro compliance a brand: definujte eskalační pravidla + evidence pack, aby člověk nepřebíral hovor „naslepo“.