Dobré ráno – rychlý briefing k tomu, co se v posledních dnech hýbe kolem AI chatbotů a hlavně voice/voicebot stacku (ASR/LLM/TTS) s ohledem na telco provoz.
NVIDIA: referenční “voice RAG agent” pipeline (ASR + multimodální RAG + safety + long-context reasoning)
NVIDIA publikovala praktický tutorial, který skládá end‑to‑end voice agenta: streaming ASR (Nemotron Speech), multimodální RAG (embed + rerank), bezpečnostní filtr (Safety Guard) a reasoning model s dlouhým kontextem, orchestrace přes LangGraph. Důležité je, že jde o konkrétní komponenty a jejich rozhraní/latence – ne jen koncept: ukazují, kde se v reálu sčítají milisekundy a jak agent “teče” přes uzly (ASR → retrieve → rerank → reason → safety → audio). Pro telco je to relevantní jako referenční architektura pro hlasové IVR/CC use‑casy: jasně odděluje bezpečnost a grounding od generace a umožňuje auditovat/monitorovat jednotlivé vrstvy (zejména u regulovaných interakcí a PII). Praktický takeaway: používat streaming všude, kde to jde (ASR i LLM tokeny), a mít safety/PII jako samostatný krok před výstupem; navíc zvážit reranking (v článku uvádějí zlepšení přesnosti o ~6–7 %), protože pro telco knowledge‑base odpovědi je to často levnější než „větší LLM“.
Rasa Pro changelog: voice kanály lépe pracují se streamingem (tokeny → TTS audio dřív)
V changelogu Rasa Pro je vidět posun směrem k tomu, aby generativní odpovědi mohly být streamované do výstupního kanálu a voice kanály (např. Browser Audio, Genesys, Audiocodes Stream, Jambonz Stream) z tokenů připravovaly TTS audio stream ještě před dokončením celé odpovědi. To je zásadní pro “telefonní” UX: čekat na kompletní text a teprve pak spustit syntézu typicky přidá stovky ms až sekundy a uživatel začíná skákat do řeči. Pro telco provoz to znamená, že platforma orchestrace může snížit end‑to‑end latenci bez zásahu do doménové logiky (flow/policy), ale je potřeba si pohlídat deduplikaci/anti‑dup logiku ve výstupních kanálech a monitoring „partial“ odpovědí. V posledních verzích jsou také vidět typické provozní opravy (token limity při ukládání dokumentů, security updaty knihoven), což je dobrý signál pro hardening produkce. Praktický takeaway: pokud používáte Rasa voice kanály, ověřte, zda máte zapnuté streaming cesty end‑to‑end (LLM → channel → TTS) a doplňte metriky typu TTFB (time‑to‑first‑byte/audio) – je to teď “first‑class” parametr kvality.
Google Cloud TTS: Gemini TTS v dalších regionech + průběžné rozšiřování jazyků/hlasů (Chirp 3)
Google v release notes pro Cloud Text‑to‑Speech uvádí rozšíření regionální dostupnosti Gemini TTS modelů (včetně EU), což je praktické pro firmy, které řeší data residency a latenci zároveň. Pro voiceboty v telco to bývá blocker: i když je model kvalitní, provoz mimo region často naráží na compliance (GDPR, interní politiky) a vyšší RTT. Zároveň pokračuje rozšiřování jazyků pro Chirp 3 HD hlasy – důležité hlavně pro multijazyčné operátory a pro “long tail” lokálů, kde kvalita TTS rozhoduje o přijetí self‑service. Praktický takeaway: při návrhu voice stacku si explicitně modelujte „region matrix“ (ASR/LLM/TTS + observability) a mějte fallback plán (např. druhý TTS provider) pro případ, že cílový region není k dispozici nebo má výpadek.
Introl: proč voice agentům v praxi ujíždí latence (a jak ji skrotit)
Technický článek pěkně shrnuje realitu: i když jednotlivé komponenty umí velmi nízkou latenci (např. STT ~150 ms, TTS ~75 ms), end‑to‑end odpověď voice agenta často skončí na 800 ms až 2 s, protože se latence sčítá napříč celým pipeline (ASR + LLM + TTS + síť + orchestrace). Pro telco je to kritické – už kolem 1+ sekundy roste počet přerušení, „barge‑in“ konfliktů a dropů hovorů, což zvedá AHT i frustraci. Článek tlačí na streaming/parallelizaci: zpracovávat průběžné přepisy, začít generovat a syntetizovat dřív, pracovat s endpointingem/VAD a cachovat často používané fráze jako hotové audio. Praktický takeaway: zaveďte rozpad latence na metriky per‑stage (TTFT/TTFB/TTFA) a optimalizujte nejdřív orchestrace a turn‑taking (VAD/endpointing), protože to často ukáže větší „win“ než výměna samotného LLM.
Co z toho plyne pro telco (prakticky)
- Streaming jako default: tokeny z LLM → TTS hned, průběžné ASR, a měřit TTF(A) místo „celkové doby“.
- Grounding + safety odděleně: RAG (ideálně s rerankingem) a samostatný safety/PII krok před výstupem.
- Region & compliance design: vybírat ASR/LLM/TTS podle regionů a mít fallback provider pro kritické jazyky.
