Ranní AI/Voice briefing – 2026-04-01

Ranní výběr novinek ze světa AI chatbotů a voice/voicebotů – dnes hlavně o nízké latenci v TTS, o provozních detailech u realtime transkriptů a o telephony integraci (Asterisk) pro „produkční“ voice agenty.

Mistral: Voxtral TTS (4B) – streaming TTS s ~70 ms latencí a 9 jazyky

Mistral vydal Voxtral TTS, první vlastní text-to-speech model (4B parametrů) zaměřený na realistickou, emočně výraznou řeč a nízkou latenci pro voice agenty. Podle popisu je cílem držet „time-to-first-audio“ velmi nízko a v typickém nastavení uvádějí modelovou latenci kolem 70 ms (a vysoký real‑time factor), což je přesně typ metriky, která dělá rozdíl v přirozeném turn‑takingu. Z telco pohledu je důležitá také vícejazyčnost (9 jazyků) a schopnost adaptace na hlas už s krátkou referencí (řádově sekundy), protože call centra často potřebují konzistentní „brand voice“ i lokalizaci. Prakticky to znamená, že se posouvá hranice mezi „premium“ uzavřenými TTS službami a tím, co lze vlastnit/hostovat nebo aspoň mít pod kontrolou přes API a (částečně) open weights. Takeaway pro stavbu/provoz botů: pokud vás trápí latence odpovědí a kvalita v různých jazycích, je čas přetestovat TTS layer – a měřit TTFA + chování při dlouhých generacích/streamingu, ne jen MOS/„zní hezky“. Zdroj

Voicegain platform Release 1.131.0 – víc možností pro realtime transkripty (Pusher/WebSockets) a telephony edge případy

Voicegain ve verzi 1.131.0 přidává a rozšiřuje řadu funkcí kolem „Speech Analytics“ a copilot/agent assist scénářů, včetně možností zobrazovat realtime transkripty přes Pusher i přes WebSockets. Pro telco provoz je to relevantní hlavně kvůli stabilitě a provozním hranám: u realtime datových cest často řešíte timeouts, memory leaky, backpressure a spolehlivé doručování událostí při dlouhých hovorech nebo při vysoké konkurenční zátěži. V release notes je vidět i konkrétní telephony integrace a edge-cases (např. správné zpracování hold/retrieve událostí u Vonage hovorů), což jsou přesně ty věci, které v produkci bolí víc než samotný „model“. Dopad na stavbu/provoz botů: pokud děláte live agent assist nebo potřebujete synchronizovaný transcript pro „next best action“, vyplatí se mít explicitní kanál pro realtime text (WS/Pusher) oddělený od heavy pipeline, a monitorovat dropy/latence na úrovni event streamu. Praktický takeaway: projděte si vlastní architekturu „transcript fan‑out“ (ASR → event bus → UI/LLM/QA) a ošetřete reconnect, idempotenci a limity websocket serveru dřív, než začnete škálovat. Zdroj

Open-source: AVA – AI Voice Agent pro Asterisk/FreePBX (v6.4.0) s attended transfer streaming a „screening“ režimy

Repozitář AVA (Asterisk AI Voice Agent) posouvá open‑source integraci voice agenta přímo do Asterisk/FreePBX světa a v posledních změnách zdůrazňuje attended transfer „streaming & screening“ (v6.4.0). To je pro telco extrémně praktické: přepojování na živého operátora je typicky nejcitlivější moment (UX i provozně) a bez dobrého handoffu se vám rozpadá automatizace i metriky. Zajímavé je, že řeší různé režimy „screeningu“ (např. oznámení caller ID, experimentální AI briefing, nebo nahrávka jména/důvodu) a zároveň uvádí „provider‑agnostic“ guidance pro LLM, aby si nevymýšlelo neexistující interní extensiony (prevence halucinovaných cílů transferu). Dopad na stavbu/provoz botů: architektura kolem Asterisk ARI + RTP/AudioSocket ukazuje, jak v praxi dělit orchestrátor (call lifecycle) a AI pipeline (STT/LLM/TTS), a jak řešit barge‑in a fallbacky na file playback. Praktický takeaway: pokud máte PBX (on‑prem nebo vlastního SIP providera), zvažte POC s tímto stylem integrace – dá vám rychle konkrétní check‑list (dialplan, bezpečnost admin UI, observability po call_id) a ukáže, kde nejvíc teče čas/latence. Zdroj

NVIDIA: blueprint na voice RAG agenta se safety guardrails (Nemotron Speech + multimodální RAG + LangGraph)

NVIDIA publikovala praktický tutorial, jak složit voice agenta jako end‑to‑end systém: streaming ASR, retrieval (včetně multimodálních embeddingů a rerankingu), dlouhý kontext pro reasoning a safety/PII guardrails před výstupem. Pro telco je podstatné, že nejde jen o „hezký demo call“, ale o explicitní vrstvy, které v produkci potřebujete: grounding (aby bot citoval interní KB a nehalucinoval), bezpečnostní filtr (obsah + PII), a orchestrace (graf/flow s retry/branch logikou). V textu jsou i konkrétní metriky/parametry pro streaming ASR (konfigurovatelná latence vs WER) a doporučená struktura pipeline (Voice Input → ASR → Retrieve → Rerank → Reason → Safety → Audio). Dopad na stavbu/provoz botů: tenhle „blueprint“ je dobrý jako referenční architektura pro design review – můžete jej mapovat na své komponenty (Deepgram/Google/OpenAI/… + vlastní RAG + vlastní policy engine) a identifikovat chybějící kusy. Praktický takeaway: udělejte si „latency budget“ per-stage (ASR, retrieval, LLM, TTS) a k tomu bezpečnostní/PII gate; bez toho se vám budou incidenty i UX problémy vracet pořád dokola. Zdroj

3 rychlé takeaways pro telco/voice:

Měřte latenci end‑to‑end (TTFA, turn‑taking) a dělejte budget per-stage, ne jen „jaký model zní nejlíp“.
Realtime transkripty jsou event-stream problém: reconnect, idempotence, backpressure a monitoring jsou nutnost.
Handoff na živého operátora (transfer/screening) je klíčový UX moment – řešte ho jako produktovou funkci, ne jako „později“ integraci.

Post Views: 3