Ranní výběr praktických novinek kolem AI chatbotů a hlavně voice/voicebotů – s důrazem na to, co se reálně projeví v architektuře, latenci a provozu v telco.
MiniMax Speech 2.6: TTS s end‑to‑end latencí <250 ms + “čtení” entit bez preprocesingu
MiniMax vydal Speech 2.6 se zaměřením na ultra‑nízkou latenci a zlepšenou použitelnost pro voice agent scénáře. Tvrdí optimalizaci generování audia tak, že end‑to‑end latence je pod 250 ms, což je v praxi rozdíl mezi „přirozeným dialogem“ a pocitem zpožděné linky. Pro telco voiceboty je důležitá i nová schopnost číst „nehezké“ entity bez dodatečných transformací – URL, e‑maily, telefonní čísla, IP adresy, data a částky (tedy přesně to, co v zákaznické péči padá pořád). To snižuje potřebu vlastních normalizačních vrstev (NLP preprocessor, pravidla pro číslovky, SSML hacky), které bývají zdrojem bugů i nekonzistence napříč jazyky. Praktický takeaway: pokud dnes držíte vlastní „text normalizer“ před TTS, otestujte, zda ho můžete zjednodušit a přesunout důraz na monitoring výslovnosti kritických entit (účty, čísla linek, SLA) místo rozsáhlého ručního pravidlování.
Zdroj: MiniMax – MiniMax Speech 2.6
Mistral Voxtral TTS: 4B model, 70 ms latency, vícejazyčná adaptace hlasu (9 jazyků)
Mistral publikoval Voxtral TTS jako svůj první TTS model s důrazem na multijazyčnost, nízkou latenci a přizpůsobení hlasu. Uvádí modelovou latenci ~70 ms pro typický vstup (a RTF ≈ 9.7×), což je velmi zajímavé pro streaming voice agenty, kde rozhoduje „time‑to‑first‑audio“ a možnost generovat audio po blocích. Pro telco provoz je klíčové, že model je navržený pro enterprise workflow (zákaznická podpora) a zároveň umožňuje adaptaci hlasu z krátké reference (v řádu sekund) – to je užitečné pro brand voice, ale i pro rychlou lokalizaci do více jazyků bez kompletního studiového voicebanku. Zaujala i zmínka o zero‑shot cross‑lingual adaptaci (např. francouzský „hlasový prompt“ + anglický text), což může zjednodušit pipeline pro speech‑to‑speech překlady nebo bilingvní IVR scénáře. Praktický takeaway: při evaluaci TTS do telco nepřepínejte jen „kvalita vs cena“, ale přidejte do testů metriky TTFA, stabilitu streamingu a chování na typických telco entitách (čísla, tarify, částky) – a dělejte testy přímo na PSTN/WebRTC trase, ne jen offline WAV.
Zdroj: Mistral AI – Voxtral TTS
VideoSDK Agents v1.0.0: sjednocený „Pipeline“ pro cascade/realtime/hybrid a hooky + observability (OTel)
VideoSDK vydal Agents v1.0.0 a popisuje to jako architektonický posun: místo různých pipeline tříd je jedna „Pipeline“, která se přizpůsobí tomu, jaké komponenty (STT/LLM/TTS/realtime model) poskládáte. Prakticky to znamená jednodušší přepínání mezi klasickým kaskádovým řetězcem (STT→LLM→TTS), plně realtime modelem (jedna multimodální/realtime LLM) a hybridem (např. vlastní STT + realtime LLM, nebo realtime LLM + vlastní TTS). Pro telco voiceboty je důležitý i nový hooks systém (@pipeline.on), protože umožňuje dělat hygienu dat (redakce PII, normalizace, „pronunciation fixes“, fallbacky) bez složitého subclassování a bez toho, aby se vám to rozlezlo do několika servisů. Velké plus je explicitní důraz na observability: per‑komponentní metriky, structured logging a OpenTelemetry tracing napříč módy – přesně to, co v provozu potřebujete pro debuggování latence, výpadků providerů a regresí po změně promptu/modelu. Praktický takeaway: i když VideoSDK nepoužíváte, stojí za to okopírovat pattern „pipeline hooks + OTel“ do vlastní architektury – typicky: měřit TTFT/TTFA, délku turnů, počet přerušení (barge‑in) a chybovost STT/TTS na entitách.
Zdroj: VideoSDK – Product Updates March 2026 (Agents v1.0.0)
300 ms rozpočet pro voice AI: kde mizí latence (STT/LLM/TTS/transport) a proč PSTN bolí
Channel.tel popisuje praktickou pitvu voice pipeline a ukazuje, že nejde jen o „rychlejší model“, ale o to, aby STT, LLM a TTS skutečně běžely streamovaně a paralelně. Dává užitečný mentální model „frame‑based streamingu“ (audio rámce → transkripce → tokeny → audio) a zdůrazňuje obousměrné řízení (interrupt frames) pro barge‑in, což je v telco hlasových agentech kritická UX vlastnost. Z pohledu telco je nejdůležitější část o transportu: WebRTC typicky přidá desítky ms, zatímco PSTN (např. přes běžné trunk/provider řetězce) může sežrat stovky ms – takže i perfektní modely nemusí splnit „přirozený dialog“ budget. Článek také doporučuje měřit time‑to‑first‑token (LLM) a time‑to‑first‑audio (TTS) místo průměrných „sekund na odpověď“, protože právě první milisekundy rozhodují o pocitu plynulosti. Praktický takeaway: pokud děláte voicebot na PSTN, zvažte agresivně optimalizovat turn detection (VAD + semantika), streaming TTS a zkrátit system prompt; a pokud to produkt dovolí, přemýšlejte o WebRTC kanálu (aplikace/portál) pro „premium“ nízkou latenci.
Zdroj: Channel.tel – Voice AI pipeline a 300ms budget
Z drobností: TTS „entity handling“ a plynulost klonování hlasu jako provozní téma (ne jen wow‑efekt)
U dvou výše uvedených TTS novinek je vidět trend, který v telco často podceňujeme: kvalita se dnes neláme jen na přirozenosti hlasu, ale na tom, jestli agent správně a konzistentně přečte číselné/technické entity (čísla linek, částky, IP, kódy zařízení) a jestli se „nezasekne“ na nekvalitním voice promptu/zdroji pro klonování. MiniMax explicitně cílí na čtení URL/e‑mailů/částek bez pre‑rules a Mistral zase akcentuje rychlou adaptaci hlasu i z krátké reference – oboje v praxi zkracuje time‑to‑market i počet incidentů typu „agent řekl špatné číslo“. V provozu to znamená méně vlastních pravidel, ale větší důraz na testovací sadu „kritických frází“ (regrese po změně modelu) a na fallbacky (když provider spadne, jak rychle přepneme bez skoku v hlasu a latenci). Praktický takeaway: zaveďte CI testy výslovnosti pro telco entity (golden set), a do SLO dejte nejen chybovost, ale i P95 TTFA + počet barge‑in kolizí – je to přímo měřitelné a koreluje to s NPS u hlasových kanálů.
3 takeaways pro telco/voice:
- Latency se vyhrává streamováním a transportem (PSTN vs WebRTC), ne jen výběrem „nejlepšího“ modelu.
- Entity handling (čísla, částky, adresy) je produkční problém č. 1 – otestujte, co už umí TTS nativně a co můžete vyhodit z preprocesingu.
- Observability (OTel), hooky a měření TTFT/TTFA + barge‑in událostí je dnes základ pro bezpečné iterace na voice agentech.
