Ranní AI/Voice briefing – 2026-04-04

Ranní briefing: dnes je to hlavně o snižování latence a o tom, jak se “voice” pipeline konečně standardizuje (A2A modely, streaming TTS, jednotné SDK vrstvy). Pro telco provoz to znamená méně lepidla kolem STT/LLM/TTS a víc prostoru řešit spolehlivost, compliance a měření kvality.

Mistral vypustil Voxtral TTS: 4B streaming TTS s nízkou latencí a rychlou adaptací hlasu

Mistral vydal Voxtral TTS, text‑to‑speech model (4B parametrů) cílený na low‑latency streaming a enterprise nasazení. Z praktického pohledu je nejzajímavější kombinace velmi rychlého time‑to‑first‑audio a deklarované modelové latence kolem desítek milisekund (u typického vstupu uvádí ~70 ms) spolu s vysokým real‑time faktorem, což je přesně to, co v call‑flow rozhoduje o „přirozenosti“ dialogu. Důležitá je i schopnost adaptovat se na nový hlas z krátké reference (řádově sekundy), což otevírá dveře pro brand‑voice nebo lokalizaci bez dlouhého studiového nahrávání. Pro telco voiceboty to může snížit náklady a zjednodušit provoz: místo externích „voice vendor“ závislostí lze TTS vrstvu více vlastnit (nebo aspoň mít alternativu) a lépe řídit latenci end‑to‑end. Praktický takeaway: pokud vám dnes dělá problém „robotický“ výstup a přerušování uživatele kvůli latenci, má smysl udělat A/B test TTFA + MOS (nebo interní poslechové hodnocení) proti vašemu současnému TTS a změřit dopad na průměrnou délku hovoru i míru eskalací.

Zdroj: mistral.ai/news/voxtral-tts

Google Gemini API changelog: vydán gemini-3.1-flash-live-preview (audio‑to‑audio) + nové latency/cost tiering

V release notes Gemini API Google uvádí vydání modelu gemini-3.1-flash-live-preview, popsaného jako audio‑to‑audio (A2A) model pro realtime dialog a voice‑first aplikace. To je pro stavbu voicebotů významný posun, protože A2A model může zkrátit pipeline (odpadá část „STT → text → LLM → TTS“ lepení) a tím typicky snížit latenci i počet míst, kde se kumulují chyby. Ve stejném changelogu je i zmínka o nových inference tier‑ech (Flex/Priority), které explicitně staví trade‑off mezi cenou a latencí – přesně to, co potřebujete pro řízení špiček a SLA v telco provozu. Dopad na telco: u inbound callů můžete mít přísnější „Priority“ profil pro kritické flows (ověření, blokace SIM, výpadky) a levnější režim pro nízkorizikové self‑care, aniž by se měnil zbytek stacku. Praktický takeaway: při pilotu A2A modelu si dejte guardrails – měřit “barge‑in” (přerušování), detekci konce repliky (turn detection) a hlavně chování při packet loss/jitter; realtime voice se často láme spíš na síti a VAD/turn‑detectoru než na samotném modelu.

Zdroj: ai.google.dev/gemini-api/docs/changelog

VideoSDK: Agents SDK v1.0.0 sjednocuje pipeline (cascade/realtime/hybrid) + přidává hooks a observability

VideoSDK v březnových updatech představuje Agents SDK v1.0.0 a hlavně sjednocený koncept Pipeline, který nahrazuje oddělené „cascading“ a „realtime“ režimy. Pro praktickou stavbu voice agentů je to důležité proto, že můžete stejnou aplikaci provozovat jako klasickou kaskádu (STT→LLM→TTS) a postupně přepínat části do realtime režimu – bez přepisování architektury a bez vendor locku na konkrétní STT/TTS. Silný detail jsou pipeline hooks (např. zásahy do transkriptu, redakce PII před LLM, úpravy výstupu pro výslovnost) a built‑in observability (metriky po komponentách, structured logging, OpenTelemetry). To přesně řeší telco bolest: incidenty a “why did the bot say that?” se bez trasování a per‑stage metrik nedají provozně uřídit. Praktický takeaway: i když nepoužijete přímo VideoSDK, vezměte si jako design pattern: standardizujte rozhraní mezi STT/LLM/TTS, přidejte hook body pro redakci a normalizaci, a od prvního dne logujte latenci každé fáze (audio ingress, VAD/turn end, STT, LLM, TTS, audio egress).

Zdroj: videosdk.live/blog/product-updates-march-2026

OpenAI (ChatGPT Business release notes): posun ve Voice Mode – širší dostupnost a práce s instrukcemi

V release notes pro ChatGPT Business OpenAI zmiňuje postupné vylepšování Voice Mode: větší dostupnost, sjednocování voice zkušenosti a pro placené uživatele lepší adaptaci stylu řeči na instrukce (délka, rychlost, tón). Pro telco voiceboty je to připomínka, že “voice” není jen TTS engine – klíčové je řízení prozodie a stylu v návaznosti na kontext (např. krizové situace vs. běžný self‑care), a to se dá dělat buď prompt‑/policy‑vrstvou, nebo modelovou konfigurací. Důležité je i to, že voice režimy se rychle mění produktově (limity, varianty, kompatibility), takže pro produkční provoz je dobré mít jasně oddělené: (a) runtime voice pipeline, (b) business policy, (c) fallback na “text‑only” + klasický TTS. Dopad na provoz: kdo staví na managed voice módu jedné platformy, musí počítat s churnem a mít „escape hatch“ (např. přepnutí na vlastní TTS nebo na kaskádu). Praktický takeaway: zaveďte ve voicebotech „style profiles“ (krátké/úderné vs. empatické/uklidňující) a validujte je na reálných hovorech; často to přinese víc než honění dalších 50 ms latence.

Zdroj: help.openai.com/en/articles/11391654-chatgpt-business-release-notes

Závěr – 3 takeaways pro telco/voice

Latence je systémová metrika: měřte TTFA + end‑to‑end (včetně VAD/turn detection a sítě), ne jen STT/LLM.
Standardizujte pipeline: jasná rozhraní STT/LLM/TTS + hooky pro redakci a výslovnost výrazně zrychlí incident response.
Mějte fallback strategii: realtime A2A je skvělé, ale v produkci potřebujete kaskádu/alternate provider pro degradace a změny produktů.

Post Views: 60