Dnešní ranní briefing vybírá tři čerstvé technické novinky, které mají přímý dopad na stavbu a provoz AI chatbotů a hlavně voice/voicebotů v telco prostředí (latence, škálování, kontext, a provozní spolehlivost).
Mistral vydal Voxtral Transcribe 2 (batch + realtime ASR, diarizace, open-weights)
Mistral oznámil rodinu STT modelů Voxtral Transcribe 2: „Mini Transcribe V2“ pro dávkové přepisy a Voxtral Realtime pro živé aplikace s nastavitelnou latencí až do sub‑200 ms. Důležitá je kombinace vlastností, které v praxi voicebotů často chybí v jednom balíku: speaker diarization, word-level timestampy, robustnost vůči hluku a možnost context biasing (až ~100 termů pro lepší přepis jmen a doménových slovníků). Pro telco/call-centra je to zásadní hlavně kvůli přesnosti v reálném čase (agent assist během hovoru), lepšímu rozlišení „agent vs zákazník“ a levnějšímu zpracování velkých objemů nahrávek (QA, compliance, analytics). Praktický dopad na provoz botů: dostáváme nízkou latenci bez dramatického pádu WER, navíc s možností nasazení „privacy-first“ na edge/on‑prem díky open‑weights (Apache 2.0) u realtime varianty. Takeaway: pokud vám dnes voice pipeline padá na latenci/šum/terminologii, stojí za PoC s biasingem a diarizací a nastavit si měření end‑to‑end latence (audio in → text out) jako první-class SLO.
Zdroj: mistral.ai – Voxtral transcribes at the speed of sound (Voxtral Transcribe 2)
ElevenLabs: Expressive Mode pro voice agenty + nový turn-taking řízený realtime signály
ElevenLabs představili Expressive Mode pro svou platformu ElevenAgents: cílem je, aby agent působil „lidsky“ nejen obsahem, ale hlavně tónem a načasováním odpovědí. Technicky stojí na dvou změnách: novém TTS modelu Eleven v3 Conversational (kontextově stabilnější a emočně bohatší syntéza) a na novém turn‑taking systému, který používá realtime signály z jejich přepisu Scribe v2 Realtime k rozhodování, kdy mluvit, kdy pauznout a kdy nechat zákazníka domluvit. Pro telco voiceboty je to klíčové, protože nejčastější „průšvih“ v produkci není jen špatný intent, ale přerušování zákazníka, špatné vyhodnocení, že už dořekl, a eskalace frustrace. Praktický dopad: pokud máte metriky typu barge‑in rate, overlap rate nebo “customer interruptions”, nový turn‑taking přístup je přesně to, co může snížit náklady na lidskou asistenci (méně eskalací) a zvýšit NPS bez změny znalostní báze. Takeaway: zaveďte do observability voicebotu explicitní metriky konverzační dynamiky (timing/interruptions) a testujte „emočně zatížené“ scénáře (reklamace, výpadky, billing) – právě tam se Expressive Mode typicky projeví nejvíc.
Zdroj: elevenlabs.io – Introducing Expressive Mode for ElevenAgents
Claude Opus 4.6 na Azure Foundry: context compaction (beta) pro dlouho běžící agenty
Microsoft oznámil dostupnost Claude Opus 4.6 v Azure AI Foundry a v rámci toho vyzdvihl nové API schopnosti, které míří přímo na agentní workflow: Context Compaction (beta), 1M context (beta), vyšší max output a řízení „effort“ pro výpočet/latenci. Pro chatboty/voiceboty v telco je „compaction“ prakticky důležitý provozní detail: dlouhé konverzace (nebo multi‑step ticketing) typicky naráží na token limity, a ruční zkracování historie často rozbíjí konzistenci a vede k halucinacím či ztrátě závazků (co bylo domluveno, SLA, identifikace zákazníka). Server-side compaction slibuje, že se starší kontext automaticky shrne, čímž se snižuje potřeba vlastního „memory management“ kódu a stabilizují se dlouhé seance. V telco dopadu to znamená jednodušší architekturu pro „agent assist“ (průběžné shrnutí hovoru), pro omnichannel (chat + call + case notes) a pro audit/compliance (konzistentní průběžná rekapitulace). Takeaway: pokud stavíte dlouho běžící asistenty, plánujte návrh paměti jako produktový prvek – stanovte, co se smí komprimovat, jak validujete shrnutí, a jak oddělujete „facts“ (identita, závazky) od „chatter“; compaction je skvělý, ale chce guardrails.
Zdroj: azure.microsoft.com – Claude Opus 4.6 … now available in Microsoft Foundry
Závěr – 3 takeaways pro telco/voice
- Latence je funkce produktu: měřte a SLAčkujte end‑to‑end (audio→text→LLM→TTS) a zvažte streaming ASR (sub‑200 ms) tam, kde rozhoduje „pocit plynulosti“.
- Konverzační dynamika je stejně důležitá jako NLU: sledujte barge‑in/overlap/interruptions a cíleně testujte stresové scénáře (reklamace, výpadky).
- Paměť agentů řešte systematicky: context compaction a průběžné shrnutí zjednoduší dlouhé seance, ale vyžaduje pravidla a validaci kritických faktů.
