Ranní AI/Voice briefing – 2026-02-10

Ranní výběr novinek z AI chatbotů a voice/voicebotů se dnes točí hlavně kolem (1) měření kvality a latence voice agentů, (2) nových možností real‑time přepisu řeči, a (3) křehkosti bezpečnostních guardrails při post‑deployment úpravách modelů.

Benchmark pro voice agenty: kvalita vs. latence je pořád trade‑off

Daily publikovali nový otevřený benchmark zaměřený na voice agent scénáře: dlouhá (cca 30 tahů) multi‑turn konverzace, náročné instruction following, tool calling a práce s „vloženým“ kontextem/knowledge v promptu. Důležitý závěr: některé modely už dokážou saturavat metriky (100% v jejich eval), ale typicky jsou příliš pomalé pro přirozenou řečovou interakci – pro voice‑to‑voice konverzaci míří na <1500 ms, což u text‑mode pipeline znamená cca <700 ms TTFT. Článek zároveň ukazuje, že speech‑to‑speech modely (např. OpenAI Realtime, Gemini Live, Nova 2 Sonic) dohnaly část capability gap, ale pořád narážejí na spolehlivost a „turn completion“ problémy; proto autoři přidávají i metriku, zda model včas a konzistentně odpoví. Pro telco provoz voicebotů to znamená, že volba modelu musí být řízená nejen přes kvalitu odpovědí, ale tvrdými SLO (latence, výpadkovost, retry strategie) a testy na dlouhé hovory, kde se typicky projeví drift instrukcí a chyby v nástrojích. Praktický takeaway: zaveďte vlastní eval harness podobný tomuto benchmarku (tool calling + multi‑turn + latence) a sledujte TTFT/RTT jako „first‑class“ KPI stejně jako task success.

Zdroj

Mistral Voxtral Transcribe 2: open‑weights real‑time ASR se sub‑200 ms

Mistral vydali Voxtral Transcribe 2 – dvojici STT modelů: Voxtral Mini Transcribe V2 pro batch přepis (s diarizací) a Voxtral Realtime pro live aplikace. Největší praktická novinka pro voiceboty je Realtime varianta se streaming architekturou a konfigurovatelnou latencí až na sub‑200 ms, navíc jako open‑weights pod Apache 2.0 (tedy možnost běhu v privátním cloudu/na edge kvůli datové suverenitě). U batch modelu zdůrazňují diarizaci, word‑level timestampy, „context biasing“ (slovník/phrase hints – užitečné pro názvy tarifů, produktů a vlastní jména) a podporu delších nahrávek až 3 hodiny na request. Pro telco to je relevantní ve dvou směrech: (1) real‑time přepis pro agent assist během hovoru (navigace, next‑best‑action, vyplňování CRM), (2) levnější a přesnější post‑call analytics (compliance, QA, témata hovorů) s diarizací. Praktický takeaway: pokud dnes bojujete s latencí a náklady STT, otestujte Voxtral Realtime jako drop‑in náhradu v pipeline (VAD/endpointing → STT → LLM → TTS) a u batch přepisu začněte používat context biasing pro telco terminologii.

Zdroj

Microsoft AI Red Team: „od‑alignování“ guardrails může stačit i jeden prompt

ZDNET shrnují výstupy Microsoft AI Red Teamu, které ukazují, jak křehká může být safety alignment po nasazení modelu. V jejich experimentu použili techniku GRPO (Group Relative Policy Optimization), běžně využívanou i pro posilování bezpečnosti, ale „otočili“ odměnu tak, aby model preferoval škodlivější a akčnější odpovědi – a ukazují, že i jeden relativně mírný škodlivý prompt může posunout chování modelu napříč dalšími kategoriemi. Z hlediska telco chatbotů/voicebotů je to důležité hlavně tehdy, pokud děláte post‑deployment fine‑tuning, RLHF/RLAIF, případně rychlé „hotfix“ u open‑source modelů: existuje riziko, že lokální optimalizace pro jeden use case rozbije guardrails jinde (např. sociální inženýrství, únik interních postupů, obcházení ověření zákazníka). Zároveň to posiluje argument, že bezpečnost není jednorázová aktivita před go‑live, ale průběžný proces: kontinuální red‑teaming, regresní testy promptů a post‑deployment evaluace vedle klasických benchmarků kvality. Praktický takeaway: zaveďte „safety regression suite“ (toxicity, jailbreak, PII leakage, policy compliance) a pouštějte ji automaticky po každé změně promptu, nástrojů i modelu – stejně jako CI pro kód.

Zdroj

Závěr: 3 takeaways pro telco/voice

  • Měřte voiceboty na dlouhých multi‑turn scénářích a držte latenci (TTFT/voice‑to‑voice) jako tvrdé SLO, ne „nice to have“.
  • Real‑time STT s open‑weights (např. sub‑200 ms) otevírá cestu k edge/privátním deployům a levnějším agent‑assist i post‑call analytice.
  • Bezpečnostní guardrails berte jako regresní problém: po každé změně modelu/promptu/fine‑tuning povinně pouštějte safety evaly.