Ranní AI/Voice briefing – 2026-02-06

Dnešní krátký briefing se soustředí na praktické novinky kolem ASR (speech‑to‑text) a kvality/provozu realtime voice agentů – věci, které v telco a contact centru nejrychleji bolí na latenci, diarizaci a testování.

Mistral: Voxtral Transcribe 2 (diarizace + sub‑200 ms realtime ASR, open weights)

Mistral vydal Voxtral Transcribe 2 jako rodinu dvou STT modelů: batch model Voxtral Mini Transcribe V2 a streamingový Voxtral Realtime pro živé přepisy. Realtime varianta je postavená na „novel streaming architecture“ (ne jen chunkování offline modelu) a Mistral uvádí konfigurovatelnou latenci až k hranici <200 ms, což je pro voiceboty zásadní pro přirozené střídání replik. Důležitý je i licensing/praktický provoz: váhy Realtime modelu jsou otevřené pod Apache 2.0, takže dává smysl pro on‑prem/edge nasazení v citlivých scénářích (GDPR, banky, telco) bez posílání audia mimo perimetr. Batch model přidává enterprise‑friendly funkce: speaker diarization, context biasing (pro jména/technické termíny) a word‑level timestamps; to jsou přesně atributy, které v call centrech zlepšují analýzu i auditovatelnost (kdo co řekl a kdy). Praktický takeaway pro telco provoz: pokud dnes používáte STT jako „černou skříňku“, stojí za to přetestovat pipeline s diarizací + biasingem na interním slovníku (tarify, zkratky, názvy služeb) a současně zvážit oddělené profily pro realtime agent assist (nízká latence) vs. post‑call analytics (nejvyšší kvalita + word timestamps).

Zdroj: mistral.ai/news/voxtral-transcribe-2

Hamming AI: Jak testovat LiveKit voice agenty (unit → scénáře → WebRTC/latence → load)

Hamming shrnuje, že u voice agentů na LiveKitu nestačí klasické „textové“ unit testy: ty ověřují logiku a tool‑calling, ale úplně míjejí realitu WebRTC (jitter, timing, překrývání řeči, přerušování). Článek doporučuje vrstvit testování: rychlé text‑only testy na každý commit, scénářové regresní testy z reálných incidentů a před nasazením plnohodnotné end‑to‑end testy s reálným audiem a měřením latence (TTFW/turn‑taking). Pro telco voiceboty je to důležité, protože „správná odpověď“ je k ničemu, když agent nestíhá přerušení, špatně dělí tahy nebo se v zátěži rozpadne kvalita. Z provozního pohledu je cenný i princip: každý produkční fail (např. špatně pochopený intent, nečekaný tool error, timeout) převést na replayovatelný test case – tím se kvalitativní dluh nevrací zpět. Praktický takeaway: vybudujte si minimálně tři metriky a gate v CI/CD (p95 latence na turn, míra přerušení/overlap failů, úspěšnost kritických toolů) a spusťte je proti „realistickým“ scénářům z vašich call logů (anonymizovaných) – to je nejrychlejší cesta, jak stabilizovat voice UX v telco.

Zdroj: hamming.ai/resources/testing-livekit-voice-agents-complete-guide

Sarvam AI: Sarvam Audio pro code‑mix a diarizaci v indických jazycích

Sarvam AI oznámil „Sarvam Audio“, audio‑first LLM zaměřený na reálnou řeč v Indii, kde ASR často naráží na mix jazyků, akcenty a dialekty (code‑mix). Podle článku je model postavený na 3B základu a má být trénovaný na 22 indických jazycích; Sarvam zároveň tvrdí lepší WER než GPT‑4o‑Transcribe a Gemini‑3‑Flash na IndicVoices (včetně code‑mixed stylu). Pro chatboty/voiceboty v telco je zajímavé hlavně to, že „globální“ modely mívají slepá místa v regionech s výrazným code‑mixem – a to se netýká jen Indie (podobně se to projevuje u kombinací CZ/SK/EN ve firemní hantýrce nebo u migrantních komunit). Z praktického pohledu to posiluje trend: pro určité trhy je efektivnější provozovat specializovaný ASR/LLM model (nebo adaptaci) než donekonečna ladit prompt a post‑processing nad generickým modelem. Takeaway pro telco: pokud obsluhujete multijazyčné zákazníky, vyplatí se měřit WER/DER segmentovaně podle jazykových mixů a zvážit routing (detekce jazyka → výběr STT modelu) místo jednoho „univerzálního“ STT pro všechny hovory.

Zdroj: businesstoday.in (BusinessToday)

Závěr – 3 takeaways pro telco/voice provoz:

Oddělte „realtime agent assist“ a „post‑call analytics“: latence vs. kvalita vyžaduje různé profily STT (a často i různé modely).
Bez end‑to‑end audio/WebRTC testů si koledujete o incidenty: text‑only testy jsou nutné, ale nestačí.
Pro multijazyk a code‑mix měřte kvalitu po segmentech a zvažte model routing (jazyk/region/doména) místo univerzálního STT.

Post Views: 130