Dobré ráno — tady je rychlý briefing toho nejpraktičtějšího z posledních dní pro stavbu a provoz AI chatbotů a voice/voicebotů (se zaměřením na telco provoz a contact centra).
MiniMax Speech 2.6: důraz na ultra nízkou latenci a „správné čtení“ entit
MiniMax oznámil Speech 2.6, kde hlavní claim je end‑to‑end latence pod ~250 ms a další úpravy pipeline pro plynulejší interakci ve voice‑agent scénářích. Prakticky zajímavá část je podpora „specializovaných formátů“ bez ručního pre‑processingu: model má přímo umět číst URL, e‑maily, telefonní čísla, IP adresy, datumy a měny ve více jazycích. Pro telco a contact centrum je to relevantní, protože právě tyto entity (MSISDN, čísla tiketů, částky, datumy splatnosti, IP) často padají do TTS jako dynamické proměnné a jejich špatná verbalizace zvyšuje AHT i počet opakování. Pokud se taková schopnost reálně potvrdí v praxi, zjednoduší to architekturu (méně regex/normalizačních vrstviček před TTS) a sníží riziko chyb při lokálních formátech (např. různé čtení čísel a oddělovačů). Takeaway: při výběru TTS pro voicebota benchmarkujte nejen „přirozenost hlasu“, ale i (a) latenci v reálném řetězci STT→LLM→TTS a (b) robustní verbalizaci entit z vašich backendů (telefon, částka, datum, IP).
Rasa: 5 metrik pro AI agenty v contact centru (a proč samotná deflection klame)
Rasa publikovala praktický rozbor metrik, které contact‑center leadership typicky používá pro hodnocení AI agentů: deflection, containment, automation rate, solution/resolution rate a CSAT/NPS. Důležité je explicitní varování, že „deflection“ může vypadat skvěle i tehdy, když AI nic nevyřešila (např. když systém jen ztíží eskalaci na operátora) — a metrika pak měří spíš „zablokování“, ne přínos. Pro telco provoz (kde zákazník často skáče mezi voice, chatem, e‑mailem a aplikací) je zásadní containment, ale článek připomíná, jak těžké je ho měřit: potřebujete cross‑channel identifikaci uživatele, párování témat/incidentů a jasně definované časové okno (typicky 24–48 h). Z pohledu stavby botů to posouvá důraz na data model (unifikované ID, event tracking, issue taxonomy) a na integrační schopnosti, ne jen na „lepší prompt“. Takeaway: nastavte si metriku „solution rate“ (explicitní potvrzení vyřešení) jako primární kvalitu, deflection používejte jen v kombinaci s CSAT/solution a měřitelné containment berte jako projekt integrace napříč kanály (ne jako jednoduchý dashboard).
Benchmarks a praktický výběr STT API: latence, WER na „špinavém“ auditu a skryté náklady
Future AGI shrnuje výběr speech‑to‑text providerů pro rok 2026 s důrazem na to, že STT je „front door“ voice agentů a chyby/latence se násobí dál v LLM a TTS vrstvě. Článek tlačí na realistické testování: marketingové WER/latence bývají z čistého studia, zatímco telco realita jsou komprese, šum, přerušování, akcenty a code‑switching; rozdíl ve WER se může dramaticky zvětšit. Hodně užitečný je rámec pro voice‑agent architekturu: pro přirozený dialog je potřeba udržet round‑trip pod ~800 ms, což STT nechává rozpočet zhruba 150–300 ms (jinak interakce „drhne“), a proto jsou důležité interim výsledky přes WebSocket a rychlá detekce end‑of‑speech. Z provozního pohledu článek upozorňuje i na „skryté“ náklady: diarizace, redakce PII, premium model tier — v telco compliance režimech to bývá povinné a může to převrátit TCO. Takeaway: udělejte si interní STT benchmark balíček z reálných nahrávek (šum/akcenty/jargon), měřte first‑token latency + stabilitu streamu, a TCO počítejte včetně diarizace/PII redakce a požadavků na data residency.
Závěr — 3 rychlé takeaways pro telco/voice:
- Nechte si v benchmarcích změřit celkovou latenci „hlas→hlas“ a neřešte jen WER a „příjemnost hlasu“.
- Deflection není kvalita: kombinujte ji se solution rate/CSAT a containment berte jako integrační úkol napříč kanály.
- STT výběr dělejte na vlastním „špinavém“ auditu a počítejte TCO včetně diarizace, PII redakce a residency.
