Ranní AI/Voice briefing – 2026-04-13

Dnešní rychlý přehled přináší vybrané novinky okolo voice agentů, speech-to-text a provozních detailů, které reálně hýbou kvalitou a náklady telco botů. Níže jsou 4 položky s praktickým dopadem na architekturu, latenci a spolehlivost.

Genesys Cloud (13. 4. 2026): AVA – lepší ošetření chyb nástrojů + slovníky pro voice transkripci

Genesys v preview pro dnešní release popisuje několik změn, které jsou pro telco provoz botů překvapivě „operational“: zejména rozšíření pro Agentic Virtual Agents (AVA) o konfigurovatelné error-handling strategie při selhání tool execution (retry, fallback, recovery prompt), a také Dictionary Management pro Extended Voice Transcription Services (EVTS) dialekty. Prakticky to znamená, že se dá standardizovat, co má bot udělat, když integrace (CRM, billing, knowledge API) spadne: místo náhodného „zaseknutí“ může být definovaný retry/backoff, přepnutí na degradovaný režim, nebo řízená eskalace. Pro telco to typicky snižuje počet „mrtvých konců“ v konverzaci a zároveň zlepšuje predikovatelnost incidentů (stejný typ chyby → stejná reakce). Slovníky pro EVTS jsou zase velmi užitečné pro vlastní názvy tarifů, brandů, zkratek a lokální výslovnost – v call centru to často dělá rozdíl mezi využitelným a nepoužitelným přepisem. Takeaway: zaveďte jednotný playbook pro tool-failures (včetně metriky % fallbacků) a u STT/analytics investujte do doménového slovníku (terms, produkty, lokality) – je to levnější než „honit“ chyby v NLU.

Zdroj: Genesys Cloud – Features coming soon

Together AI: Parakeet TDT 0.6B v3 – vysokopropustné vícejazyčné STT (EU jazyky) s timestamps

Together AI publikuje modelovou stránku pro NVIDIA Parakeet TDT 0.6B v3, která je zajímavá hlavně parametry relevantními pro telco: vícejazyčnost napříč „EU official languages“, automatická detekce jazyka bez promptu a produkční výstup s interpunkcí, kapitalizací a word-level timestamps. Z pohledu provozu voicebotů je důležitá kombinace throughputu a robustness v hluku/overlapu řeči – to je přesně prostředí hovorů (handsfree, auta, open space) a přepisy pak živí intent routing, compliance nebo sumarizace. Word-level timestamps výrazně pomáhají pro audit (co přesně zákazník řekl a kdy), pro synchronizaci s audio záznamem a pro downstream analýzy (např. „barge-in“/přerušování). Pokud obsluhujete vícejazyčné trhy, autodetekce jazyka šetří jednu třídu chyb (špatně zvolený model/locale) a snižuje složitost orchestrace. Takeaway: uvažujte o STT vrstvě jako o „infrastruktuře“ – vyžadujte timestamps + konzistentní formátování výstupu a měřte WER/latenci per-language; v telco to rychle odhalí slabá místa (např. dialekty, vlastní produktová terminologie).

Zdroj: Together AI – NVIDIA Parakeet TDT 0.6B v3

Praktický návod: „end-to-end streaming“ voice pipeline (ASR→LLM→TTS) a největší zdroje latence

Článek skládá kompletní real‑time voice stack a je užitečný tím, že se nesoustředí na „jednu API call“, ale na lepidlo mezi vrstvami: chunkování audia, VAD (voice activity detection), interim transkripty, streaming tokenů z LLM a posílání hotových vět do TTS okamžitě po detekci konce věty. Pro telco voiceboty je to zásadní, protože subjektivní kvalita konverzace padá hlavně na latenci a na špatném barge‑in (zákazník začne mluvit, ale bot pokračuje). Silné je praktické pravidlo: pokud jakákoliv vrstva čeká na dokončení předchozí, přidali jste sekundy; ideální je streamovat „od mikrofonu po reproduktor“. Autor taky připomíná, že formát audia (16kHz mono vs 44.1kHz stereo) není detail – resampling a špatné kodeky jsou reálné stovky ms navíc. Takeaway: udělejte si v telco prostředí „latency budget“ a měřte TTFT/TTFA (time-to-first-audio) včetně network hopů; zisky často přijdou z VAD, interim results a sentence-level TTS streamingu, ne z výměny LLM modelu.

Zdroj: Voice AI in 2026 – The Complete Stack From Whisper to Speaker

Murmure (open-source): lokální STT bez cloudu + 25 jazyků (vč. češtiny) a „LLM post-processing“

Projekt Murmure ukazuje trend, který se v telco hodí minimálně pro interní použití a citlivé scénáře: privacy‑first speech‑to‑text běžící plně lokálně, bez telemetrie a bez odesílání audia do cloudu. Je postavený na modelu Parakeet TDT 0.6B v3 a explicitně uvádí podporu 25 jazyků včetně češtiny a slovenštiny – to je důležité pro lokální trhy, kde bývá cloud STT drahý nebo limitovaný. Z provozního pohledu telco to otevírá možnosti: (1) offline/edge transkripce pro pobočky a interní call‑handling, (2) „BYOK“ přístup, kdy si volíte, kde audio zpracujete, a (3) kombinace s lokálním LLM na čištění textu, normalizaci termínů a případné překlady. I když to není hotový contact‑center engine, jako stavební blok (lokální STT + post‑processing) je to dobrý referenční design, co lze dnes provozovat bez vendor lock‑inu. Takeaway: pro telco si rozdělte STT use-cases na „cloud OK“ vs „privacy/sovereignty“ a pro druhou skupinu si připravte pilot s lokálním ASR + doménovým slovníkem + jasnou observabilitou (CPU/GPU, latence, WER).

Zdroj: GitHub – Kieirra/murmure

Závěr – 3 rychlé takeaways pro telco/voice

  • Standardizujte chování při selhání integrací („tool failures“): retry/fallback/eskalace + metriky, jinak se vám rozpadá UX i incident management.
  • U STT berte timestamps + doménový slovník jako povinný základ (ne „nice to have“) – je to klíč pro audit, barge‑in a kvalitu analýz.
  • Latence se vyhrává streamováním end‑to‑end (VAD + interim results + sentence‑to‑TTS), ne jen výměnou modelu.