Ranní AI/Voice briefing – 2026-03-30

Ranní výběr praktických novinek kolem AI chatbotů a hlasových/voice botů (se zaměřením na telco provoz a integrace). Dnes dominuje posun v open‑source ASR a jeho nasazování do produkční inference infrastruktury.

Cohere vydalo open‑source ASR model Transcribe (2B) a míří na „production‑ready“ přesnost

Cohere oznámilo model cohere-transcribe-03-2026: open‑weights ASR (Conformer encoder + lehký Transformer decoder) licencovaný pod Apache 2.0, trénovaný od nuly a podporující 14 jazyků. Podle jejich měření vede Hugging Face Open ASR Leaderboard s průměrným WER ~5,42 % a současně akcentují i serving efektivitu (ne jen laboratorní benchmarky). Pro telco voice boty je to důležité hlavně kvůli možnosti mít plnou kontrolu nad daty (on‑prem / privátní cloud), lepší predikovatelnosti latence a snazšího řízení nákladů oproti čistě SaaS STT. Prakticky to otevírá cestu k robustnějšímu přepisu hovorů (call recording, QA, compliance) i ke kvalitnějšímu realtime ASR pro „barge‑in“ a turn‑taking v hlasových agentech. Takeaway: pokud dnes stavíte pipeline na Whisper‑třídě modelů, vyplatí se Transcribe otestovat na vašich akustických podmínkách (hluk, více mluvčích, dialekty) a porovnat WER/latenci/cenu jako balíček.

Zdroj: Cohere – Cohere Transcribe: state-of-the-art speech recognition

Hugging Face detailně popisuje, proč je encoder‑heavy architektura rychlejší na serving (a co to znamená pro náklady)

V doprovodném článku na Hugging Face tým popisuje, že více než 90 % parametrů drží v encoderu a decoder je záměrně „lehký“ – tím minimalizují autoregresivní výpočet při inferenci. Z pohledu provozu voice botů to je přesně to, co vás pálí: STT není jen „accuracy“, ale i RTFx / GPU využití / throughput při špičkách (např. incidenty, outage‑linky, hromadné kampaně). Zajímavý je i důraz na práci s daty (0,5M hodin kurátovaných párů audio‑text + syntetická data) a na praktické limity: model je „eager“ a má tendenci přepisovat i nespeech zvuky – proto doporučují noise gate/VAD před ASR, což je v telco často nutnost (šum linky, hold music, DTMF, background). Praktický takeaway: v architektuře voice agenta je dobré mít VAD/endpointing jako samostatnou službu a metrikovat „false speech“ (halucinace z ticha), protože tyto chyby pak kaskádují do NLU/LLM vrstvy a prodražují běh. Pokud už používáte vLLM nebo podobný inference stack, stojí za to číst jejich část o serving optimalizacích pro encoder‑decoder modely, protože to je přímo přenositelná lekce pro provoz.

Zdroj: Hugging Face – Introducing Cohere-transcribe

vLLM přidává podporu Cohere Transcribe do OpenAI‑kompatibilního transcription API (signál: ASR se stává „standardní endpoint“)

V pull requestu do projektu vLLM se objevuje přímá podpora modelu CohereLabs/cohere-transcribe-03-2026 včetně úprav registry a příkladů pro offline inference. Prakticky to znamená, že ASR může běžet ve stejném produkčním serving stacku jako vaše LLM (stejné observability, rollouty, autoscaling, GPU pooly) a navíc přes OpenAI‑kompatibilní transcription rozhraní, což snižuje integrační „lepidlo“ v telco platformách. Změny také ukazují potřebu konzistentní normalizace pro WER evaluaci (použití normalizeru z Whisper jako standard), což je dobrá připomínka: pokud srovnáváte STT, srovnávejte stejnou normalizační politikou a na stejných doménových datech (jména tarifů, lokality, produktové zkratky). Pro voice boty v provozu je dopad hlavně v tom, že můžete snáz dělat A/B testy modelů, canary rollouty a řídit riziko regresí při změnách STT (které jinak rozbíjejí intent‑routing a compliance pravidla). Takeaway: pokud už máte interní inference platformu na vLLM, dává smysl připravit „ASR lane“ s jasnými SLO (TTFR, RTFx, WER na vlastní sadě) a používat jednotné API pro všechny STT varianty.

Zdroj: GitHub – vLLM PR (patch) pro podporu Cohere Transcribe

Závěr: 3 takeaways pro telco/voice

Open‑source ASR se posouvá do „enterprise‑grade“ — zvažte pilot na vlastních call nahrávkách (hluk, více mluvčích, dialekty) a měřte WER + latenci + cenu společně.
VAD/noise‑gate není „nice‑to‑have“: halucinace z ticha/šumu vám zbytečně zvyšují náklady a kazí turn‑taking i NLU/LLM výsledky.
Sjednocujte serving: když STT i LLM běží v jednom inference stacku (observability, rollouty, autoscaling), výrazně se zjednoduší provoz i řízení rizika regresí.

Post Views: 11