Ranní briefing: dnes je to hlavně o tom, jak zrychlit a „zprovozničit“ hlasové agenty – od ultra‑low‑latency TTS, přes streaming ASR se sub‑200 ms zpožděním, až po lokálně provozovatelný (open‑source) TTS pro scénáře, kde nechcete posílat audio mimo vlastní infrastrukturu.
MiniMax Speech 2.6: TTS pipeline pod 250 ms a lepší čtení „entit“ (URL, čísla, částky)
MiniMax vydal Speech 2.6 a tvrdí end‑to‑end latenci generování hlasu pod 250 ms, což je přesně hranice, kde voicebot přestává působit „těžkopádně“ a začne být použitelný v reálném hovoru (barge‑in, rychlé repliky, přirozené střídání). Prakticky zajímavý je i důraz na přímé čtení nestandardních formátů bez pre‑processingu: telefonní čísla, IP adresy, částky, datumy, e‑maily a URL. V telco provozu to snižuje množství „lepidla“ v NLU/TTS vrstvě (normalizace entit, pravidla pro čtení) a tím i počet bugů typu „špatně přečtená faktura / číslo linky“. Zmíněná funkce „Fluent LoRA“ míří na problém, kdy zdrojový hlas pro klonování není perfektní – pro contact centra je to relevantní, protože nahrávky často obsahují šum, dialekt a disfluenci. Takeaway: pokud ladíte metriky konverzačního toku (time‑to‑first‑audio, průměrná délka pauz, přerušování), TTS latency už není „nice‑to‑have“, ale základní provozní parametr – měřte ji end‑to‑end včetně integrace a síťových hopů.
Zdroj: minimax.io
Mistral Voxtral Transcribe 2: streaming ASR se sub‑200 ms latencí + diarizace + context biasing
Mistral představil Voxtral Transcribe 2 jako dvojici STT modelů: batch variantu s diarizací a „Realtime“ variantu pro živý přepis. Pro voiceboty je klíčové, že Realtime je stavěný jako streaming architektura (ne dodatečně upravený offline model), a latenci lze konfigurovat až na sub‑200 ms – to přímo zlepšuje detekci barge‑in a zkracuje „ticho“ mezi zákazníkem a agentem. V telco scénářích (call centra, IVR modernizace) je navíc praktická diarizace a word‑level timestampy: usnadní to real‑time asistenci agentům, audit, i post‑call analytiku bez drahých doplňkových služeb. Velmi použitelná je funkce context biasing (až 100 termů), která pomáhá s názvy tarifů, produktů, technickými zkratkami nebo lokálními jmény – přesně ta místa, kde generic ASR typicky padá. Důležitý je i aspekt nasazení: Voxtral Realtime má open weights pod Apache 2.0, takže pro citlivá data (PII, regulace) je realistické on‑prem/edge nasazení a minimalizace odtoku audia do cloudu. Takeaway: pokud dnes řešíte „rychlost“ voice agenta, začněte ASR – přechod na streaming STT s nízkou latencí často udělá větší rozdíl než výměna LLM.
Zdroj: mistral.ai
Kani‑TTS‑2: open‑source TTS (~400M) s voice cloning, který běží i na 3 GB VRAM
Projekt Kani‑TTS‑2 míří na „edge‑friendly“ generování hlasu: dle popisu jde o ~400M parametrů, real‑time factor kolem 0.2 a požadavek jen ~3 GB VRAM, tedy provoz i na běžnějších GPU. Z technického pohledu je zajímavá architektura „audio‑as‑language“ (tokenizace audia přes neural codec a generování tokenů jazykovým backbone), která slibuje přirozenější prozodii bez klasických mel‑spectrogram pipeline kroků. Pro telco/voicebot provoz je relevantní kombinace: (a) možnost provozu lokálně kvůli PII a regulacím, (b) nižší jednotkové náklady pro vysoké objemy hovorů, a (c) zero‑shot voice cloning pro konzistentní hlas napříč kanály (IVR, outbound, self‑care). Praktický dopad: lokální TTS otevírá cestu k architektuře, kde LLM běží v privátním cloudu a audio nikdy neopustí bezpečnostní perimetr – což je častý požadavek u operátorů. Současně to ale zvyšuje odpovědnost týmu za monitoring kvality (artefakty, stabilita, drift) a za „hlasovou bezpečnost“ (zneužití klonování, autorizace hlasů). Takeaway: pokud zvažujete open‑source TTS, přidejte do Definition of Done i testy na čtení entit (čísla, částky), latenci a „voice similarity“ plus guardrails pro klonování.
Zdroj: MarkTechPost (s odkazy na HF váhy)
Závěr – 3 takeaways pro telco/voice:
- Latence je produktová funkce: měřte end‑to‑end (ASR→LLM→TTS) a optimalizujte primárně ASR streaming + TTS time‑to‑first‑audio.
- „Entity handling“ (čísla, částky, URL, e‑maily) přeneste co nejvíc do TTS/normalizace – v provozu to dramaticky snižuje incidenty a reklamace.
- Open‑weights (ASR/TTS) dávají cestu k on‑prem/edge a privacy‑first architekturám, ale vyžadují vlastní QA, monitoring a bezpečnostní guardrails pro voice cloning.
