Dnešní ranní briefing shrnuje tři čerstvé novinky ze světa ASR/TTS a infrastruktury pro voice agenty – s důrazem na to, co reálně změní stavbu a provoz telco voicebotů.
Microsoft uvádí MAI-Transcribe-1 / MAI-Voice-1 (Foundry + model cards)
Microsoft oznámil novou rodinu MAI modelů (transkripce, hlas, obraz) a zpřístupnil je v Microsoft Foundry i v MAI Playgroundu. Klíčové je, že Microsoft u MAI-Transcribe-1 explicitně tlačí na „price-to-performance“: uvádí cenu od 0,36 USD/hod audio a současně se odkazuje na model card a benchmarky (např. FLEURS) proti Whisper large-v3 a dalším. Pro telco voiceboty tohle není jen „další model“ – je to signál, že velcí cloud hráči budou soutěžit na latenci, kvalitě a nákladech u end-to-end voice stacku, což přímo zasahuje jednotkovou ekonomiku voice automatizace v provozu (minuty hovoru, SLA, špičky). Důležité je také to, že Microsoft zdůrazňuje enterprise guardrails a governance ve Foundry – tedy směr k provozu ve velkém s auditovatelností. Praktický takeaway: pokud dnes jedete na Whisper/API třetích stran, vyplatí se do testovací matrice přidat MAI-Transcribe-1 (WER v telco audio, robustnost na šum/telefonní pásmo) a zároveň si ohlídat, jak se bude licencovat/účtovat TTS (MAI-Voice-1) v reálných dialer/IVR scénářích.
Zdroj: microsoft.ai – Today we’re announcing 3 new world class MAI models
MAI-Transcribe-1: důraz na latenci + „voice agent stack“ (STT→LLM→TTS)
V navazujícím článku Microsoft rozepisuje MAI-Transcribe-1 jako produkční ASR vrstvu s nízkou latencí pro online scénáře a zároveň jako základ pro voice agenty. Z hlediska praxe je důležité, že zmiňují nasazení (rollout) do Copilot Voice a Teams – tj. model má být provozně „odzkoušený“ na velkém objemu konverzačního audia, ne jen laboratorní benchmark. Pro telco provoz to znamená dvě věci: (1) roste šance na stabilní kvalitu u multi-speaker dialogů (přepínání mluvčích, překryvy) a (2) tlak na end-to-end latency, protože i malý nárůst prodlevy ve STT se v hovoru okamžitě projeví v „pocitu robotiky“. Praktický dopad na stavbu botů: dává smysl striktně oddělit pipeline na „streaming partials“ (průběžné hypotézy) vs. „final transcripts“ a přizpůsobit tomu dialog management (interruptibility, barge-in, potvrzování čísel). Takeaway: i když budete testovat nový STT, testujte současně celé kolečko STT→NLU/LLM→TTS včetně barge-in a přepínání řeči, protože uživatelský dojem často zabije až kumulace drobných latencí a opravných replik.
Zdroj: microsoft.ai – State of the Art Speech Recognition with MAI-Transcribe-1
Telnyx spouští „LiveKit on Telnyx“: hostování voice agentů přímo v telco stacku
Telnyx oznámil „LiveKit on Telnyx“ – plně hostovanou platformu pro běh LiveKit agentů na Telnyx infrastruktuře, kde slibují nižší náklady a hlavně nízkou latenci díky kolokované inferenci a tomu, že audio „neopouští“ jejich síť. Z pohledu telco voicebotů je tahle zpráva zajímavá tím, že míří na nejbolestivější část produkce: spolehlivost a konzistentní latenci při routování audio streamu přes více vendorů (telephony → STT → LLM → TTS → telephony). Telnyx explicitně zmiňuje SIP schopnosti (AMR-WB, nahrávání, transfery, trunk konfigurace) a sub-200 ms round-trip time – to jsou parametry, které rozhodují o tom, jestli voice agent působí „přirozeně“ a zvládne enterprise use-cases (přepojení na živého operátora, call recording pro compliance). Praktický takeaway: pokud stavíte voice agenty nad frameworkem typu LiveKit, dává smysl zvažovat integraci „co nejblíž“ k carrier síti a GPU inferenci, protože to může snížit nejen latenci, ale i náklady na session fee a egress. Současně je to připomínka, že architektura pro telco hlas není jen o LLM – stejně důležitá je telephony vrstva (SIP, kodeky, STIR/SHAKEN, compliance) a její provozní SLA.
Zdroj: GlobeNewswire – Telnyx Launches “LiveKit on Telnyx”
Závěr: 3 takeaways pro telco/voice
- Testujte nové STT/TTS vždy jako end-to-end hovor (latence, barge-in, číslovky), ne jen offline WER.
- Jednotková ekonomika voice automatizace se bude lámat na „price-to-performance“ velkých cloudů – mějte průběžně porovnávací benchmarky na svém audio.
- Produkční voice agent je telekomunikační systém: SIP/kodeky/compliance a topologie (edge inference) často rozhodují víc než volba LLM.
