Ranní AI/Voice briefing – 2026-03-16

Ranní výběr novinek pro stavbu a provoz AI chatbotů a voicebotů v telco. Zaměřeno na věci, které reálně mění latenci, spolehlivost, integrace a operabilitu (ne jen marketing).

Hume AI otevřelo TADA (open‑source TTS architektura s nízkou halucinací obsahu)

Hume AI zveřejnilo TADA (Text‑Acoustic Dual Alignment) – open‑source přístup k syntéze řeči, který řeší typický problém LLM‑based TTS: nesoulad mezi „hustotou“ textových a audio reprezentací. Klíčová myšlenka je 1:1 zarovnání – každý textový token má odpovídající akustickou reprezentaci, takže model postupuje „v lockstep“ a nemá prostor přeskakovat nebo vkládat slova. V jejich evaluaci uvádějí velmi nízkou real‑time factor (RTF ~0,09), tedy generování rychlejší než real‑time, a v testu 1000+ vzorků z LibriTTSR nulovou míru halucinací (měřeno přes CER práh). Pro voiceboty v telco je to důležité hlavně tam, kde TTS běží dlouho (call‑notes čtení, potvrzení podmínek, právní formulace) a kde „přidané“ nebo „vynechané“ slovo může znamenat incident nebo eskalaci. Praktický takeaway: i když nepoužijete TADA přímo, stojí za to měřit TTS spolehlivost metrikou typu CER/word‑drop na „povinných“ skriptech a uvažovat o architekturách, které halucinaci omezují konstrukčně (ne jen promptem).

Zdroj: https://www.hume.ai/blog/opensource-tada

Twilio Studio přidalo ConversationRelay widget (přímé napojení živého hovoru na váš WebSocket)

Twilio přidalo do Studio nový widget „ConversationRelay“, který umí připojit živý voice call přímo na WebSocket server, který si provozujete sami. Z pohledu telco voicebotů je to zásadní: Studio je často „orchestrace“, ale realtime audio/LLM pipeline si tým chce držet ve vlastním runtime (kvůli latenci, bezpečnosti, observabilitě a vendor‑lockin). Widget explicitně zmiňuje konfiguraci ConversationRelay, custom parametry i voice controls a hlavně success/failed přechody, což se hodí pro robustní řízení stavů (fallback na DTMF/IVR, přepojení na agenta, retry). Praktický dopad na provoz: umožní to rychleji prototypovat a nasazovat „voice-first“ toky bez toho, aby se musel celý call‑control přepsat mimo Twilio ekosystém. Takeaway: pokud stavíte voicebota, zvažte architekturu „call control/orchestrator“ (Twilio) + „realtime agent runtime“ (váš WS backend) a definujte jasné kontrakty: eventy, timeouty, barge‑in, a pravidla pro ukončení/hand‑off.

Zdroj: https://www.twilio.com/en-us/changelog (položka 2026‑03‑06) — viz také dokumentace widgetu: https://www.twilio.com/docs/studio/widget-library/conversationrelay

Azure Speech SDK 1.48.x (Feb 2026): kritické opravy CRL + metriky latence a streaming input pro TTS

Microsoft v „What’s new“ pro Azure Speech popsal únorové vydání Speech SDK 1.48.2 a 1.48.1. Prakticky nejdůležitější je kritický fix pro CRL (Certificate Revocation List) partitioning na Linuxu/Androidu, který mohl způsobovat pády/selhání připojení při rotaci certifikátů nebo při přepínání regionů (typický telco SRE pain). Pro provoz voicebotů je to přesně ten druh „neviditelné“ změny, která rozhoduje o dostupnosti: když STT/TTS padá kvůli TLS/CRL, zákazník to vnímá jako „bot je hloupý“, ale je to čistě infrastruktura. Vedle toho přibyla v JavaScriptu metrika end‑to‑end latence rozpoznávání (SpeechServiceResponse_RecognitionLatencyMs), což je super pro objektivní SLO a alerting na degradaci (např. vyšší latence v konkrétním regionu). A v Javě zmiňují podporu streaming input textu pro syntézu řeči, což může pomoct u dynamických odpovědí generovaných postupně (nižší perceived latency). Takeaway: upgradujte SDK tam, kde běží produkce na Linuxu/Androidu s CRL checkingem, a přidejte metriky latence do vašeho voice observability dashboardu (oddělit audio ingest, ASR, LLM, TTS, playback).

Zdroj: https://learn.microsoft.com/en-us/azure/ai-services/speech-service/releasenotes

Voicegain platform Release 1.131.0: více realtime transcript kanálů + integrace telephony a „call insights“ konfigurace

Voicegain vydal release 1.131.0 s dlouhým seznamem změn zaměřených na telephony boty a speech analytics. Pro telco provoz je zajímavé hlavně rozšíření možností pro realtime transcript delivery (např. volitelné zobrazení realtime přepisu přes Pusher i přes WebSockets) a další úpravy kolem AIVR/telephony bot konfigurace. V release notes je taky vidět posun směrem k „call insights“ jako first‑class entitě: API pro export Call Insights config, přidávání/úpravy otázek a sekcí pro call review a podpora contextId napříč call insights/call review endpointy. To se hodí, pokud potřebujete multi‑tenant/multi‑context nastavení (např. různé brandy, různé kampaně, různé segmenty call center) bez deploye nového kódu. Praktický takeaway: pokud váš voice stack řeší analýzu hovorů a QA, investujte do „konfigurovatelnosti“ (verzované konfigurace, export/import, context parametr) a do dvou kanálů realtime přepisu (WS pro nízkou latenci, message broker pro škálování a audit trail).

Zdroj: https://voicegain.github.io/platform/RELEASE.html

Bonus: Realtime API v Azure OpenAI (Foundry) má podporu SIP pro telephony napojení

Microsoft ve „What’s new“ pro Azure OpenAI v Foundry (classic) připomíná, že Realtime API podporuje SIP, tedy přímé telephony napojení na realtime audio sessions. V telco světě to zjednodušuje architekturu: místo různých mostů a custom gateway komponent můžete mít čistší cestu PSTN/SIP → realtime agent. Důležité je to i pro bezpečnostní a compliance model: SIP boundary je často místo, kde se dělá nahrávání, redakce a routing, a přímá podpora v realtime stacku může zlepšit konzistenci. Zároveň to zvyšuje tlak na to, mít dobře vyřešené VAD/barge‑in, timeouts a fallback, protože u telefonie je tolerance na „ticho“ a zacyklení výrazně nižší než v chatu. Takeaway: pokud plánujete voicebota na telefonní lince, ověřte si (PoC) SIP napojení, latenci end‑to‑end a chování při degradaci sítě; do návrhu rovnou započtěte monitoring RTP/SIP signálů a korelaci s ASR/LLM/TTS metrikami.

Zdroj: https://learn.microsoft.com/en-us/azure/foundry-classic/openai/whats-new?view=foundry-classic

3 rychlé takeaways pro telco/voice:

  • Měřte a hlídejte latenci a spolehlivost po vrstvách (SIP/RTP → ASR → LLM → TTS), ne jen „celkový čas odpovědi“.
  • Preferujte architektury, které snižují riziko halucinací konstrukčně (např. token alignment / constrained generation), hlavně u „povinných“ textů.
  • Oddělte orchestraci call‑flow od realtime agent runtime a definujte tvrdé kontrakty: timeouty, barge‑in, fallback a hand‑off.