Ranní AI/Voice briefing – 2026-03-25

Ranní výběr novinek a praktických poznatků k AI chatbotům a voice/voicebotům – se zaměřením na reálný provoz v telco a kontaktních centrech.

RT.Assistant (.NET) ukazuje „produkční“ architekturu multi‑agent voice bota nad OpenAI Realtime API (WebRTC)

Microsoft .NET blog popisuje referenční aplikaci RT.Assistant: hlasového asistenta postaveného v .NET, který používá OpenAI Realtime API přes WebRTC pro nízkou latenci a obousměrný audio/data kanál. Zajímavé je důrazné oddělení rolí do více agentů (Voice/Query/CodeGen/App) a nad tím deterministický „Flow“ (stavový automat), který má držet nedeterministické chování LLM pod kontrolou. Pro telco kontext je praktické i zvolené demo domény (výběr mobilních tarifů), kde je potřeba přesnost a dohledatelnost odpovědí; autoři to řeší netradičním RAG přístupem: dotaz se překládá do Prologu a vyhodnocuje nad explicitní znalostní bází, místo čistě vektorového vyhledávání. Důležitý dopad pro stavbu/provoz voice botů: WebRTC jako transport zjednoduší práci s audiem (OPUS, oddělený data channel, vyšší odolnost než WebSocket), a zároveň je tu jasný pattern, jak kombinovat „free‑form“ LLM s pravidly/KB bez rozpadu kvality. Praktický takeaway: pokud řešíte tarify, služby, bundle logiku a compliance, zkuste hybrid „LLM → formální dotaz (např. Prolog/SQL) → verifikovaný výsledek“, a orchestrace přes stavový automat vám výrazně pomůže se spolehlivostí a testovatelností.

Zdroj

LiteLLM přidává HTTP endpointy pro WebRTC handshake do Realtime API (ephemeral tokeny, bezpečnější klíče)

LiteLLM publikovalo návod, jak proxyovat připojení k Realtime API přes WebRTC z prohlížečů a mobilních klientů tak, aby aplikace nemusela držet „raw“ API klíč. Tok je postavený na krátkodobém client_secret (ephemeral token), který se získá přes POST /v1/realtime/client_secrets a použije se jen pro založení WebRTC hovoru (POST /v1/realtime/calls se SDP). Pro voice boty v telco je to důležité hlavně z pohledu bezpečnosti a provozu: oddělíte key management od front-endů a získáte kontrolní bod pro rate limiting, audit a tenant separation. Zároveň je to praktická „reference implementace“ pro event stream přes data channel (session.update apod.), což se hodí pro ladění instrukcí, tool-calling a telemetrii. Takeaway: pokud stavíte web/mobile voice UI, držte se modelu „ephemeral token těsně před offer“ (řeší expirace) a proxy použijte jako místo pro politiky (routing, limity, logování) – v telco prostředí je to skoro nutnost.

Zdroj

QA framework pro AI voice agenty: testujte jako real‑time systém (WebRTC metriky, end‑to‑end latence, observability)

WebRTC.ventures shrnují praktický QA rámec pro AI voice agenty: neřešíte jen „správnost odpovědi“, ale celý real‑time řetězec WebRTC streaming → STT → LLM → TTS, kde i krátké latence a jitter mění uživatelský dojem. Text zdůrazňuje, že běžné QA (UI/API) nestačí; potřebujete hybrid: automatizaci pro regresní/perf testy a manuální testy pro konverzační kvalitu, přerušování (barge‑in), multi‑speaker dynamiku a audio artefakty. Silná část je observability: kromě aplikačních logů/tracingu je potřeba sledovat WebRTC transportní metriky (packet loss, jitter, per‑session latency), protože hlasové problémy často vznikají právě na médiové vrstvě, ne „v LLM“. Pro telco provoz to přímo mapuje na carrier-grade požadavky: monitoring kvality hovoru, rychlé RCA a odhalování hraničních stavů při škálování. Takeaway: zaveďte end‑to‑end SLO pro „perceived latency“ (nejen jednotlivé komponenty) a sjednoťte metriky z media serveru (nebo SBC/edge) s metrikami STT/TTS/LLM – bez toho budete ladit naslepo.

Zdroj

Genesys Cloud (release notes): jemnější telephony oprávnění, secure pause i mimo ACD a AI pomoc pro Speech/Text Analytics

Genesys v release notes přináší několik změn, které jsou pro telco/CCaaS provoz botů a agentů praktické spíš „operational“ než marketingové. Zaprvé přidává detailnější telephony oprávnění pro asociace stanic/telefonů (selfStationAssociation view/edit, disassociateSelf), což je důležité pro kontrolu toho, kdo může měnit endpointy a tím i riziko zneužití nebo incidentů v provozu. Zadruhé rozšiřuje secure pause (pauza nahrávání kvůli PCI/senzitivním údajům) i na non‑ACD voice hovory, což je přesně ten typ compliance detailu, který vám u voice botů/agentů často rozhoduje o produkční nasaditelnosti. Zároveň přidává AI generování návrhů frází pro témata v Speech & Text Analytics – užitečné pro rychlejší pokrytí topic taxonomy, ale s limity na počet requestů/den (tj. plánovat kapacitu). A další „integrační“ změna: PATCH pro externí kontakty (nižší riziko přepsání dat) a API upload knowledge souborů přes S3 integrace, což může zjednodušit pipeline pro knowledge base, kterou pak používají boti/agent assist. Takeaway: i když to nejsou „wow“ modely, jsou to věci, které v telco reálně snižují provozní tření (oprávnění, compliance, integrace knowledge) – a stojí za to je zohlednit v návrhu rolí, audit trailu a CI/CD pro konfigurace.

Zdroj

3 rychlé takeaways pro telco/voice:

WebRTC pro voice AI se vyplácí: oddělený data channel, OPUS, lepší odolnost; ale bez transportních metrik (jitter/packet loss) budete slepí.
Hybridní architektury (LLM + deterministický flow + formální KB/dotazy) výrazně zvyšují spolehlivost u „produktových“ domén typu tarify, služby a balíčky.
Nezapomínejte na „nudné“ provozní věci: telephony oprávnění, secure pause/PCI a bezpečný key management (ephemeral tokeny + proxy) často rozhodují o produkci.

Post Views: 131