Ranní AI/Voice briefing – 2026-03-10

Ranní briefing: vybrané novinky z posledních dní, které mají praktický dopad na stavbu a provoz AI chatbotů a voice/voicebotů (se zaměřením na telco/contact center).

Genesys Cloud: Bot Transcription Connector (BYOT ASR) + škálování Messenger konfigurací

Genesys v přehledu „Features coming soon“ pro release z 9. 3. 2026 zmiňuje nový Bot Transcription Connector, který umožní do Genesys Bot Flows připojit třetí stranu pro ASR a zvolit ji jako výchozí transkripční engine pro celý flow nebo jen pro vybrané „Ask for Slot“ kroky. To je důležité hlavně tam, kde nativní ASR nefunguje dobře (jazyk, přízvuk, doména, šum typický pro PSTN) a kde je potřeba udržet jeden návrh flow, ale měnit ASR podle use-case. Pro telco voiceboty to v praxi znamená možnost ladit rozpoznávání podle trhu (CZ/SK vs. Balkán apod.) bez rozkopání dialogu a bez nutnosti duplikovat flow pro každý jazyk. Zároveň to posouvá provozní odpovědnost: do monitoringu je potřeba zahrnout SLA/latenci/word error rate externího ASR a hlídat regresi po změnách modelu. Praktický takeaway: pokud dnes bojujete s kvalitou STT v konkrétních segmentech hovorů (šum, overlap, DTMF, speciální slovník), připravte si benchmark dataset a proces „certifikace“ ASR providerů, protože BYOT bude dávat smysl jen s měřením a rollout strategií (canary, fallback).

Zdroj: Genesys Cloud – Features coming soon

Kore.ai Voice Gateway v11.22: TTS text streaming (Azure) + streaming pro Google Chirp + Deepgram Flux ASR

Kore.ai v release notes pro v11.22.0 (28. 2. 2026) přidává několik věcí, které jsou pro voiceboty prakticky „latency game-changer“. Konkrétně jde o text streaming do TTS u Azure (progresivní syntéza, WebSocket, seamless audio continuity a fallback do non‑streaming), plus podporu streamingu u Google Cloud TTS (HD/Chirp voices) a integraci Deepgram Flux ASR s důrazem na lepší turn detection a nižší latenci. Pro telco provoz to je relevantní, protože u PSTN hovorů typicky bojujete s pocitem „ticha“ po dotazu uživatele a se zpožděním daným kaskádou ASR→LLM→TTS; streaming umožní začít mluvit dřív (a někdy i průběžně upravit větu, pokud to platforma podporuje). Důležité je, že release výslovně řeší i fallback handling a zachování zpětné kompatibility – to bývá v produkci kritické, protože výpadek streamu nesmí shodit call. Praktický takeaway: pokud máte agentní voice scénáře, dejte si do backlogu měření end‑to‑end latence po složkách (ASR, LLM, TTS) a otestujte „barge‑in“ chování se streamingem; často je potřeba znovu naladit timeouts, VAD/endpointing a pravidla přerušení pro přirozený dialog.

Zdroj: Kore.ai – Voice Gateway Release Notes

LiveKit: Agents UI (produkční komponenty pro realtime voice agenty)

LiveKit představil Agents UI – knihovnu UI komponent pro multimodální/realtime agentní aplikace, která se instaluje přes shadcn CLI a komponenty fyzicky „přistanou“ do vašeho repozitáře. Nejde jen o design kit: balík obsahuje prvky pro audio input/output, vizualizéry (včetně shader-based „aura“), session lifecycle a transcript/chat – tedy věci, které se u voice agentů pořád opakují a které v produkci rozhodují o UX („agent poslouchá? mluví? je připojeno?“). Pro telco/voicebot provoz je to zajímavé hlavně v kombinaci s webovým „agent assist“ nebo s interním operátorským desktopem: dobré realtime UI zkracuje troubleshooting a zvyšuje důvěru operátora i zákazníka (méně pocitu, že se systém zasekl). Zároveň přístup „kód je váš“ snižuje vendor lock‑in a usnadňuje compliance (můžete si auditovat, co UI dělá se zvukem a metadaty). Praktický takeaway: pokud stavíte vlastní voice agent front-end, počítejte s tím, že UI je součást spolehlivosti – přidejte explicitní stavové indikátory (listening/speaking/thinking/reconnecting), logování session událostí a export transcriptu pro incidenty.

Zdroj: LiveKit blog – Agents UI

OpenAI (přes Releasebot): důraz na agentní workflow, tool use a „computer use“ v nové generaci modelu

V přehledu release notes (agregovaném Releasebotem) je vidět silný důraz na agentní workflow: lepší práce s nástroji, efektivnější volání toolů a nativní „computer use“ (operace nad UI přes screenshot/DOM). Pro chatboty v telco to není přímo „voice feature“, ale dopad je praktický: část procesů kolem botů (tvorba reportů, triage incidentů, práce s ticketingem, validace konfigurací, kontrola knowledge base) se dá přesunout do agentů, kteří umí obsluhovat reálné systémy a ne jen generovat text. U voicebotů to znamená potenciál pro automatizované runbooky – např. agent si sám ověří stav SIP trunku, zkontroluje metriky latence ASR/TTS a založí incident s logy. Současně roste potřeba governance: jakmile agent umí „kliknout“, musíte mít potvrzovací politiky, sandbox prostředí a audit trail, jinak je to bezpečnostní riziko. Praktický takeaway: berte tool‑use jako součást provozní architektury – definujte povolené akce (allowlist), přidejte „human-in-the-loop“ u destruktivních operací a logujte každé volání nástroje včetně vstupů/výstupů.

Zdroj: Releasebot – OpenAI updates (agregace release notes)

3 takeaways pro telco/voice:

Streaming do TTS (a obecně end‑to‑end latency) je teď „must‑measure“: bez metrik a A/B rolloutů se zlepšení snadno ztratí v endpointingu a timeoutech.
BYOT ASR dává smysl jen s benchmarky a provozní disciplínou (monitoring, fallback, regresní testy po změně modelu).
Reálný provoz botů je čím dál víc o agentních runboocích a automatizaci ops: definujte tool governance a audit trail dřív, než to pustíte do produkce.

Post Views: 123