Ranní AI/Voice briefing – 2026-03-05

Dnešní ranní briefing shrnuje čerstvé technické novinky kolem AI chatbotů a voice/voicebotů se zaměřením na provoz v telco a contact centrech.

Genesys Cloud: secure pause i pro non‑ACD voice hovory + další „ops“ zlepšení

Genesys v release notes pro 2. března 2026 rozšiřuje funkci secure pause (pozastavení nahrávání) na všechny voice hovory, nejen na ACD interakce – nově tedy i na přímé inbound/outbound hovory a callbacky na DID v kampaních. Pro provoz voicebotů v telco je to důležité hlavně kvůli PCI/ochraně osobních údajů: když bot nebo agent sbírá platební údaje či citlivá data, musí být možné deterministicky „odstřihnout“ nahrávku bez ohledu na typ hovoru a routing. Praktický dopad je v návrhu flow: secure pause musí být navázaný na konkrétní intent/slot (např. zadávání čísla karty), musí fungovat i při fallbacku z bota na člověka a musí se auditovat. Zároveň mě zaujalo i několik čistě provozních věcí: seskupování operational events pro rychlejší troubleshooting, jemnější telephony permissions na station association a možnost PATCH pro částečné update externích kontaktů (méně rizika přepisu dat v integracích). Takeaway: compliance a observability se stávají „first‑class“ požadavkem architektury botů – ne jen nastavení v CCaaS.

Zdroj: Genesys Cloud Release Notes (March 2, 2026)

Real‑time voice stack „lokálně“ v .NET: VAD → STT → LLM → TTS jako vyměnitelné komponenty

ElBruno publikoval praktický popis frameworku ElBruno.Realtime, který skládá realtime voice pipeline z komponent Voice Activity Detection, Speech‑to‑Text, LLM a Text‑to‑Speech, a to včetně streaming režimu. Z hlediska telco/voicebotů je zajímavé, že design stojí na standardních rozhraních (Microsoft.Extensions.AI) a DI, takže lze relativně snadno „prohazovat“ STT/TTS enginy (Whisper, Kokoro, QwenTTS…) podle latency/accuracy/cost. Autor explicitně řeší dva režimy: one‑shot (turn) a streaming (IAsyncEnumerable událostí), což je přesně hranice mezi IVR‑style botem a přirozenou konverzací s nízkou latencí. Praktický dopad pro provoz: lokální běh + auto‑download modelů usnadňuje dev/test prostředí (rychlá reprodukce problémů, offline testy, konzistentní benchmarky), ale v produkci pořád budete řešit observability, resource management a deterministické škálování (GPU/CPU). Takeaway: i v telco je čím dál reálnější mít „reference implementation“ pro realtime voice pipeline, kterou lze používat pro testy a performance tuning bez vendor lock‑inu.

Zdroj: ElBruno – Real‑Time AI Conversations in .NET (2026‑03‑02)

ElevenLabs (changelog 2026‑03‑02): víc „operátorských“ signálů pro voice agenty a lepší kontrola výstupů

V changelogu ElevenLabs (přes agregaci Releasebotu) se objevují změny, které jsou překvapivě praktické pro provoz voice agentů: například vizuální indikátor „agent používá tooly“ a s tím související klientské eventy, volitelná viditelnost conversation ID po skončení hovoru, nebo možnost skrývat audio tagy v transkriptech. Pro telco/CC provoz to znamená lepší trasovatelnost incidentů („který call/session to byl?“), rychlejší debug (tool request/response v timeline) a menší chaos v transkriptech, které často konzumují i netechnické týmy. Zajímavé jsou i změny kolem pronunciation dictionaries (case sensitivity, word boundaries a endpoint pro nastavení všech pravidel najednou), protože u hlasových botů se kvalitní výslovnost a správná transkripce doménových termínů typicky řeší až v produkci – a tady jde o snížení operativní náročnosti. Praktický takeaway: při výběru voice platformy už nekoukejte jen na kvalitu hlasu, ale i na to, jaké „ops“ a audit signály dostanete (event_id, session IDs, tool telemetry, správa výslovnosti).

Zdroj: ElevenLabs Changelog (2026‑03‑02) (agregace: Releasebot)

Postmortem: když spadne ingest/telemetrie, agentům „oslepne“ provoz (OpenTelemetry + webhooks)

Firetiger popisuje 8hodinový incident, kdy jejich ingest vrstva odmítala OpenTelemetry data a GitHub webhooks – kořenem byla kombinace race condition v CI, špatné atribuce build artefaktů a následná neplatná ECS service definice ukazující na neexistující image. Pro stavbu a provoz chatbotů/voicebotů v telco je to užitečná připomínka, že observability pipeline (OTel, event streaming, webhooky z integrací) je kritická součást služby: když se rozbije, nejen že „neměříte“, ale typicky i nedoručíte signály pro auto‑remediaci a incident triage. Z pohledu praktické architektury botů to vede k požadavkům typu: separátní monitoring deploymentu, canary/rollback guardrails a validace artefaktů před mutací runtime definic (immutable deploys, preflight checks). V článku je zajímavý i aspekt „agentů pro detekci“ – detekce fungovala, ale selhaly notifikace kvůli interní policy misconfiguraci; to je přesně slabé místo, které v telco často vidíme (správné signály, špatná eskalace). Takeaway: do incident managementu voice služeb patří testy na notifikace/policy stejně jako testy na samotné modely a integrace.

Zdroj: Firetiger – Incident postmortem in the age of AI agents (2026‑03‑01)

Závěr – 3 takeaways pro telco/voice provoz

  • Compliance funkce (secure pause, audit, PII/PCI) musí být navržené napříč typy hovorů a včetně handoffu bot → agent.
  • Realtime voice pipeline je dnes modulární (VAD/STT/LLM/TTS); klíčové je měřit latenci end‑to‑end a mít možnost komponenty prohazovat podle SLA.
  • Bez robustní observability a spolehlivé eskalace (notifikace/policy) vám „AI agenti“ v incidentu nepomůžou – nejdřív musí fungovat základní ops disciplína.