Ranní AI/Voice briefing – 2026-03-06

Ranní výběr novinek pro stavbu a provoz AI chatbotů a voicebotů v telco: dnes hlavně o hlasové analytice v contact centrech a o tom, jak se posouvají STT/TTS vrstvy pro real‑time voice agenty.

Genesys Cloud (release notes): AI generování „topic phrases“, secure pause i pro non‑ACD hovory a API pro nahrávání knowledge souborů

Genesys v release notes (2. 3. 2026) přidává několik věcí, které přímo sahají do provozu voice řešení v contact centrách: AI generování návrhů frází pro Speech & Text Analytics témata, rozšíření „secure pause“ i na non‑ACD voice hovory a nové API endpointy pro nahrávání knowledge souborů přes S3 integraci. Pro analytiku je zajímavé hlavně to, že správce může vygenerovat až 10 návrhů frází na požadavek a je zde limit 100 požadavků/organizaci/den – to je jasný signál, že se z toho stává běžná operativní práce (a je dobré ji automatizovat a hlídat náklady). Secure pause mimo ACD je praktický dopad na compliance (PCI/GDPR) u callbacků, přímých inbound/outbound hovorů a kampaní – tedy přesně tam, kde se dnes často „rozpadá“ jednotná politika nahrávání. API pro knowledge soubory je užitečné pro boty/assistenty, kteří čerpají z interních dokumentů: zjednodušuje ingestion bez budování vlastní CMS konektorové vrstvy. Pro telco provoz je takeaway: počítejte s tím, že voice analytics konfigurace (topic phrase coverage) se dá a má řídit jako code/CI joby (včetně kvót), a secure pause řešte end‑to‑end i mimo fronty ACD, jinak vám compliance testy utečou mimo „hlavní“ call flow.

Zdroj: Genesys Cloud – March 2, 2026 release notes

Benchmark/guide pro STT v roce 2026: latence, WER a co reálně testovat pro voice agenty

Praktický článek srovnává STT providery (real‑time i batch) a opakovaně zdůrazňuje rozdíl mezi marketingovými čísly a produkční realitou (hluk, akcenty, telefonní kodeky, překryvy řeči). Pro voicebota je klíčové, že „time‑to‑first‑token“ u streamingu a end‑of‑speech detekce často rozhodují víc než laboratorní WER – protože celý budget pro voice‑to‑voice interakci se typicky musí vejít do ~800 ms (STT + LLM + TTS). Článek doporučuje testovat WebSocket streaming, interim výsledky, reconnection chování a hlavně to, jak provider zvládá špinavá data a doménový slovník (jargon, product names, tarifní názvy). Z telco perspektivy je užitečné i upozornění, že náklady se reálně nafouknou o „příplatkové“ feature (diarizace, redakce PII) – což jsou v call centrech často must‑have. Takeaway: udělejte si interní „golden“ test set z typických telco hovorů (šum, přepojování, různé dialekty, DTMF a přerušování) a měřte nejen WER, ale i latenci první token + stabilitu partial transcriptů; bez toho budete ladit barge‑in, endpointing a turn‑taking naslepo.

Zdroj: FutureAGI – Speech-to-Text APIs in 2026 (benchmarks & decision guide)

IBM + Deepgram: integrace STT/TTS do watsonx Orchestrate a důraz na nízkou latenci v enterprise hlasových workfl ow

IBM oznámilo integraci STT a TTS od Deepgramu do platformy watsonx Orchestrate (Deepgram jako první „dedicated voice partner“), s cílem dodat enterprise‑grade real‑time transkripci, multilingual podporu a přirozeně znějící syntézu do agentních workflow. I když je to do určité míry partnerská novinka, technicky je zajímavé, že se explicitně akcentují reálné audio problémy (hluk, akcenty, multijazyčnost) a škálování/latence – tedy přesně oblasti, které v telco provozu nejčastěji bolí. Pro voiceboty to znamená posun k „voice jako defaultní interface“ uvnitř enterprise orchestrací: hlas už není jen kanál na okraji CCaaS, ale vstup do agent builderů a automatizovaných procesů. V praxi to může zrychlit integrace, pokud už firma jede na IBM ekosystému; současně je to signál pro architekturu, že STT/TTS vrstvy budou čím dál víc „pluggable“ komponenty v orchestration platformách. Takeaway pro telco: pokud stavíte voice agenty nad orchestrátorem/agent builderem, ptejte se na SLA pro streaming, možnosti custom tuningu (slovník/akustika) a kde běží data (residency) – protože vendor‑stack integrace sice zkrátí time‑to‑market, ale zamkne vás do konkrétního latency a compliance profilu.

Zdroj: The AI Insider – Deepgram and IBM Collaborate for Enterprise AI Advanced Voice Capabilities

Závěr – 3 takeaways pro telco/voice

Voice analytics konfigurace (topic phrases, coverage) berte jako řízený proces s kvótami a automatizací – je to „ops“ disciplína, ne jednorázové nastavení.
U STT pro voice agenty měřte latenci a stabilitu partial transcriptů stejně tvrdě jako WER; bez toho se turn‑taking a barge‑in ladí náhodně.
Enterprise orchestration platformy začínají hlas nativně „nasávat“ – kontrolujte data residency, možnosti tuningu a reálné streaming SLA dřív, než se upíšete integraci.

Post Views: 140