Ranní AI/Voice briefing – 2026-02-17

Ranní výběr praktických novinek pro stavbu a provoz AI chatbotů a voicebotů v telco/contact-centrech. Zaměřeno na věci, které mění implementaci, provozní metriky nebo integrace – ne jen marketing.

Google Cloud CCaaS 3.44: nové proměnné, DTMF z klávesnice a API pro přidání třetí strany do hovoru

V release notes Google Cloud Contact Center AI Platform se na začátku února objevila sada změn v CCaaS 3.44, které jsou překvapivě „hands-on“ pro reálný provoz voice flows. Prakticky nejzajímavější je možnost posílat DTMF tóny přímo z klávesnice (včetně pauz), což zjednodušuje situace, kdy agent/bot musí proklikat IVR nebo zadat dlouhý kód během hovoru. Pro voiceboty v telco to znamená méně tření při human handoff a menší riziko chyb při zadávání údajů (např. PIN/ID) do downstream systémů, pokud to ještě není plně API-izované. Dále přibyl nový voice TTS placeholder @{END_USER_NUMBER} pro „callback/voicemail“ hlášky – typicky užitečné pro ověření čísla, na které má jít zpětné volání, a snížení počtu nedoručených kontaktů. A konečně Apps API dostalo endpoint pro přidání třetí strany do probíhajícího hovoru, což otevírá čistší implementaci konferenčních scénářů (např. přizvání specialisty nebo automatické přepojení do NOC/retence) bez křehkého skriptování v telephony vrstvě.

Zdroj: Google Cloud – Contact Center AI Platform release notes

Google CCAI: pokročilé reportovací dashboardy 3.43 – metriky čekání ve frontě a abandon time

Ve stejné sadě release notes je i update „advanced reporting dashboards 3.43“, který přidává/rozšiřuje dlaždice typu Avg Queue Time a Avg Queue Abandon Time. Na první pohled je to „jen BI“, ale pro boty/voiceboty je to přímo palivo pro operace: bez konzistentních queue metrik se těžko odlišuje problém v NLU/dialogu od problému v routingu a kapacitě agentů. V telco provozu se často řeší, jestli bot opravdu deflektuje a zkracuje čekání, nebo jen přesouvá zátěž jinam – a právě queue time + abandon time dávají rychlý signál, zda se zhoršuje dostupnost nebo UX. Důležité je také to, že metriky jsou sjednocené pro „call i chat“ sessions, což usnadní porovnání, jestli zákazníci raději přepínají kanál (např. po špatné zkušenosti s voice flow). Praktický takeaway: i když máte vlastní observability, zkontrolujte, zda vaše KPI pipeline umí konzistentně počítat queue/abandon pro každý segment (IVR vs. direct inbound) a jestli je umíte rozřezat podle „bot vs. agent“ fází.

Zdroj: Google Cloud – Contact Center AI Platform release notes

Microsoft Azure SDK (Jan 2026): „azure-ai-voicelive“ beta a rozšiřování agentních SDK

Microsoft v měsíčním přehledu Azure SDK release (January 2026) vypíchnul několik novinek kolem „agentních“ služeb (AI Foundry/Agents) a zároveň se objevila beta knihovna azure-ai-voicelive pro Java. I když je to jen SDK položka v release roundupu, pro telco voice stack je to relevantní signál: velcí cloud hráči tlačí standardizované klienty pro real-time hlasové scénáře, které typicky vyžadují streamování audio, nízkou latenci a event-driven integrace. V praxi to může zjednodušit integrace do existujících enterprise platforem (Java back-endy, event bus, observability) – a snížit množství „lepidla“ kolem WebSocketů či proprietárních protokolů. Současně se v highlightu zmiňuje propojování s OpenAI balíčky (Azure.AI.Projects.OpenAI), což je pro operace důležité kvůli jednotnějšímu řízení identity, rate limitů a auditování přes Azure. Takeaway pro provoz: vyplatí se hlídat, kdy beta SDK přejdou do stable – často to koreluje s tím, že služba získá lepší SLA/monitoring a lepší diagnostiku (trace/spany), což je u hlasu kritické.

Zdroj: Microsoft – Azure SDK Release (January 2026)

OpenAI Realtime přes SIP: report „ticho v RTP“ – připomínka, že voice integrace potřebují fallback a health-checky

Na OpenAI Developer Community se objevil konkrétní report, kde integrace přes SIP endpoint náhle přestala vracet audio a v RTP byly vidět „silence packets“. Samotný post není oficiální postmortem, ale je to typický symptom, se kterým se v produkci potká každý telco tým: hlasový agent může z pohledu SIP signalizace „žít“, ale mediální rovina (RTP) je fakticky mrtvá nebo degradovaná. Pro voiceboty to znamená, že nestačí mít jen monitoring stavů hovorů – potřebujete i runtime health-check na úrovni audio toku (např. detekce dlouhých úseků ticha, VAD/energy threshold, případně syntetické „ping“ fráze). Dopad na architekturu: navrhujte vždy safe fallback (přepnutí na TTS-only, přepojení na člověka, nebo restart session) a mějte jasné timeouts pro „no-audio/no-response“ situace. Praktický takeaway: přidejte do pipeline metriky typu „time-to-first-audio“, „consecutive silence duration“ a alarmy na skokové změny – ušetří to hodiny při hledání, jestli je problém v modelu, transkódování, NAT/SBC, nebo upstream incidentu.

Zdroj: OpenAI Developer Community – No Audio on SIP calls

Voximplant + Cartesia Line: hotová telephony vrstva pro připojení voice agentů na SIP/WebRTC/WhatsApp Calling

Voximplant oznámil nativní podporu pro Cartesia Line agenty a hlavní technická pointa je „telephony layer jako služba“: směrování SIP, call control, streaming a převody médií jsou abstrahované, zatímco tým řeší hlavně logiku agenta. I když jde o press release, pro telco je důležitý trend: implementace voice agentů se posouvá od vlastnoručního skládání SIP trunků + media gateway + transkódování k managed vrstvám, které umí rychleji prototypovat a škálovat. Dopad na provoz: méně vlastních komponent znamená rychlejší time-to-market, ale zároveň větší potřebu hlídat vendor lock-in a mít jasně ošetřené compliance (nahrávání, retention, PII) a exportovatelnost logů. Praktický takeaway: pokud dnes stavíte voice agenty nad Twilio/Genesys/Asterisk, porovnejte „build vs. buy“ konkrétně na položkách jako media conversion, call transfers, a WhatsApp Business Calling – tam bývá nejvíc edge-caseů a skrytých nákladů. Pro dlouhodobou udržitelnost si dopředu definujte, jak budete měřit latenci end-to-end a jak snadno vyměníte STT/TTS/model provider.

Zdroj: GlobeNewswire – Voximplant Brings Cartesia Line Voice Agents into Real Calls

Závěr – 3 takeaway pro telco/voice:

  • Neřešte jen NLU/LLM: queue/abandon metriky a routing rozhodují o tom, jestli bot reálně zlepšuje UX.
  • U voice integrací měřte „audio health“ (TTFA, silence) a mějte automatický fallback – SIP „OK“ neznamená, že teče hlas.
  • Sledujte nové SDK/managed telephony vrstvy, ale předem si pohlídejte observability, compliance a možnost výměny vendorů.