Ranní AI/Voice briefing – 2026-02-28

Dnešní ranní briefing se soustředí na dvě věci, které se v telco provozu botů potkávají nejčastěji: real‑time voice modely (latence, tool calling) a „agentic“ automatizaci napříč systémy – plus jedno důležité bezpečnostní varování pro týmy používající AI nástroje v CLI.

Azure/Microsoft Foundry: GPT‑Realtime‑1.5, GPT‑Audio‑1.5 a GPT‑5.3‑Codex (důraz na kontinuitu a spolehlivost)

Microsoft oznámil rollout nových „Azure OpenAI“ modelů do Microsoft Foundry: GPT‑Realtime‑1.5 a GPT‑Audio‑1.5 pro nízkolatenční hlasové interakce a GPT‑5.3‑Codex pro dlouhé, vícekrokové engineering/agentní workflow. Z pohledu voice botů je důležité, že Microsoft přímo uvádí měřitelné zlepšení v OpenAI evaluacích: +5 % na Big Bench Audio (reasoning), +10,23 % v alfanumerické transkripci a +7 % v instruction following – při zachování low‑latency chování. V praxi to typicky znamená méně „halucinovaných“ kroků v dialogu, menší drift instrukcí během delšího hovoru a lepší stabilitu v místech, kde bot přepíná mezi poslechem/odpovědí a voláním nástrojů. Pro telco provoz je to relevantní hlavně pro scénáře s DTMF/alfanumerikou (čísla smluv, RČ/IČO, kódy), kde i malý nárůst přesnosti výrazně snižuje potřebu opakování a následnou eskalaci na operátora. Praktický takeaway: pokud stavíte real‑time voice agenta, testujte znovu „kritické promptovací švy“ (handoff na tool, potvrzování identity, opakování čísel) – a měřte containment/abandonment před a po přechodu modelu.

Zdroj: Microsoft Tech Community (Azure AI Foundry blog)

Azure model katalog: „gpt-realtime-1.5“ – explicitní fokus na instrukce, přirozenost hlasu a function calling

Na stránce modelu v Azure katalogu Microsoft shrnuje, že gpt‑realtime‑1.5 slučuje speech‑to‑speech zlepšení do jednoho modelu a míří primárně na spolehlivější instruction following v reálném čase. Mezi vyzdvihované vlastnosti patří dvě nové voice varianty, přirozenější projev (pacing/prosody), vyšší audio kvalita a „improved function calling“. To je pro voiceboty v telco klíčové: jakmile je agent v režimu real‑time, každé zaváhání v tool callingu (nebo chybné parametry) se okamžitě projeví v uživatelském zážitku, prodlužuje ticho v hovoru a zvyšuje míru opakování. Prakticky to také podporuje architektury, kde LLM během hovoru volá více interních služeb (CRM lookup, billing, provisioning) a musí držet konzistentní stav a bezpečnostní pravidla. Praktický takeaway: zaveďte contract testy pro tool calling (JSON schema, validace, retries) a sledujte „tool failure rate“ jako provozní KPI podobně jako ASR WER/latenci.

Zdroj: Azure AI – model katalog (gpt‑realtime‑1.5)

Zoom Virtual Agent 3.0: agentic automatizace napříč CRM/billing/OMS + „glass‑box“ observability

Zoom posouvá Zoom Virtual Agent (ZVA) na verzi 3.0 a klade důraz na agentní provádění vícekrokových workflow napříč podnikovými systémy (CRM, billing, order management). Zajímavé pro enterprise/telco je, že vedle „no‑code“ tvorby workflow v AI Studiu explicitně přidávají observability do rozhodovací logiky, datových zdrojů a cest, kudy automatizace prošla – tedy auditovatelnost toho, co agent udělal a proč. V telco provozu botů bývá největší bolest přechod od FAQ chatbota k reálnému vyřešení požadavku (změna tarifu, reklamace, aktivace služby) a právě tam rozhoduje kombinace orchestrátoru + governance (kdo smí co volat, jak se to loguje, jak se to ladí). No Jitter i CMSWire zmiňují interní metriky Zoomu (vysoká míra vyřešení/containmentu a snížení abandonment), ale důležitější než marketingové číslo je architektonická změna: „end‑to‑end“ znamená integrace, workflow a kontrolovatelnost. Praktický takeaway: pokud zavádíte agentní automatizaci do telco, investujte do „glass‑box“ logů (trace kroků, zdroje dat, verze promptu/modelu) – bez toho budete v incidentu slepí.

Zdroj: No Jitter – Zoom updates its Virtual Agent • doplněk: CMSWire – feature breakdown

Check Point Research: zneužití konfigurací v „Claude Code“ (hooks/MCP) → RCE a exfiltrace API klíčů

Check Point Research publikoval analýzu kritických zranitelností v Anthropic Claude Code, kde lze přes repo‑level konfigurace (.claude/settings.json, .mcp.json) spouštět příkazy a v některých případech obejít očekávaný consent dialog – což vede k RCE na stroji vývojáře. Další vektor je exfiltrace API klíčů přes přesměrování ANTHROPIC_BASE_URL: nástroj může poslat autorizační hlavičku (API key) na útočníkův server ještě předtím, než uživatel stihne „trust“ potvrdit. Pro týmy stavějící boty je to přímé varování: čím víc používáte agentní CLI nástroje (nejen Claude Code), tím víc se z konfiguračních souborů stává útoková plocha podobná CI skriptům. V telco prostředí s přístupem do interních systémů je riziko násobně větší (přístupové tokeny, VPN, secrets v env), protože kompromitace vývojářského stroje často znamená boční pohyb do nástrojů a repozitářů. Praktický takeaway: zaveďte politiku „nepouštět AI/agentní CLI v neznámých repozitářích“, skenujte repo na podezřelé soubory (.claude/, .mcp.json), a omezte klíče scope/časem (short‑lived tokens, IP allowlist) – přesně jako u CI.

Zdroj: Check Point Research – Caught in the Hook (CVE-2025-59536, CVE-2026-21852)

Zásadní poznámka k provozu: měřte „tool failure rate“ a auditovatelnost stejně tvrdě jako ASR/TTS

Napříč dnešními zprávami se opakuje společné téma: voice agent už není jen ASR → LLM → TTS, ale hlavně orchestrátor nástrojů a workflow v reálném čase. Jakmile agent dělá akce napříč CRM/billing/OMS, musíte mít deterministická guardrails, validaci vstupů a kvalitní tracing, jinak je každé „zlepšení modelu“ provozně rizikové. Stejně tak bezpečnostní incidenty u agentních nástrojů ukazují, že integrace a konfigurace jsou dnes stejně citlivé jako samotné modely. Praktický takeaway: nastavte provozní dashboardy pro latenci, WER, containment, ale také pro tool‑error rate, počet retry, a auditní pokrytí (kolik interakcí má kompletní trace).

Závěr – 3 takeaways pro telco/voice:

Real‑time voice modely dávají smysl až s tvrdými kontrakty pro tool calling (schema, validace, retries) a měřením „tool failure rate“.
„Agentic“ automatizace bez glass‑box observability (trace kroků + zdroje dat) se v provozu rychle změní v neudržitelnou černou skříňku.
AI/agentní CLI nástroje a repo‑level konfigurace jsou nová attack surface – treatujte je jako CI: zero‑trust, skenování, least privilege a krátkodobé tokeny.

Post Views: 17