Ranní AI/Voice briefing – 2026-03-01

Dnešní ranní briefing shrnuje čerstvé technické změny kolem voice agentů: nové realtime modely, rychlejší agentní orchestraci přes WebSocket a standardizaci bezpečného předávání na člověka.

OpenAI: gpt-realtime-1.5 v Realtime API (lepší spolehlivost pro hlasové agenty)

OpenAI v komunitním oznámení představilo model gpt-realtime-1.5 dostupný v Realtime API, zaměřený na stabilnější speech-to-speech a obecně robustnější voice workflow. Zmiňované interní posuny jsou praktické: lepší „audio reasoning“ (Big Bench Audio), výrazně vyšší přesnost přepisu alfanumerik (typicky čísla, kódy, SPZ, identifikátory) a lepší instruction-following. Pro telco voiceboty je to důležité hlavně kvůli IVR scénářům, kde se často pracuje s čísly (číslo smlouvy, ověření, PIN) a i drobná chyba v rozpoznání znamená pád do operátora nebo ztrátu konverze. Další relevantní bod je deklarovaná vyšší spolehlivost tool-callingu a vícejazyčného chování, což v praxi snižuje „křehkost“ agentů při integracích (CRM, billing, trouble-ticketing) a při přepínání jazyků/akcentů. Praktický takeaway: pokud máte v produkci hlasové scénáře citlivé na čísla a přerušování (barge-in), vyplatí se A/B test na reálných nahrávkách a zejména měřit WER pro digit/letter pasáže a míru „handover“ do člověka.

Zdroj: OpenAI Developer Community – gpt-realtime-1.5 is live in Realtime API

OpenAI: WebSocket mode pro Responses API (rychlejší tool-heavy agentní smyčky)

Dokumentace OpenAI popisuje nový režim WebSocket mode pro Responses API: místo opakovaného posílání celé konverzační historie se drží perzistentní spojení a každé další kolo posílá jen inkrementální vstupy spolu s previous_response_id. Tohle míří na dlouhé agentní běhy s mnoha tool round-tripy (orchestrátory, „agentic coding“, opakované volání interních systémů), kde se overhead na každém kroku nasčítá. OpenAI uvádí, že pro workflow s 20+ tool calls mohou vidět až ~40% zrychlení end-to-end, protože se minimalizuje „continuation“ overhead a využije se connection-local cache posledního response stavu. Pro telco provoz voicebotů je to relevantní všude tam, kde se během hovoru skládá více backend kroků (ověření identity → načtení služeb → diagnostika → nabídka řešení) a kde latence přímo ovlivňuje dojem „živého“ rozhovoru. Praktický takeaway: pokud máte architekturu, kde agent dělá více sekvenčních volání, zvažte přesun orchestrátoru do WebSocket režimu a nastavte jasné fallback chování pro situace previous_response_not_found (zejména pokud jedete store=false / ZDR) – jinak hrozí náhodné „resetování“ kontextu při reconnectu.

Zdroj: OpenAI API Docs – WebSocket Mode (Responses API)

Twilio: A2H (Agent-to-Human) protokol pro auditovatelný „human approval“ u agentů

Twilio publikovalo praktický článek, jak použít A2H (Agent-to-Human) protokol v integraci s autonomním agentem (příklad na projektu OpenClaw) – cílem je udělat z „approval promptu“ něco, co má kryptograficky ověřitelný důkaz souhlasu. Klíčová myšlenka: běžné „schvalování v chatu“ je slabé (může se ztratit, dá se spoofnout, chybí audit trail), zatímco A2H přidává out-of-band notifikaci, silnější autentizaci (např. biometrie) a JWS-signed evidence, které se dá uložit do audit logu. Pro telco je to extrémně relevantní u operací, které mají právní/bezpečnostní dopad: změna tarifů, reset hesla, aktivace služeb, práce s osobními údaji, nebo administrativní zásahy do sítě. Z pohledu stavby voicebotů to umožňuje návrh „high-risk“ větví: bot může vést hovor, ale před kritickým krokem vyžádat potvrzení z jiné bezpečné cesty (SMS/push), čímž se sníží riziko i tlak na dokonalou intent detekci. Praktický takeaway: definujte si assurance levely pro akce (LOW/MEDIUM/HIGH) a postavte eskalaci do A2H jako standardní pattern – ušetří to spory při incidentu („kdo co schválil“), a zároveň to umožní držet více autonomie bez zbytečného strachu z „agent runaway“.

Zdroj: Twilio – How to Use the Agent-to-Human Communication (A2H) Protocol with OpenClaw

Kontext (nezávislé shrnutí): OpenAI zvyšuje spolehlivost hlasu a zrychluje agenty

Nezávislé médium THE DECODER shrnuje dvě změny, které do sebe dobře zapadají: nový realtime model pro hlas a WebSocket režim pro Responses API. Důležité je, že posuny nejsou „marketingové“, ale míří na konkrétní bolesti z produkce: přesnost čísel/znaků v přepisu a latence v agentních smyčkách s mnoha tool calls. V telco prostředí se obě metriky přímo propisují do KPI: kratší „time-to-resolution“, nižší AHT, méně přepojení na operátora a lepší CSAT. Z provozního pohledu to také posiluje argument pro standardizaci měření: neřešit jen modelovou kvalitu „na pocit“, ale zavést pravidelné testy na sadě reálných hovorů (digit/letter sety + barge-in), plus měření end-to-end latence po jednotlivých krocích (ASR → NLU/LLM → tool → TTS). Praktický takeaway: pokud plánujete větší rollout voice agentů, dávejte stejnou váhu „runtime“ metrikám (latence, chybovost tool callů, stabilita session) jako samotné jazykové kvalitě – jinak to v telco provozu stejně skončí degradací do fallbacku.

Zdroj: THE DECODER – OpenAI ships API upgrades targeting voice reliability and agent speed

Závěr: 3 rychlé takeaways pro telco voice/voicebot týmy

  • Testujte „digits & letters“: čísla a kódy jsou produkční zabiják; měřte zvlášť a optimalizujte prompty i fallbacky.
  • Snižte latenci orchestrátoru: pro tool-heavy scénáře zvažte WebSocket režim a měření latence per krok (nejen průměr).
  • Zaveďte auditovatelný approval: pro high-risk akce používejte out-of-band schválení (A2H pattern) místo „napiš ano do chatu“.