Ranní AI/Voice briefing – 2026-03-18

Bře 18, 2026

—

Ranní briefing přináší rychlý přehled toho nejpraktičtějšího z AI chatbotů a voice/voicebotů pro telco provoz (latence, spolehlivost, integrace do hlasové infrastruktury).

Sub‑200ms voice agent: přímé propojení Twilio Media Streams ↔ OpenAI Realtime (WebSocket bridge)

Autor popisuje architekturu „mostu“ mezi Twilio Media Streams (8kHz μ-law audio přes WebSocket) a OpenAI Realtime API (speech‑to‑speech přes WebSocket), aby se eliminoval klasický řetězec STT → LLM → TTS a jeho kumulovaná latence.
Klíčové je, že server pouze přeposílá audio chunky oběma směry (minimum zpracování), což snižuje režii a umožňuje rychlý „time‑to‑first‑audio“.
Prakticky zajímavé pro telco je i popis nativního „barge‑in“ (přerušení bota uživatelem) na straně Realtime API bez vlastního VAD, a volitelný asynchronní transcript (Whisper) pro audit/QA bez dopadu na latenci.
V produkci je ale potřeba počítat s cenou audio tokenů a hlavně s odolností bridge vrstvy: reconnecty WebSocketů a krátké výpadky streamu musí být ošetřené tak, aby volající neslyšel „ticho“.
Takeaway: pokud máte vysoké požadavky na UX (přirozený dialog) a nízkou latenci, stojí za to prototypovat speech‑to‑speech integraci; pro masový provoz může být pořád ekonomičtější kaskáda STT/LLM/TTS s agresivní optimalizací.
Zdroj

Incident: Responses API s background=true vracel server_error (rychlá degradace + obnova)

Na OpenAI Developer Community se objevil report, že všechny požadavky na Responses API s parametrem background=true vracely server_error napříč modely a konfiguracemi.
Z pohledu provozu je důležité, že to vypadalo jako krátkodobá služební degradace (autor zmiňuje, že se stav krátce projevil i na status page) a následně se problém sám vyřešil.
Pro telco boty (voice i chat) je to připomínka, že „background“/asynchronní režimy jsou skvělé pro delší tool‑call workflow (např. vyhledání v CRM, provisioning, ticketing), ale musí mít jasné fallbacky.
Minimální hygienou je: circuit breaker + retry s jitterem, přepnutí na synchronní režim (nebo zkrácený režim bez backgroundu), a hlavně user‑facing strategie proti tichu (v hlasu krátké potvrzení typu „ověřuji“ + případný hold zvuk).
Praktický takeaway: instrumentujte chybovost podle typu požadavku (foreground/background) a mějte připravené „degraded mode“ scénáře – v telco provozu je lepší dát uživateli konzervativní odpověď než držet linku v nejasném čekání.
Zdroj

Latency playbook pro voice agenty: co měřit (P50/P95) a které knob-y skutečně hýbou „tichým časem“

Hugging Face článek rozkládá vnímanou latenci voice agenta na konkrétní fáze a ukazuje, že uživatelský pocit „je to pomalé“ je primárně doba ticha od konce promluvy do prvního zvuku odpovědi.
Praktický rámec je jednoduchý: perceived latency ≈ EOU delay (konec promluvy) + LLM TTFT (čas do prvního tokenu) + TTS TTFB (čas do první audio dávky), a největší variabilita často sedí v LLM TTFT (zejména na P95 při dlouhé konverzaci).
Pro telco provoz je cenné i rozlišení „tool-call turnů“, kde vznikají dvě ticha (před potvrzením a po vykonání toolu) – a doporučení rozbíjet je akustickým potvrzením („hned to zjistím“) a případným background zvukem.
Článek navíc přináší praktické „knob-y“ bez nutnosti měnit model: tuning endpointingu (min/max endpointing delay), preemptive generation, předrenderované audio pro statické fráze (greetings/hold) a disciplínu v omezování kontextu pro stabilní TTFT.
Takeaway: pokud optimalizujete voiceboty ve velkém (call centra, IVR), hledejte úzké hrdlo podle trace dat a optimalizujte P95, ne jen průměr – právě P95 je to, co nejvíc ničí dojem z hovoru.
Zdroj

Závěr – 3 takeaways pro telco/voice:

Latence v hlasu je „ticho“: měřte perceived latency a optimalizujte P95 (EOU + TTFT + TTFB), ne jen průměr.
Speech‑to‑speech přes Realtime může dramaticky zlepšit UX, ale vyžaduje robustní bridge (reconnecty, fallbacky) a hlídání nákladů.
Tool‑call workflow dělejte „audio‑friendly“: rychlé slovní potvrzení + zvuk na pozadí + provozní degraded mode při výpadcích providerů.

Post Views: 129