Ranní AI/Voice briefing – 2026-02-23

Dobré ráno — krátký přehled novinek, které mají praktický dopad na stavbu a provoz AI chatbotů a voicebotů (zejména v telco/CC provozu) a na jejich latenci, spolehlivost a řízení dialogu.

OpenAI: nové „snapshot“ audio modely pro Realtime API (méně halucinací, nižší word error)

V komunitním oznámení OpenAI se objevily nové snapshoty audio modelů pro Realtime API, se zaměřením na spolehlivost a kvalitu: gpt-4o-mini-transcribe-2025-12-15, gpt-4o-mini-tts-2025-12-15 a gpt-realtime-mini-2025-12-15. OpenAI uvádí konkrétní metriky zlepšení: výrazné snížení halucinací u přepisu, méně slovních chyb u TTS a lepší instruction following i function calling u realtime mini varianty. Důležité je i vysvětlení naming strategie: verze s datem je „fixovaná“ (pro stabilitu v produkci), zatímco alias bez data může být přesměrován na doporučenou verzi v budoucnu. Pro telco voiceboty to znamená, že když ladíte endpointing, barge-in a kvalitu přepisu na konkrétní akustice (μ-law/8kHz, šum, přepojování), vyplatí se pinovat verzi s datem a migrovat řízeně až po vlastních testech. Praktický takeaway: zaveďte si v CI/monitoringu A/B „canary“ scénář pro nové snapshoty (stejné call flow, stejné audio podmínky) a měřte WER, míru re-prompts, počet oprav a latenci TTFT/TTSA před plošným přepnutím.

Odkaz na zdroj

LiveKit Agents 1.4.0: ruční turn detection, stabilní IDs nástrojů a vyšší odolnost při reconnectu

LiveKit oznámil release livekit-agents 1.4.0, který míří přímo na bolestivá místa realtime voice agentů v produkci. Přibyla podpora manual turn detection (commit_user_turn) pro realtime modely, takže můžete vypnout čistě VAD-driven přepínání tahů a řídit commit konce promluvy explicitně (např. push-to-talk nebo telco scénáře s dlouhými pauzami/DTMF). Dále se zlepšila spolehlivost: při dočasném výpadku spojení se aktivní joby po reconnectu migrují místo toho, aby spadly, což je pro call centra kritické (jinak „ticho“ nebo spadnutý hovor). Zmíněná oprava „false interruption“ řeší situaci, kdy pozdní end-of-speech eventy způsobily duplicitní timery a agent se omylem utnul — typická věc, která v telco prostředí vzniká kvůli jitteru a rozdílnému časování STT/VAD. Praktický takeaway: pokud vám zákazníci reportují „agent skáče do řeči“ nebo „náhodně umlkne“, je to přesně typ bugů, které stojí za to mapovat na eventy (speech_started/stopped, flush STT) a mít k nim metriky; a pro citlivé dialogy zvažte manual commit jako kontrolní páku.

Odkaz na zdroj

Twilio: praktický návod na propojení Twilio Media Streams ↔ OpenAI Realtime API (PCMU/8 kHz) v Pythonu

Twilio publikovalo detailní tutorial, jak postavit AI voice asistenta tak, že Twilio Voice přes Media Streams posílá audio do vašeho serveru a ten ho přes WebSocket proxyuje do OpenAI Realtime API, a zpět vrací audio odpověď do hovoru. Pro telco je důležitý důraz na kompatibilní audio formát audio/pcmu (μ-law, typicky 8 kHz), což je realistický vstup pro PSTN/VoIP a často zdroj degradace oproti „studio“ 16/48 kHz. Ukázka zároveň ukazuje, jak logovat klíčové typy eventů z realtime session (např. input_audio_buffer.* a response.*), takže si můžete postavit vlastní observability kolem turn-takingu, latence a chybovosti. V praxi je to dobrý referenční blueprint pro telco integraci: oddělit TwiML routing (incoming call) od media streamu, a v serveru řešit backpressure, reconnect a řízení VAD/turn detection. Praktický takeaway: když stavíte voicebota na reálné telefonii, začněte právě takovým „transparentním“ proxy modelem (Twilio ↔ vaše WS ↔ model), protože vám to umožní přidat compliance/PII filtry, nahrávání, redakci a fallback TTS/ASR bez vendor lock-in.

Odkaz na zdroj

Závěr: 3 rychlé takeaways pro telco/voice

  • Pinujte verze modelů (snapshot s datem) a migrujte až po A/B testu na vlastních call flow a vlastní akustice.
  • Turn-taking je produktová i SRE disciplína: měřte události VAD/STT/flush, interruptions a latenci, jinak bugy vypadají jako „náhodné“.
  • Proxy architektura (Media Stream ↔ WS ↔ model) je nejpraktičtější základ pro compliance, observability a pozdější multi-provider strategii.