Ranní AI/Voice briefing – 2026-03-09

Dobré ráno – dnešní rychlý briefing shrnuje 3 čerstvé (poslední dny) technické novinky kolem voice agentů, ASR/TTS a provozu botů v produkci.

OpenAI: nové snapshoty audio modelů pro spolehlivější voice agenty (méně halucinací, lepší tool-calling)

OpenAI nasadilo nové snapshoty audio modelů zaměřené na typické „produkční“ failure-mody voice aplikací: ticho/hluk, dlouhé konverzace a nástroji řízené flow, kde musí agent přesně volat funkce. Konkrétně jde o aktualizace pro speech-to-text, text-to-speech i nativní speech-to-speech přes Realtime API (např. gpt-realtime-mini-2025-12-15, gpt-4o-mini-transcribe-2025-12-15, gpt-4o-mini-tts-2025-12-15). V článku OpenAI uvádí měřitelné posuny u real‑time modelu (např. +18,6 p. b. v instruction following a +12,9 p. b. v tool-calling accuracy proti předchozímu snapshotu) a zároveň zmiňuje lepší stabilitu a přirozenost výstupního hlasu. Pro telco voiceboty je důležité hlavně snížení „hallucinations during silence“ a robustnější chování v hluku – to je přesně situace telefonních linek, IVR a call‑center prostředí. Praktický takeaway: pokud máte v produkci už testovací sadu typických call‑flow (ověření identity, změna tarifu, hlášení poruchy), vyplatí se přepnout na nový snapshot a znovu projet regresi – zisk je často „zadarmo“ (stejná cena) a snížíte riziko chyb v tool‑driven krocích.

Zdroj

Deepgram: Flux umí měnit ASR konfiguraci uprostřed streamu (Configure) + nové self-hosted release

Deepgram přidal do svého Flux WebSocket rozhraní nový řídicí message typ Configure, který umožňuje měnit parametry rozpoznávání řeči uprostřed běžícího streamu – bez odpojování a znovupřipojení. To je v praxi zásadní pro voice agenty, kde se během hovoru střídají „volné“ pasáže s velmi citlivými úseky (OTP, čísla smluv, hláskování jmen), a kde je potřeba dynamicky upravit turn detection (např. eot_threshold, eot_timeout_ms) i slovník klíčových termů. Changelog zároveň zmiňuje březnový self‑hosted release (260305) a upozornění na známý problém s Flux v dané verzi (nedoporučeno pro Flux deployment) – což je přesně typ informace, kterou chcete mít v provozním checklistu před upgrade. Pro telco to znamená lepší „barge‑in“/turn‑taking kontrolu a menší riziko, že agent uřízne zákazníka při diktování údajů, nebo naopak zbytečně čeká v tichu a prodlužuje AHT. Praktický takeaway: zvažte architekturu, kde v runtime přepínáte „režimy“ rozpoznávání (běžná konverzace vs. autentizace) a u self‑hosted hlídejte kompatibility (např. minimální NVIDIA driver) a explicitní poznámky ke známým vadám v release.

Zdroj

Twilio: Voice Intelligence se mění na Conversational Intelligence (observabilita AI agentů + generativní operátory)

Twilio přejmenovalo Voice Intelligence na Conversational Intelligence a posouvá produkt směrem k jednotné analýze napříč voice, messaging a virtual agents. Z praktických věcí je zajímavá hlavně část „AI Agent Observability“ přes integraci s ConversationRelay (GA), která cílí na monitorování a iterativní ladění interakcí mezi zákazníky a AI agenty. Dále Twilio uvádí „Generative Custom Operators“ (public beta), tedy LLM‑řízené kontroly/operátory pro QA, compliance flagging nebo jiné doménové vyhodnocování nad konverzacemi, a rozšíření analýzy i na messaging (private beta). V telco provozu to typicky míří na dvě nejbolestivější oblasti: měřit kvalitu a bezpečnost (compliance, PII, regulované formulace) a rychle feedback‑loopovat změny promptů/flow podle reálných hovorů. Praktický takeaway: i když váš bot běží mimo Twilio, stojí za to převzít principy – definujte „observability contract“ (co logovat, jak tagovat kroky, jak měřit eskalace a barge‑in) a zaveďte automatizované „operátory“ pro compliance/QA, které běží po hovoru i near‑real‑time.

Zdroj

Závěr – 3 takeaways pro telco/voice

Regrese na nových audio modelech: přepnutí snapshotu (STT/TTS/realtime) často sníží WER a „silence hallucinations“ bez změny ceny – ale vždy to ověřte na vašich call‑flow.
Dynamická ASR konfigurace v hovoru: schopnost měnit endpointing a slovník „za běhu“ je praktický upgrade pro autentizaci, diktování čísel a barge‑in scénáře.
Observabilita a automatizované QA/compliance: bez měření (latence, přerušení, eskalace, chybovost nástrojů) se voice agent v produkci rychle rozpadá – zaveďte to jako první‑třídní feature.

Post Views: 128