Ranní AI/Voice briefing – 2026-02-25

Dnešní ranní briefing shrnuje 3 čerstvé a prakticky použitelné novinky ze světa AI hlasových agentů, telefony/SIP integrací a provozu voice stacku.

OpenAI: Realtime API je GA + nový model gpt-realtime (SIP, MCP servery, image input)

OpenAI oznámilo obecnou dostupnost (GA) Realtime API a současně nový speech-to-speech model gpt-realtime, který má cílit na nasazení „produkčních“ voice agentů s nízkou latencí a vyšší spolehlivostí. Důležité je zejména rozšíření API o přímou podporu SIP volání – to zjednodušuje napojení na veřejnou telefonní síť, PBX a další SIP endpointy bez vlastního lepení audio mostů. Prakticky zásadní je i podpora vzdálených MCP serverů: místo ručního drátování integrací můžete agentovi „připojit“ celé sady nástrojů přes standardizovaný server a Realtime session si tool-cally obslouží sama. OpenAI také zmiňuje zlepšení v detekci alfanumerických sekvencí a v přesnosti function callingu – to jsou přesně ty věci, které v telco provozu rozhodují (čtení čísel smluv, rodných čísel/ID, adres, PINů, či opakování kódů). Takeaway pro telco voiceboty: pokud dnes máte pipeline STT→LLM→TTS, stojí za to udělat technický spike na speech-to-speech režim a na SIP integraci, protože to může snížit end-to-end latenci i počet míst, kde se věci rozbíjí (časování, VAD, díry mezi partialy, synchronizace přerušování).

Zdroj: Introducing gpt-realtime and Realtime API updates for production voice agents

IBM + Deepgram: real‑time STT/TTS přímo ve watsonx Orchestrate (enterprise voice agenti)

IBM a Deepgram oznámily spolupráci, ve které se hlasové schopnosti Deepgramu (speech-to-text a text-to-speech) integrují do platformy watsonx Orchestrate pro stavbu a řízení AI agentů a workflow. Pro praxi je podstatné, že se tím voice vrstva stává „nativní“ součástí agent orchestrace – tedy ne jen doplněk, ale součást standardních enterprise nástrojů pro automatizaci procesů. Článek explicitně zmiňuje cíle jako enterprise-grade transkripce, real-time captioning a přirozeně znějící voice interakce pro digitální agenty; Deepgram navíc uvádí provozní parametry typu latence <300 ms a možnosti custom tuningu (což je relevantní pro doménové jazyky a přízvuky). V telco tohle typicky znamená rychlejší cesta k „voice-enabled“ agentům nad existujícími procesy (ticketing, CRM, provisioning), ale zároveň větší důraz na governance: kde teče audio, kde se ukládají přepisy, jak se dělá masking PII a audit. Takeaway pro stavbu/provoz botů: pokud už máte agentní orchestrace (nebo ji plánujete), připravte si jednotné rozhraní pro STT/TTS (SLA, fallback, vendor switch) – podobné partnerství může rychle změnit „defaultní“ volbu v enterprise stacku a vy chcete být schopní přepnout bez přepisování celé aplikace.

Zdroj: IBM taps Deepgram to add real-time speech to watsonx Orchestrate (SiliconANGLE)

Twilio Programmable Voice iOS SDK 6.13.6: fix blokování UI kvůli AVAudioSession (stabilita call UX)

Twilio vydalo Programmable Voice iOS SDK 6.13.6 (3. února 2026) s bugfixem, který řeší přístup k vlastnostem AVAudioSession uvnitř handleru pro změny routingu a související „resource competition“ vedoucí až k neresponsivnímu main threadu. I když je to „jen“ mobilní SDK, v telco světě je kvalita a stabilita audio zařízení kritická – zejména u aplikací, které dělají in-app calling, callbacky nebo obsluhují hovory paralelně s jinými audio aktivitami (Bluetooth/CarPlay, přepínání výstupů, nahrávání). Důležitost pro voiceboty je nepřímá, ale reálná: čím stabilnější je klientská audio vrstva, tím méně „falešných“ problémů budete řešit na straně bota (dropy, ztráty audia, vynucené reconnecty, neočekávané zpoždění). Pro provoz to znamená i méně incidentů typu „agent nerozumí / je ticho“, které ve skutečnosti vznikají v klientovi a ne v STT/LLM/TTS. Takeaway: pokud máte mobilní aplikaci s Twilio Voice SDK, naplánujte rychlé otestování upgrade v regresi zaměřené na route-change scénáře (Bluetooth headset ↔ reproduktor, příchozí hovor, přepnutí audio session) a sledujte metriky UI responsiveness + drop rate audia.

Zdroj: Voice iOS SDK Changelog (Twilio)

Takeaways pro telco/voice (prakticky):

  • Prioritizujte SIP‑ready architekturu: „voice agent“ bez nativního SIP napojení bude dražší na integraci i provoz.
  • Standardizujte STT/TTS vrstvu (SLA, fallback, masking PII) tak, abyste mohli měnit vendor stack bez velkého refactoru.
  • Nezapomínejte na klientskou audio stabilitu (SDK bugfixy) – často je to nejrychlejší způsob, jak zlepšit perceived quality voicebota.