Ranní AI/Voice briefing – 2026-04-10

Krátký ranní briefing: co je nového ve světě AI chatbotů a hlavně voice/voicebotů (s důrazem na nasazení a provoz v telco).

OpenAI: gpt-realtime + produkční Realtime API (MCP, SIP, image input)

OpenAI oznámilo obecnou dostupnost Realtime API a nový speech-to-speech model gpt-realtime, který má být výrazně lepší v instruction following a v přesném volání nástrojů (function calling) během živé konverzace. Prakticky to znamená méně „rozpadů“ dialogu při dlouhých tool callech – model umí pokračovat v plynulé konverzaci, zatímco čeká na výsledek (asynchronní function calling). Pro telco/voice je klíčová novinka přímá podpora SIP, takže lze agent napojit na veřejnou telefonní síť, PBX nebo SIP endpointy bez různých mezivrstev a workaroundů. Přibyla také podpora remote MCP serverů (jednodušší integrace nástrojů bez vlastního „lepení“ tool routingu) a image input pro scénáře typu „pošlete screenshot/foťák a agent pomůže“. Dopad pro provoz botů: s jedním speech-to-speech modelem se zmenšuje latence i počet komponent, ale roste důraz na observabilitu, limity kontextu a náklady na dlouhé hovory (OpenAI zároveň zmiňuje jemnější řízení kontextu pro snižování costů). Takeaway: pokud dnes jedete STT→LLM→TTS, vyplatí se otestovat, zda speech-to-speech + SIP zjednoduší architekturu, zlepší TTFT/plynulost a sníží počet failure módů v reálných hovorech.

Zdroj: Introducing gpt-realtime and Realtime API updates

Telnyx: „LiveKit on Telnyx“ (hostované LiveKit agenty, sub‑200 ms RTT, carrier-grade SIP)

Telnyx spustil beta nabídku „LiveKit on Telnyx“, která slibuje nasazení existujících LiveKit agentů bez změny kódu (balení do Dockerfile + deploy přes API) a provoz na Telnyx infrastruktuře. Tvrzený technický přínos je kolokace inference (STT/TTS na GPU) s telco PoP, takže audio „neopouští“ síť Telnyxu a má to dávat sub‑200 ms round-trip pro přirozenější konverzace. Důležité pro telco je i to, že zmiňují „carrier-grade telephony“: podpora AMR‑WB, call recording, transfery a custom trunk konfigurace jako nativní součást stacku. I když jde o press release, je to dobrý signál směru: hlasoví agenti se tlačí k edge/PoP architektuře a k vlastnictví co největší části řetězce kvůli latenci, predikovatelnosti a compliance. Dopad na stavbu/provoz: pokud máte SLA na odezvu a kvalitu hovoru, je vhodné měřit nejen modely, ale i síťovou topologii a „hops“ mezi PSTN/SIP a inference. Takeaway: u voice agentů začíná být konkurenční výhoda v integraci telco a compute – plánujte architekturu tak, aby šla škálovat při špičkách a zároveň udržela konzistentní latenci (ne jen průměr).

Zdroj: Telnyx Launches “LiveKit on Telnyx”

AWS: nasazení Pipecat voice agentů na Bedrock AgentCore Runtime (WebSockets/WebRTC/telephony)

AWS publikovalo praktický návod, jak nasadit streamované voice agenty postavené na frameworku Pipecat do Amazon Bedrock AgentCore Runtime. Hlavní message je architektura: pro „lidsky“ působící dialog potřebujete end-to-end odezvu typicky pod ~1 s a musíte řešit bidirekční streaming po celé trase (client↔agent, agent↔model, a u telco navíc telephony integraci). AgentCore Runtime zde AWS pozicuje jako serverless prostředí s izolací per-session (microVM), auto-scalingem a dlouhými session (až 8 hodin) – to je relevantní pro dlouhé support hovory nebo komplexní B2B flows. Zajímavé jsou konkrétní transportní varianty: WebSockets jako nejjednodušší start, WebRTC (TURN-assisted nebo managed) pro lepší latenci a odolnost, a „Telephony“ jako samostatná větev s tím, že latence často závisí na providerovi. Pro telco týmy je důležité, že AWS explicitně rozlišuje první hop latenci (edge→runtime) a doporučuje přemýšlet o ICE/TURN a síťových omezeních (např. NAT). Takeaway: pokud stavíte voice boty pro contact center, testujte transportní vrstvu stejně přísně jako modely – špatně zvolený transport umí zničit UX i při skvělém LLM.

Zdroj: AWS ML Blog – Deploy voice agents with Pipecat and AgentCore Runtime (Part 1)

Pipecat: release v0.0.108 (turn-taking, VAD varování, realtime služby, opravy přerušování)

Pipecat vydal v březnu v0.0.108 s řadou změn přímo mířících na bolestivá místa produkčních voice pipeline. Přibyla varování kolem VAD stop_secs (např. když je stop_secs ≥ STT p99 latence, může to „zabít“ čekání na STT a zhoršit detekci konce tahu), což je přesně ten typ detailu, který v telco provozu rozhoduje o plynulosti barge-in a turn-takingu. Release taky přidává hooky typu on_turn_context_created pro TTS, aby šlo „předehřát“ provider-specific kontext a zkrátit first-audio latenci. Ve fixech stojí za pozornost opravy reálných produkčních incidentů: např. u ElevenLabs WebSocketu řeší únik „phantom“ kontextů při rychlých přerušováních, který vede na limit simultánních kontextů a následné odpojování. Změny u realtime služeb (OpenAI Realtime/Gemini Live/Nova Sonic) sjednocují prioritu system_instruction a přidávají warningy – prakticky to snižuje riziko „nečekaného chování“ při mixu system/developer instrukcí. Takeaway: i když Pipecat vypadá jako „framework“, release notes jsou dobrý checklist pro vlastní produkční pipeline (VAD parametry, p99 latence STT, správa TTS kontextů, přerušování a deterministické ukončení session).

Zdroj: Pipecat – Releases (v0.0.108)

Závěr – 3 takeaways pro telco/voice:

SIP jako first-class citizen: trend je napojovat voice agenty přímo na SIP/PBX a snižovat počet mezivrstev kvůli latenci a spolehlivosti.
Latence je systémová vlastnost: měřte p95/p99 (ne jen průměr) pro STT/TTS, VAD a transport (WebRTC vs WebSockets), jinak se UX rozpadne ve špičkách.
Interruption/turn-taking je „produkční feature“: investujte do správného VAD, správy TTS kontextů a robustního ukončování session – to jsou typické zdroje incidentů.

Post Views: 1