Ranní AI/Voice briefing – 2026-02-22

Dnešní ranní briefing vybírá tři konkrétní technické posuny kolem realtime hlasových agentů, které mají přímý dopad na návrh architektury a provoz voicebotů v telco (latence, integrace do SIP a „telephony layer“).

OpenAI Realtime API: posun do telco díky SIP + lepší konverzační dynamika

Heise shrnuje, co se změnilo od bety k GA Realtime API a proč je to důležité pro produkční voice-to-voice scénáře. Pro telco je klíčové, že Realtime API kromě WebSocket/WebRTC nově zmiňuje i podporu SIP, což snižuje integrační tření vůči stávajícím contact-centerům a SBC/IVR stackům. Z pohledu UX jsou relevantní změny v audio kvalitě (přirozenější prozodie, pauzy) a „conversation idle timeouts“ – tedy schopnost udržovat hovor živý bez trapných tich. Operátoři a integrátoři tím získávají realističtější cestu k voicebotům, které nemusí stavět klasickou STT→LLM→TTS pipeline, ale mohou jít přímo do speech-to-speech režimu. Praktický takeaway: pokud už dnes máte SIP trunking a nahrávací/monitoring řetězce, vyplatí se otestovat, kde přesně v trase budete terminovat SIP (SBC vs. aplikace) a jak budete řešit compliance (nahrávání, retenční politiky, PII redakce) v prostředí s generativní vrstvou.

Zdroj

Voximplant + Cartesia Line: hotová telephony/orchestration vrstva pro hlasové agenty

Voximplant oznámil „native support“ pro Cartesia Line a prezentuje to jako zkrácení cesty z prototypu do produkce u voice agentů napojených na reálné hovory. Technicky zajímavé je, že platforma explicitně říká, že bere na sebe celou telephony vrstvu: media conversion, realtime streaming, number provisioning, SIP routing, call control, transfery a část compliance. Pro telco provoz je to důležité, protože nejdražší problémy u voicebotů často nejsou v promptu, ale v okrajových případech hovorů (přesměrování, DTMF, konferenční scénáře, výpadky, jitter, transkódování, monitorování kvality). Dopad na stavbu botů: architektura se posouvá k jasnému oddělení „agent logic“ vs. „telephony plane“, což usnadňuje výměnu modelů (ASR/TTS/LLM) bez rozbití call flow. Praktický takeaway: i když nepoužijete Voximplant/Cartesia, berte tento vzor jako referenci – vyplatí se vybudovat vlastní telephony abstraction layer (SIP/WebRTC/WhatsApp Calling) s jednotným call state machine, metrikami (TTFB/TTFT, barge‑in rate) a chaos-testy.

Zdroj

vLLM: streamované vstupy + realtime WebSocket API jako stavebnice pro nízkolatenční agenty

Blog vLLM popisuje nový směr: ne jen streamovat výstup tokenů, ale umět streamovat i vstup (input) a mít realtime /v1/realtime WebSocket endpoint. To je relevantní pro voiceboty, protože největší rozdíl mezi „ukázkou“ a „produkčním hovorem“ je schopnost průběžně poslouchat, reagovat a přerušovat (barge‑in) při zachování sub‑sekundové odezvy. Text poměrně střízlivě vysvětluje, proč chunkování audio vstupu do bloků není totéž co skutečný streaming (zhorší TTFT, rozbije obousměrnost a konverzační překryv). Důležitý je i detail o architektuře: pro opravdový streaming jsou potřeba causální/streamovatelné attention vzory (typicky sliding window) a model musí být pro streaming i trénovaný – nestačí „vzít libovolný LLM“ a očekávat realtime chování. Praktický takeaway: při stavbě telco voicebota si definujte cíle latence (P50/P90 time‑to‑first‑audio a time‑to‑first‑action) a hlídejte je end‑to‑end; často vás bude brzdit orchestrace a I/O (SIP media, transkódování, VAD), ne samotný model.

Zdroj

Závěrečné takeaways pro telco/voice (dnes)

  • SIP jako „první třída“ u realtime AI znamená jednodušší integraci do contact centerů – ale zároveň nutnost řešit compliance a nahrávání na správném místě v call chainu.
  • Oddělte agentní logiku od telephony vrstvy (routing, převody, transfery, metriky) – to je nejrychlejší cesta k provozní spolehlivosti.
  • Reálný realtime = streamovaný vstup i výstup + model/architektura připravená na streaming; chunkování je kompromis, který často zabije UX.