Ranní AI/Voice briefing – 2026-03-03

Ranní briefing shrnuje čerstvé technické novinky kolem AI chatbotů a voice/voicebotů – se zaměřením na to, co reálně mění stavbu a provoz v telco (IVR, CCaaS, troubleshooting, billing, identita).

OpenAI zlepšuje spolehlivost voice příkazů a zrychluje agentní běhy přes WebSockets

Podle shrnutí THE DECODER OpenAI nasadilo nový model gpt-realtime-1.5 pro Realtime API, jehož cílem je zvýšit spolehlivost voice interakcí (např. lepší přepis čísel a hláskování) a lepší následování instrukcí.
Současně OpenAI rozšířilo Responses API o WebSockets, což znamená persistentní spojení místo opakovaného posílání celého kontextu – a u komplexních agentů s mnoha tool cally to má dle OpenAI přinést 20–40 % zrychlení.
Pro telco voiceboty je to praktické hlavně u scénářů typu „ověř zákazníka → dohledání účtu → změna tarifu → založení ticketu“, kde se latence skládá z mnoha dílčích kroků.
Důležitý je i detail o zlepšení přepisu čísel/znaků – v telco je to kritické pro čísla smluv, identifikátory, částky a diktování e-mailu, kde chyby typicky generují eskalace na operátora.
Praktický takeaway: pokud dnes provozujete voice pipeline (ASR→LLM→TTS) nebo speech-to-speech, vyplatí se znovu proměřit WER na číslech a end-to-end latenci při tool-calling scénářích; WebSocket režim může ušetřit čas i náklady na každé turn-based rozhodnutí.

Zdroj

vLLM v0.16.0: WebSocket Realtime API pro streamované audio (self‑host alternativa)

Open-source inference server vLLM vydal verzi v0.16.0, která mezi highlighty přidává WebSocket-based Realtime API pro streamované audio interakce.
To je zásadní posun pro týmy, které chtějí voice agenty provozovat on‑prem nebo v privátním cloudu kvůli datům, regulaci nebo predikovatelné latenci.
V release notes je navíc uvedeno plné podporování async scheduling + pipeline parallelism s ~30% zlepšením end-to-end throughputu, což je pro telco důležité při špičkách (výpadky, billing okna, hromadné incidenty), kdy voicebot musí ustát vysokou konkurenční zátěž.
Dopad do praxe: self-hostované realtime rozhraní otevírá možnost standardizovat klienty (telefonní gateway / media server / web) na jeden „realtime“ protokol a vyměňovat backend modely podle ceny a compliance.
Praktický takeaway: pokud řešíte vendor lock-in u speech-to-speech API, stojí za to ověřit, jak snadno lze vLLM Realtime API napojit na vaši SIP/WebRTC vrstvu a jaké KPI (RTF, TPOT, drop rate) dostanete na vašich GPU.

Zdroj

Speech-to-speech v praxi: nejde jen o latenci, ale o architekturu (duplex vs. „Thinker–Talker“ vs. cascade)

Detailní technický rozbor shrnuje, že „speech-to-speech“ závod se v roce 2026 láme do tří architektur: audio-native full‑duplex (Moshi / PersonaPlex), oddělený Thinker–Talker (např. Qwen2.5‑Omni) a stále velmi praktická streaming cascade (ASR→LLM→TTS).
Text je užitečný tím, že explicitně popisuje trade-offy pro produkci: duplex umí přerušování a backchanneling, ale může trpět na „budget“ pro kontext a RAG; naopak cascade je méně přirozená, ale velmi dobře se kombinuje s dlouhým kontextem, nástroji a znalostními bázemi.
Pro telco je to přímo rozhodovací rámec: u billing/identity/troubleshooting obvykle vítězí procedurální spolehlivost a integrace na backendy (RAG, tool calling, workflow), zatímco u „hands-free“ self-care a rychlých dotazů může dávat smysl duplex kvůli přirozenosti a přerušování.
Zajímavý praktický bod je i „speculative retrieval“ (spouštění retrievalu ještě během řeči uživatele), protože v telco IVR se často dá predikovat intent a připravit data dřív, než uživatel domluví.
Praktický takeaway: při návrhu voicebotů nedělejte rozhodnutí jen podle první latence; nastavte si metriky pro task adherence, úspěšnost skriptů, a čas do vyřešení (TTR), a teprve pak vyberte architekturu (duplex/Thinker–Talker/cascade) pro daný use-case.

Zdroj

Závěr – 3 takeaways pro telco/voice

U voice agentů měřte zvlášť přesnost na číslech/znacích (identita, částky, reference) a latenci v multi‑tool workflow.
Self‑hosting realtime vrstvy (např. vLLM) dává smysl, pokud řešíte lock‑in, compliance nebo špičkové zatížení – ale vyžaduje disciplínu v observabilitě (RTF/TPOT/drop rate).
Architektura (duplex vs. cascade vs. Thinker–Talker) je produktové rozhodnutí: přirozenost ≠ procedurální spolehlivost; mapujte ji na konkrétní telco use-case.

Post Views: 54