Ranní AI/Voice briefing – 2026-02-16

Dnešní ranní briefing shrnuje tři čerstvé zahraniční novinky, které mají praktický dopad na stavbu a provoz AI chatbotů a hlavně voice/voicebotů v telco prostředí (latence, spolehlivost, škálování a kvalita přepisu).

OpenAI: Codex‑Spark + výrazné snížení latence v Responses API (WebSocket)

OpenAI vydalo research preview modelu GPT‑5.3‑Codex‑Spark, který je optimalizovaný na „real‑time“ interakci a běží na nízkolatenční infrastruktuře (Cerebras) s cílem extrémně rychlé odezvy. Z telco/voice pohledu je ale nejdůležitější část o změnách v celé request‑response pipeline: zavedení persistentního WebSocket spojení a optimalizace v Responses API mají snížit overhead na roundtrip o 80 %, per‑token overhead o 30 % a time‑to‑first‑token o 50 %. To je přesně ten typ systémové optimalizace, který se u voicebotů projeví nejvíc – když máte hlasový dialog, uživatelsky vnímaná kvalita je často limitovaná prvními stovkami milisekund a jitterem, ne „max IQ“ modelu. Prakticky to znamená: plánujte architekturu tak, aby dlouhé HTTP requesty nahradil persistentní kanál (WebSocket/stream), a měřte end‑to‑end metriky (TTFT, jitter, p95/p99) separátně od „model latency“. Takeaway pro telco provoz: pokud vendor přepíná default na WebSocket stream, vyplatí se to reflektovat v gateway/load balancingu, timeoutech a observabilitě (session‑level tracing, reconnect strategie), protože vám to může přímo snížit náklady na „dead air“ a zlepšit NPS.

Zdroj: openai.com – Introducing GPT‑5.3‑Codex‑Spark

Voxtral Realtime (arXiv): nativně streaming ASR s offline kvalitou při sub‑sekundové latenci

Na arXiv vyšel technický report k Voxtral Realtime – nativně streaming modelu pro automatický přepis řeči (ASR), který cílí na offline kvalitu přepisu při sub‑sekundové latenci. Autoři explicitně řeší typický problém „hackování“ offline modelů chunkováním/sliding window (mismatch trénink vs inference) a místo toho trénují end‑to‑end streaming architekturu s jasným zarovnáním audio a text streamu. Konkrétně zmiňují dosažení konkurenceschopné kvality vůči Whisper při zpoždění ~480 ms a lepší výsledky při vyšším delay (např. 960 ms), přičemž model je vícejazyčný (13 jazyků) a váhy jsou pod Apache 2.0. Pro telco voiceboty je to důležité, protože nízká latence přepisu je často bottleneck u „barge‑in“ scénářů (uživatel skáče do řeči) a u real‑time asistovaných hovorů (agent assist), kde každých 200–400 ms navíc zvyšuje riziko přerušování a chyb v turn‑takingu. Praktický takeaway: pokud stavíte vlastní ASR vrstvu (on‑prem / privátní cloud kvůli datům), dívejte se po modelech nativně trénovaných pro streaming a testujte je na svých telephony datech (8 kHz/16 kHz, šum, echo) – offline‑optimalizované modely vám v nízkých delay režimech často spadnou kvalitativně i stabilitou.

Zdroj: arXiv – Voxtral Realtime

Roblox Developer Forum: Speech‑to‑Text API ve full release (stabilita, echo cancellation, vyšší limity přes Extended Services)

Roblox oznámil plný release svého Speech‑to‑Text API a popsal několik konkrétních změn od bety, které jsou překvapivě relevantní i pro telco praxi. Jednak přidali podporu „Extended Services“, což umožňuje dokoupit vyšší limity (audio length a request rate) a tím lépe škálovat provoz – to je analogie k tomu, co v telcu řešíme jako capacity planning a throttling pro ASR/TTS. Druhá část je čistě technická: opravili nekonzistentní chování API v případě, že instance AudioSpeechToText vznikla přes Explorer window, a hlavně zlepšili echo cancellation, aby mikrofon méně chytal zvuk ze speakeru (méně falešných detekcí řeči a chybné transkripce). Pro voiceboty v reálném světě (hlasité prostředí, handsfree, přepojení mezi zařízeními) je echo a feedback loop typická příčina „ghost transcriptions“ a zbytečných LLM callů; zlepšení na vstupu se projeví i na nákladech a stabilitě dialogu. Praktický takeaway pro telco: i když máte vlastní VAD a turn‑taking, vyplatí se investovat do kvalitního AEC (acoustic echo cancellation) a navrhnout UX typu push‑to‑talk / headset doporučení – vendor sám v oznámení říká, že to stále doporučuje jako nejlepší zkušenost.

Zdroj: Roblox DevForum – [Full Release] Speech‑to‑Text API

Závěr: 3 praktické takeaways pro telco voice/AI

  • Optimalizujte end‑to‑end latenci (TTFT, jitter, p95/p99) a preferujte persistentní stream (WebSocket) před „request/response“ stylem.
  • Pro streaming přepis volte modely trénované nativně pro streaming a benchmarkujte je na telephony datech (šum, 8 kHz, barge‑in).
  • Nešetřete na audio vstupu: AEC/VAD a jednoduché UX (push‑to‑talk, headset) často sníží chybovost víc než další promptování LLM.