Ranní AI/Voice briefing – 2026-02-15

Ranní briefing shrnuje čerstvé změny a praktické poznatky kolem AI chatbotů a voice/voicebotů – se zaměřením na provoz v telco a contact centrech.

PortSIP PBX v22.4: Deepgram jako nový STT provider + provozní zlepšení

PortSIP vydal maintenance release PBX v22.4, který kromě běžných stabilitních oprav přidává několik věcí přímo relevantních pro voice automatizaci. Z pohledu voicebotů je nejdůležitější rozšíření AI transkripce o podporu Deepgramu jako dalšího speech‑to‑text provideru, což usnadňuje výběr STT podle latence, přesnosti a ceny bez výměny celé PBX/CCaaS vrstvy. Pro telco provoz je zajímavá i automatizace TLS (Let’s Encrypt issuance/renewal) a možnost přiřazovat „application templates“ per extension (např. řízení kodeků a dalších parametrů), což pomáhá standardizovat audio profil pro ASR/TTS pipeline. Release také řeší praktické věci z provozu (re‑INVITE selhání s outbound proxy, iOS push certifikáty, Night Mode permissions a reason codes pro queue agenty), které typicky dopadají na kvalitu zákaznické zkušenosti a reportingu. Takeaway: pokud stavíte voicebota nad SIP trunkem/IVR/queue, vyplatí se mít připravený testovací „audio matrix“ (kodeky, re‑INVITE scénáře, proxy) a u transkripce mít minimálně 2 prověřené STT providery pro A/B a fallback.

Zdroj: PortSIP PBX v22.4 release notes

Prototyp real‑time voice AI na Androidu: Gemini Live API přes WebSockets (a jak přejít na WebRTC)

Praktický tutorial z webrtc.ventures ukazuje prototyp real‑time voice AI aplikace na Androidu postavený na duplex streamingu audia: Android AudioRecord/AudioTrack, backend jako relay přes WebSockets a na druhé straně Gemini 2.0 Live API. Text jde do detailů, které v telco/voice provozu rozhodují – nastavení VOICE_COMMUNICATION zdroje, echo cancellation, posílání pouze skutečně načtených bytů (kvůli jitteru), přehrávání v MODE_STREAM a zejména „barge‑in“ (okamžité přerušení TTS při vstupu uživatele) řízené eventy typu interrupted/turn_complete. Pro voiceboty v contact centru je to dobrý blueprint, jak udělat nízkou latenci bez REST request/response modelu a proč je persistent connection (WebSocket/WebRTC) zásadní pro přirozenou konverzaci. Autor navíc zmiňuje parametry activity detection (prefix padding, silence duration), což přímo mapuje na ladění turn‑takingu u hlasových agentů. Takeaway: i když dnes začnete prototypovat přes WebSockets, už v návrhu počítejte s přechodem na WebRTC (NAT traversal, jitter buffer, AEC/NS, adaptivní bitrate) a měřte end‑to‑end latenci po komponentách (capture → uplink → model → downlink → playback).

Zdroj: webrtc.ventures – Prototyping a Voice AI Android App with Gemini 2.0 and WebSockets

NoJitter: 2026 jako „rok zúčtování“ pro contact centra (data, práce, automatizace)

Analýza na NoJitter argumentuje, že hlavní posun v roce 2026 nebude jen „další nová AI technologie“, ale změna toho, jak firmy contact centra řídí a jaké výsledky od nich očekávají. Tři osy jsou data (contact centrum jako nejspolehlivější real‑time zdroj „proč zákazníci volají“ + sentiment/emocionální signály), práce (AI bere predikovatelné interakce, lidé se posouvají k high‑judgement/high‑empathy a k dohledu nad AI) a automatizace (agentic AI jako „pracovní síla“, kterou je nutné měřit, trénovat a ekonomicky modelovat). Pro telco/voicebot provoz je klíčové doporučení přesunout KPI z aktivit (AHT, počet hovorů) na outcomes (zabráněný churn, vyřešený incident bez reworku, proaktivně odvrácený servisní výjezd) – jinak se automatizace optimalizuje špatným směrem. Text také naznačuje, že „containment quality“ a „automation accuracy“ budou nové metriky, které mají být manažersky řízené stejně jako staffing. Takeaway: pokud provozujete voicebota, zaveďte outcome‑based měření (např. avoided calls/deflection with resolution, downstream rework rate, escalation quality) a počítejte s rolí „AI supervisor“ (real‑time override, post‑interaction validation) jako standardní součástí operací.

Zdroj: NoJitter – Why 2026 is a year of reckoning for contact centers

Voximplant + Cartesia Line: napojení voice agentů do reálných hovorů bez vlastní telephony infrastruktury

Voximplant oznámil nativní podporu pro Cartesia Line (code‑first ekosystém pro AI agenty) s cílem propojit voice agenty přímo do živých telefonních hovorů, SIP trunků, WebRTC a WhatsApp Business Calling bez stavby vlastní telephony vrstvy. Z technického pohledu je zajímavé, že Voximplant explicitně zmiňuje, že řeší mediální konverze, real‑time streaming, provisioning čísel, SIP routing, call control, transfery i compliance – tedy přesně ty části, které typicky nejvíc bolí při „productionizaci“ voicebota v telco. V kombinaci s agent frameworkem (Cartesia) to podporuje pattern: logika a dialog u jednoho dodavatele/stacku, telephony a real‑time orchestrace u druhého, s menším vendor lock‑inem díky „mix and match“ přístupu. Pro provoz to může znamenat rychlejší time‑to‑market (pilot → produkce) za cenu dalšího kritického dodavatelského článku v řetězci a potřeby dobře ošetřit observabilitu a fallbacky. Takeaway: když vybíráte „voice stack“, oddělte vrstvy (telephony/media, ASR/TTS, LLM/agent, orchestrace) a vyžadujte end‑to‑end tracing + jasně definované SLA na latenci (p95/p99) a barge‑in chování.

Zdroj: GlobeNewswire – Voximplant Brings Cartesia Line Voice Agents into Real Calls

Závěr: 3 rychlé takeaways pro telco/voice

Navrhujte voice pipeline jako stream (WebSocket/WebRTC) a berte „barge‑in“ jako povinný požadavek, ne nice‑to‑have.
Oddělte vrstvy stacku (telephony/media vs. agent/LLM vs. ASR/TTS) a mějte připravené fallbacky (min. 2 STT/TTS providery, krizové routování na člověka).
Měřte outcomes (prevence problémů, churn, rework) a zaveďte roli AI supervision do denního provozu.

Post Views: 136