Ranní AI/Voice briefing – 2026-01-31

Dnešní ranní briefing shrnuje nové praktické signály z vývoje „voice agentů“: od nativního speech‑to‑speech přístupu přes SIP integrace až po konkrétní doporučení, jak stáhnout latenci v end‑to‑end stacku.

OpenAI: Realtime API jde do GA + nový model gpt-realtime (SIP, MCP, image input)

OpenAI oznámilo obecnou dostupnost (GA) Realtime API pro produkční voice agenty a zároveň uvedlo nový speech‑to‑speech model gpt-realtime, který má lepší přirozenost řeči, instruction following a přesnější tool/function calling. Důležitá je zejména podpora SIP, díky které lze napojit agenta přímo na veřejnou telefonní síť, PBX a další SIP endpointy bez vlastního „telephony glue“ kolem. Nově se dá v session použít remote MCP server (nástroje/integrace „plug‑and‑play“) a také posílat obrázky jako kontext – což je relevantní třeba pro asistovanou diagnostiku nebo práci s screenshoty z selfcare aplikace. Pro telco provoz botů je praktická i zmínka o lepším čtení alfanumerik (telefonní čísla, VIN apod.) a o asynchronním function callingu, který pomáhá, když CRM/OSS/BSS odpověď trvá déle a nechcete rozbít plynulost hovoru. Takeaway: pokud stavíte voiceboty, stojí za to přehodnotit architekturu „ASR→LLM→TTS“ a otestovat S2S, protože snižuje latenci a zachovává nuance (intonace, smích), ale zároveň mění observabilitu a debug (méně „textových mezivýstupů“).

https://openai.com/index/introducing-gpt-realtime/

Twilio: referenční SIP proxy pro propojení dvou Twilio účtů (Kamailio + Terraform)

Twilio publikovalo technický návod, jak postavit SIP proxy pro propojení hovorů mezi dvěma Twilio účty přes SIP (namísto PSTN), s ukázkovým řešením nad open‑source Kamailio a infrastrukturovým deploymentem přes Terraform na AWS. Klíčové je vysvětlení „proč SIP“: oproti PSTN šetří náklady a hlavně umožňuje nést kontext v SIP hlavičkách, což je pro moderní voicebot/agent orchestration často zásadní (routing, identita zákazníka, metadata o kampani, call reason). Článek je užitečný i jako checklist pro „produkční připravenost“: škálování (NLB + autoscaling), bezpečnost (TLS/credentials, IP ACL), monitoring/alerting a troubleshooting pomocí call logů a pcapů. V telco prostředí se podobný pattern hodí všude tam, kde potřebujete bezpečně a auditovatelně propojovat různé tenancy/účty (např. vendor platforma vs. interní Twilio účet) nebo dělat postupný rollout voice agentů bez velkých zásahů do existujícího call flow. Praktický takeaway: i když použijete managed „voice AI“ platformu, SIP proxy (nebo alespoň standardizovaná SIP integrační vrstva) vám často ušetří vendor lock‑in a zlepší kontrolu nad routováním, kontextem a observabilitou.

https://www.twilio.com/en-us/blog/developers/tutorials/product/build-proxy-sip-to-twilio-sip

Introl: kde mizí latence ve voice stacku a co dělat, aby agent působil „lidsky“

Praktický deep‑dive do infrastruktury voice agentů připomíná nepříjemnou realitu: i když jednotlivé komponenty umí být rychlé (STT ~150 ms, TTS ~75 ms), end‑to‑end latency bývá typicky 800 ms až 2 s kvůli skládání zpoždění napříč stackem. Autor rozebírá latenci po vrstvách (ASR/endpointing, LLM generování, TTS time‑to‑first‑audio, síť, orchestrace) a zdůrazňuje, že „lidské“ konverzace se pohybují v okně ~300–500 ms, jinak roste pravděpodobnost přerušení nebo zavěšení. Pro telco voiceboty je užitečné, že se věnuje i turn‑takingu, VAD/endpointingu a streaming strategiím (začít syntetizovat dřív, než LLM domyslí celou odpověď; pracovat s partial transcripts). Článek také porovnává architektury „cascading pipeline“ vs. speech‑to‑speech (S2S) a popisuje, kdy dává smysl hybrid (např. klasická pipeline + S2S fallback pro překryv řeči nebo složité dialogy). Praktický takeaway: pokud vám lidé skáčou do řeči a agent „koktá“, často nejde o samotný model, ale o endpointing, bufferování a orchestraci — tyhle části si zaslouží stejně přísné SLO a monitoring jako LLM.

https://introl.com/blog/voice-ai-infrastructure-real-time-speech-agents-asr-tts-guide-2025

AssemblyAI: přehled real‑time STT v roce 2026 (latence vs. přesnost vs. implementační náročnost)

AssemblyAI vydalo přehled, který je užitečný jako „mapa terénu“ pro výběr real‑time speech‑to‑text (STT) do voice agentů: vysvětluje rozdíl mezi partial a final transcript, význam endpointingu a proč se v praxi často vyplatí upřednostnit rychlejší systém s o něco horší přesností. Z pohledu telco provozu botů je hodnotné, že text explicitně pracuje s end‑to‑end cílem (pro voice‑to‑voice interakce typicky ~800 ms v ideálu) a připomíná, že latence není jen model, ale i streaming, síť a integrační logika. Článek srovnává cloud API i open‑source přístupy a otevřeně zmiňuje, že „self‑host“ řešení (např. Whisper streaming) obvykle znamená výrazně víc engineeringu kolem škálování, bezpečnosti a stability. Praktický takeaway: při výběru STT si nastavte měřitelné cíle (P50/P95 latence, WER na vašich telco datech, chování v šumu/8kHz telephony) a testujte s reálnými call nahrávkami — marketingové „počty jazyků“ samy o sobě nic neříkají.

https://www.assemblyai.com/blog/best-api-models-for-real-time-speech-recognition-and-transcription

Voximplant: migrační poznámky k OpenAI Realtime API (GA vs. Beta) a „transcription-only“ mód

Voximplant publikovalo update svého klienta pro OpenAI Realtime API a popisuje změny při přechodu z Beta namespace na GA. Pro provozní týmy je to cenné hlavně proto, že ukazuje konkrétní tvar session konfigurace (vnořený session objekt), nastavení hlasu a volbu transkripčního modelu (včetně „transcription‑only“ módu). Z telco perspektivy je zajímavé, že Voximplant dlouhodobě cílí na propojování Realtime agentů s PSTN/SIP/WebRTC a řeší za vás mediální konverzi – tedy přesně tu „šedou zónu“, kde se často ztrácí čas při produkčním nasazení. I když je to vendor‑specific, jako checklist pro migrace a compatibility testing se to hodí (co se změní v eventech, jak se chová VAD/interruptions, co logovat pro troubleshooting). Praktický takeaway: při přechodu na GA verze realtime rozhraní si udělejte integrační testy na úrovni „call flow“ (nejen unit testy) — typicky se mění struktura eventů, detaily VAD a tím i uživatelský dojem z plynulosti hovoru.

https://voximplant.com/blog/openai-realtime-api-client-update

3 takeaways pro telco/voice:

  • SIP integrace a přenos kontextu (hlavičky/metadata) je klíč pro kvalitní routing a personalizaci — řešte ji jako produktovou schopnost, ne „jednorázovou integraci“.
  • Latence je systémový problém (VAD/endpointing, streaming, bufferování, síť, orchestrace) — měřte P50/P95 end‑to‑end a optimalizujte podle reálných hovorů.
  • S2S modely (speech‑to‑speech) slibují lepší přirozenost a nižší latenci, ale vyžadují jiný přístup k observabilitě, guardrails a debugování.