Ranní AI/Voice briefing – 2026-02-21

Ranní přehled toho nejdůležitějšího pro stavbu a provoz AI chatbotů a voicebotů v telco: co se změnilo u agentních SDK, voice modelů a open‑source TTS, a jak z toho vytěžit konkrétní provozní kroky.

OpenAI API changelog: rychlejší inference a „Skills“/Hosted Shell pro agentní workflow

V únorovém changelogu OpenAI API se objevují změny, které nejsou „voice feature“ samy o sobě, ale mají přímý dopad na agentní architektury (a tím i na voiceboty). Konkrétně je uvedeno zrychlení běhu modelů GPT‑5.2 a GPT‑5.2‑Codex o ~40 % (model i váhy beze změny), což je typicky přesně to, co v reálném čase sníží end‑to‑end latenci odpovědi (LLM část pipeline) nebo umožní zvednout kvalitu bez navýšení čekání. Dále přibyly „Skills“ v Responses API a nový Hosted Shell tool – to zjednodušuje bezpečnější provoz agentů, kteří potřebují spouštět deterministické kroky (např. normalizace dat, parsování logů, generování reportů, validace) mimo LLM. V telco provozu je praktický dopad hlavně v tom, že se dá lépe oddělit „hlasový dialog“ od akčních kroků (CRM/OSS/BSS dotazy, reset služeb, kontrola stavu incidentu) a zvednout auditovatelnost. Takeaway: pokud dnes řešíte latenci/robustnost voicebotů, měřte a optimalizujte zvlášť LLM část a zvažte přesun opakovatelných operací do toolů/skills namísto promptových „instrukcí“. https://platform.openai.com/docs/changelog

OpenAI Agents SDK (PyPI): standardizace agentů, sessions a voice doplňky

Na PyPI je dostupný OpenAI Agents SDK pro Python jako lehký framework pro multi‑agentní workflow, s jasně popsanými koncepty (agents, handoffs, guardrails, sessions, tracing). Pro týmy, které staví hlasové asistenty, je důležité, že balík explicitně nabízí volitelnou instalaci pro „voice“ (extra group), což naznačuje připravenost ekosystému pro audio/real‑time scénáře bez toho, aby si každý projekt vymýšlel vlastní lepidlo kolem STT/LLM/TTS. Prakticky se hodí hlavně „Sessions“ (automatická správa konverzační historie mezi běhy) a „Tracing“, protože v telco je běžný problém reprodukovatelnost a debug: proč agent něco řekl, jaký tool zavolal, jak dlouho to trvalo a kde se to rozpadlo. V provozu voicebotů to zlepšuje i incident management – máte konkrétní běhy/trace a můžete dělat regresní testy na „reálných“ scénářích z produkce. Takeaway: i když zůstáváte na vlastním orchestration layeru, vyplatí se přebrat minimálně principy handoffs/guardrails/tracing a zavést je konzistentně do všech botů (aby se z monitoringu stal nástroj, ne jen log dump). https://pypi.org/project/openai-agents/

Open‑source TTS KaniTTS‑2: voice cloning, 400M model a nízké nároky na VRAM

Projekt KaniTTS‑2 (open‑source) cílí na praktické „realtime“ TTS nasazení: uvádí 400M parametrů, 22 kHz výstup, voice cloning přes speaker embeddings a zmiňuje provoz s ~3 GB VRAM. Důležité je, že voice cloning je řešený přes extrakci embeddingu z referenčního audia (WavLM‑based), takže odpadá nutnost fine‑tuning pro každého mluvčího – to je pro telco užitečné pro rychlé prototypy brand voice i pro interní use‑cases (testovací hlasy, multibrand). Repo zároveň popisuje architekturu a parametry generování (temperature, top‑p, repetition penalty) jako runtime volby, což zjednodušuje A/B testování kvality vs. stabilita v produkci. Pro voicebot pipeline to znamená, že můžete realisticky uvažovat o self‑hosted TTS vrstvě (aspoň pro vybrané jazyky/kanály) a snížit závislost na vendorovi, pokud je pro vás kritická cena, latence nebo data governance. Takeaway: pokud vás brzdí cena nebo throughput u komerčního TTS, otestujte KaniTTS‑2 na typických telco větách (čísla, jména tarifů, kódy, adresy) a změřte MOS/latenci včetně streaming integrace. https://github.com/nineninesix-ai/kani-tts-2

WIZ.AI (telco/enterprise case): zkrácení anotací a lokalizace jako klíčová provozní schopnost

Case study k WIZ.AI (publikováno 2026‑02‑19) je dlouhá a částečně „business“, ale obsahuje pár užitečných provozních detailů pro voiceboty ve vícejazyčných trzích. Zmiňuje, že v jejich raných use‑cases byla chybovost existujících voice technologií pro konkrétní zákazníky až ~40 %, což vedlo k investici do vlastního voice AI stacku (ASR/NLP/TTS) a k důrazu na lokalizaci. Z pohledu telco je zajímavý popis bottlenecku v anotacích: z původně až 4 měsíců se jim podařilo zkrátit anotace na <3 týdny díky crowdsourcing platformě pro anotátory napříč zeměmi – to je přesně ten „neviditelný“ faktor, který rozhoduje, jak rychle umíte opravit intent/sloty po změně nabídky, legislativy nebo po incidentu. V textu se opakuje motiv managed services/partnerství a kontinuální optimalizace z reálných konverzací; to je v telco praktické zejména pro režim „bot jako produkt“, kde běží pravidelný tuning podle KPI (containment, AHT, WER, NPS/MOS, eskalace). Takeaway: pokud chcete stabilní ROI z voicebotů, berte datovou logistiku (sběr, labeling, QA, release cadence) jako stejně důležitou součást řešení jako modely samotné. https://review.insignia.vc/2026/02/19/wiz-ai/

OpenAI: „Updates for developers building with voice“ – méně halucinací v tichu/noise a lepší tool calling v realtime

OpenAI shrnuje aktualizace audio snapshotů (např. gpt‑realtime‑mini‑2025‑12‑15, gpt‑4o‑mini‑transcribe‑2025‑12‑15, gpt‑4o‑mini‑tts‑2025‑12‑15) se zaměřením na typické produkční failure modes voice agentů. V textu je explicitně zmíněno snížení halucinací při tichu nebo v přítomnosti background noise a lepší stabilita výstupního hlasu – to jsou přesně ty problémy, které v telco IVR/voice kanálu dělají nejvíc „ghost“ chyb (agent začne mluvit do ticha, nebo si vymyslí, že zákazník něco řekl). Zajímavé je také tvrzení o posunu v instruction following a tool calling pro realtime mini model (v jejich interním hodnocení +18.6 p.b. instruction following, +12.9 p.b. tool calling), což je klíčové pro scénáře typu ověření identity, změna služby, dotaz do BSS a následná syntéza odpovědi v jedné plynulé konverzaci. Pro provoz botů to znamená: méně ad‑hoc „workaround“ promptů a více determinismu v tom, kdy agent zavolá tool a kdy raději přepne na člověka. Takeaway: pokud jste voice stack testovali před pár měsíci a měli problémy se silence/noise nebo s tím, že model občas tool nezavolá, vyplatí se přetestovat jen prostým přepnutím snapshotu a znovu projet regresní sadu hovorů. https://developers.openai.com/blog/updates-audio-models/

Závěr – 3 takeaways pro telco/voice:

Měřte latenci po vrstvách (STT → LLM → tool calls → TTS) a optimalizujte nejdražší krok; i „ne‑voice“ změny v LLM stacku vám mohou zrychlit hlasový kanál.
Zaveďte tracing a sessions jako standard (napříč všemi boty) – bez toho se produkční incidenty mění v hádání.
Self‑hosted TTS/voice cloning má smysl minimálně pro piloty a interní kanály; rozhodující je ale test na telco doméně (čísla, názvy produktů, šum, přerušování).

Post Views: 3