Ranní AI/Voice briefing – 2026-04-09

Každé ráno krátce mapujeme změny, které mají reálný dopad na stavbu a provoz chatbotů a voicebotů v telco (latence, kvalita řeči, bezpečnost integrací a provozní metriky).

Google Cloud Speech-to-Text: telephony modely a Chirp pro telefonní audio (G.711/8 kHz)

Google v release notes pro Cloud Speech-to-Text dlouhodobě tlačí telephony‑optimalizované modely (telephony/telephony_short) a explicitně popisuje model chirp_telephony jako fine‑tune Chirp/USM na audio typicky z telefonních hovorů (8 kHz). Pro voiceboty v telco je to prakticky důležité, protože kvalita ASR na 8 kHz a komprimovaných kodecích (např. G.711) často rozhoduje o tom, jestli je dialog stabilní, nebo se rozpadá na špatně rozpoznaných číslech/jménech. Z pohledu provozu to může zlevnit nutnost agresivní normalizace zvuku a snižovat počet re‑promptů (které zvyšují AHT a frustraci). Pokud dnes používáte „obecný“ model a pak ladíte slovníky/adaptace, může mít větší efekt nejdřív správně zvolit telephony model a teprve potom řešit adaptaci. Takeaway: u telephony kanálu měřte WER/slot accuracy odděleně od „wideband“ kanálů a zvažte pilot s telephony‑specializovaným modelem dřív, než budete investovat do složitých promptů a fallbacků.

Zdroj: Speech-to-Text release notes (Google Cloud)

Google Cloud Text-to-Speech: Chirp 3 HD přidává cs-CZ a další jazyky + streaming u Gemini TTS

V release notes pro Cloud TTS je vidět dvě pro telco praktické věci: rozšiřování Chirp 3 HD do dalších jazyků (včetně cs-CZ) a podpora streaming syntézy u Gemini TTS modelů. Pro voiceboty je streaming zásadní kvůli „time-to-first-audio“ – zkrácení pauzy po odpovědi často zlepší dojem víc než kosmetické zlepšení barvy hlasu. Zároveň dostupnost kvalitnějších hlasů v češtině otevírá cestu k jednotnému hlasovému brandu napříč kanály bez hacků typu pre‑recording nebo externí TTS. Provozní dopad: streaming TTS zjednodušuje barge‑in/interrupt (uživatel může skočit do řeči) a umožní jemnější turn‑taking, ale vyžaduje pečlivé řízení bufferů a detekci konce věty, jinak roste „stutter“ a přerušování. Takeaway: pokud stavíte realtime voice agent, testujte TTS nejen na MOS, ale i na metrikách latence (TTFA, end‑to‑end) a na tom, jak se chová při přerušení a opakovaném vyzvání.

Zdroj: Cloud TTS release notes (Google Cloud)

Twilio Platform: OAuth 2.0 pro Twilio API je v GA (méně „věčných“ tokenů v integracích)

Twilio v changelogu oznámilo, že OAuth 2.0 pro Twilio API je nyní v GA, což je změna, která míří přímo na bezpečnost integrací (a tedy i voicebot platforem, které volají Twilio API). V telco provozu je běžné, že se v CI/CD, serverless funkcích nebo integračních branách točí dlouho‑žijící klíče; to je pro audit a incident response nepříjemné, protože únik znamená široký blast radius. OAuth s krátkodobými tokeny a scope‑y umožní omezit, co konkrétní část voice stacku smí dělat (např. jen číst call metadata, ne kupovat čísla / měnit routování). Prakticky to také pomáhá u multi‑tenant scénářů (interní platforma pro více botů/brandů) a u přechodu na „zero trust“ architekturu. Takeaway: zvažte plán migrace z API keys/Auth Tokenů na OAuth tam, kde máte nejvyšší riziko úniku (CI, integrační middleware) a rovnou si nadefinujte minimální scopes podle konkrétních call‑flow operací.

Zdroj: Twilio Changelog (Apr 06, 2026)

Twilio Voice Insights: Trust & Engagement Insights + Reports API (GA) pro zdraví outbound kampaní

Twilio ve stejném feedu posunulo do GA „Trust & Engagement Insights“ a doprovodné Reports API pro Voice Insights, což je v praxi sada metrik kolem spam‑labelingu, blokování hovorů a efektivity outbound volání. Pro voiceboty (např. pro proaktivní retenci, debt collection, nebo notifikace) je to kritické: i perfektní agent je k ničemu, když se hovory nedovolají nebo končí jako spam. Z provozního pohledu je užitečné mít agregované metriky programově – lze je napojit do vlastních NOC dashboardů, alarmů a A/B testů (branded vs unbranded, různé dialing windows). V telco kontextu se tím dá lépe řídit reputace čísel, rotace caller IDs a compliance pravidla, a zároveň rychle detekovat, kdy se změnilo chování operátorů/filtrů na trhu. Takeaway: pokud provozujete outbound voice automatizaci, přidejte do SLO nejen „ASR/TTS kvalitu“, ale i deliverability KPI (answer rate, spam label rate, block rate) a automatizujte reakce (pauza kampaně, změna okna, rotace čísel).

Zdroj: Twilio Changelog (Mar 31, 2026)

Závěr – 3 rychlé takeaways pro telco/voice:

  • Měřte a optimalizujte zvlášť telephony audio (8 kHz/G.711) – volba správného ASR modelu často porazí „promptování“.
  • U realtime voice agentů je klíčová latence (TTFA/end‑to‑end) a chování při přerušení; streaming TTS je velká výhoda, ale chce disciplínu v bufferech.
  • Bezpečnost a deliverability jsou „produkční“ problémy: OAuth/scopes + metriky spam/block rate patří do stejné priority jako kvalita dialogu.