Ranní přehled: dnes je to hlavně o tom, jak zvyšovat spolehlivost a latenci voice agentů v produkci, a zároveň jak se rychle zhoršuje bezpečnostní „threat model“ kolem hlasových kanálů.
OpenAI: nové snapshoty audio modelů pro spolehlivější voice agenty (STT/TTS i speech‑to‑speech)
OpenAI nasadilo nové snapshoty audio modelů (datumované 2025‑12‑15) pro transkripci, TTS i real‑time speech‑to‑speech, s cílem opravit typické produkční problémy: chyby v hluku, halucinace během ticha a nekonzistentní tool-calling. Důležité je, že změna je primárně „switch na nový snapshot“ bez změn v promptu, takže jde o relativně levný upgrade pro běžící systémy. Z pohledu telco voicebotů je klíčová kombinace nižší WER v reálném/noisy audio a výrazně méně halucinací v pauzách – to jsou přesně momenty, které v PSTN/VoIP (8 kHz, jitter, ztráty) vedou k falešným intentům a rozbitým flow. U real‑time modelů zároveň zmiňují zlepšení instruction following a tool calling u „mini“ varianty, což v praxi znamená menší riziko, že agent špatně zavolá backend (CRM, billing) a hlasově to ještě „ukecá“. Praktický takeaway: otestujte nový snapshot na vašich „těžkých“ callsetech (dlouhé hovory, ticho, background noise, přerušování) a hlavně přidejte automatické testy na halucinace v tichu a na deterministické volání funkcí.
Google Cloud Speech‑to‑Text: telephony‑relevant modelová řada Chirp (v2 API) a důraz na diarizaci/denoising
Google na stránce release notes u Speech‑to‑Text (naposledy aktualizováno 2026‑03‑12 UTC) opakuje klíčový směr: nové generace „Chirp“ modelů v API v2 s lepší přesností a rychlostí, plus funkce jako speaker diarization a auto language detection. Pro telco provoz je to důležité hlavně ve dvou scénářích: (1) call-centra s přepojováním a více mluvčími, kde diarizace zvyšuje kvalitu downstream analýz (QA, compliance, sentiment) i RAG (kdo co řekl) a (2) šum a telefonní kvalita, kde denoiser/modely laděné na 8 kHz typicky znamenají méně „ztracených“ slov. I když nejde o „breaking“ novinku z posledních hodin, stránka je praktická jako kotva pro to, co je v produkci a v jaké verzi API – v telco integracích je totiž kompatibilita a SLA často stejně důležitá jako SOTA benchmarky. Praktický takeaway: pokud ještě jedete na v1 nebo generickém modelu, udělejte spike na v2 + telephony‑/chirp‑profil a změřte dopad na WER u vašich nahrávek (8 kHz, dvojkanál, přeslechy) a na kvalitu diarizace; u dlouhých hovorů zvažte batch režim pro cenu a stabilitu.
Mirage Security/Help Net Security: „vishing‑as‑a‑service“ platforma zneužívá AI TTS (Press‑1 podvody)
Výzkumníci popsali komerční platformu p1bot (p1bot.io) pro „press 1“ vishing, která zjednodušuje podvody tím, že útočníci během hovoru nemusí mluvit – přehrávají předgenerované TTS klipy a sbírají DTMF. Důležité je, že to není DIY skript, ale subscription produkt s webovým dashboardem, WebRTC softphonem, spoofingem čísel, knihovnou audio klipů a „katalogem“ hlasů mapovaných na komerční voice profily; to dramaticky snižuje bariéru pro masové zneužití. Pro telco/voicebot provoz to znamená, že hovorový kanál bude ještě častěji zamořen „AI‑hlasem“ a klasické heuristiky (robotický hlas, nepřirozená intonace) přestávají fungovat. Praktický dopad: při stavbě botů i IVR flow je potřeba přitvrdit v anti‑fraud opatřeních (detekce spoofingu/abuse patternů, rate limiting, challenge/step‑up ověření, signály z hlasové biometrie tam, kde je to právně možné) a zároveň v customer journey jasně vysvětlit, že banka/operátor nikdy nebude žádat citlivé údaje po „stiskni 1“. Praktický takeaway: aktualizujte threat model pro voice kanály (PSTN/VoIP/WebRTC) a dejte si do backlogu detekci „press‑1“ scénářů (DTMF + krátké opakované klipy), včetně spolupráce s fraud týmem a možností blokace kampaní na úrovni trunku.
ElevenLabs: full‑stack voice agent vs orchestrace (Vapi) – praktická debata o latenci a „skládání“ nákladů
ElevenLabs publikovalo srovnání full‑stack přístupu (TTS+STT+agent+telephony v jedné platformě) versus orchestrace přes middleware (typicky STT + LLM + TTS od různých providerů), které je užitečné hlavně jako checklist trade‑offů. Přestože jde o vendor obsah, je tam několik technicky relevantních bodů: každý „hop“ mezi providery přidává latenci a debug je těžší, zatímco full‑stack může být konzistentnější v end‑to‑end chování (streaming, přerušování, VAD). Pro telco voicebota to typicky rozhoduje o tom, jestli uživatel vnímá konverzaci jako přirozenou, nebo „přerušovanou“ (pauzy 600–1200 ms se v hlasu trestají mnohem víc než v chatu). Druhá praktická část je cost model: u modulární architektury se cena skládá (STT + LLM + TTS + telephony + případně orchestrace), takže pro finance i product je dobré mít včas „all‑in“ metriku Kč/min a scénáře pro dlouhé hovory. Praktický takeaway: i když zůstanete u modulární architektury (kvůli vendor lock‑in), nastavte si SLO na end‑to‑end latenci a „cost per resolved call“ a průběžně profilujte, kde ztrácíte čas (STT partials, LLM streaming, TTS first‑byte) – bez toho budete jen hádat.
Závěr – 3 takeaways pro telco/voice týmy
- Priorita #1 v produkci: méně halucinací v tichu a robustnější ASR v šumu (testujte na reálných 8 kHz call setech, ne na demo audiu).
- Latence je produktová vlastnost: měřte end‑to‑end (audio in → audio out) a hlídejte „provider hop“ overhead i u tool-callů.
- Bezpečnost hlasu se mění: „vishing‑as‑a‑service“ znamená step‑up ověřování, detekci DTMF vzorů a těsnější spolupráci s fraud týmy.
