Ranní AI/Voice briefing – 2026-03-24

Dnešní ranní briefing vybírá tři čerstvé novinky a praktické poznatky pro stavbu a provoz AI chatbotů a voicebotů v telco provozu (contact centrum, IVR, proaktivní volání, self-care).

WAXAL: nový otevřený dataset pro ASR/TTS v 24 afrických jazycích (Google + partneři)

Google a spoluautoři představili WAXAL – otevřený vícejazyčný dataset pro řečové technologie, který pokrývá 24 afrických jazyků a je rozdělený na část pro rozpoznávání řeči (ASR) a část pro syntézu (TTS). Důležité je, že ASR část vznikala „image‑prompted“ metodou (mluvčí popisují obrázky) v přirozených prostředích, takže obsahuje realistickou variabilitu (akustika, spontánnost, slovní zásoba) – tedy přesně to, co obvykle telco provoz trápí u živých hovorů. TTS část je naopak studiová, jedním mluvčím a s foneticky vyváženými skripty, což je správný typ dat pro stabilní a konzistentní syntézu hlasu. Pro telco voiceboty je to připomínka, že „speech data“ není jedna kategorie: robustní ASR (hluk, dialekty, přerušování) a kvalitní TTS (konzistence, čistota, identita hlasu) vyžadují úplně jiné sběry a pipeline. Praktický takeaway: při evaluaci nebo vlastním sběru dat si oddělte cíle pro ASR a TTS (a měřte je zvlášť) – a pokud máte multijazyčné zákazníky, vyplatí se sledovat open datasety jako WAXAL pro rychlejší bootstrap/finetuning a pro testování „long tail“ jazyků a akcentů.

Zdroj (MarkTechPost) · Paper (arXiv) · Dataset (Hugging Face)

Perplexity: „Bring Your Own Connector“ přes MCP (Model Context Protocol) + enterprise konektory

Perplexity ve svém changelogu popisuje, že Pro/Max/Enterprise uživatelé mohou připojit vlastní externí nástroje a datové zdroje přes Model Context Protocol (MCP) zadáním URL MCP serveru a volbou autentizace (OAuth, API key, nebo open auth). Pro enterprise scénáře zároveň zmiňuje správu konektorů napříč organizací a řízení toho, zda si členové mohou přidávat vlastní – což je přesně oblast, kde telco provoz řeší governance, audit a bezpečnost při „tool‑using“ agentech. Pro stavbu chatbotů/voicebotů je klíčové, že MCP postupně standardizuje „tool layer“: místo specifických integrací na míru můžete stavět (nebo nakupovat) konektory, které se dají přepojovat mezi různými agenty/UI a snadněji versionovat. V praxi to může zkrátit time‑to‑market pro napojení na interní CRM/billing/knowledge base a současně zlepšit provozní kontrolu (centralizované povolení konektorů, jednotné autentizační modely, možnost zakázat „shadow“ integrace). Praktický takeaway: pokud dnes integrujete boty přes ad-hoc REST/webhooky, zvažte MCP jako budoucí „rozhraní pro nástroje“ – minimálně si vytvořte MCP gateway nad pár kritickými interními API a otestujte, jak dobře to sedí na vaše bezpečnostní a audit požadavky (scopes, rotace klíčů, logování volání).

Zdroj (release notes) · Originální changelog Perplexity

„Speech-to-speech“ v praxi: checklist pro latenci, streaming a barge-in (Inworld)

Inworld publikoval prakticky zaměřený průvodce „speech‑to‑speech“ API a hlavně provozní checklist toho, co odlišuje voice agenta od klasického IVR: streaming vstupu (audio kontinuálně), rychlé endpointing/VAD, streaming výstupu (TTFA – time‑to‑first‑audio), korektní rušení (cancel) při přerušení uživatelem a observabilita s rozpadnutými latencemi pro STT/LLM/TTS. Pro telco voiceboty je nejdůležitější část o barge‑in: nestačí zastavit přehrávání – musíte umět zároveň zrušit běžící generování TTS i LLM a vyresetovat stav streamu, jinak bot „doříká“ starou myšlenku a bude mluvit přes zákazníka. Text také dobře popisuje typické zdroje P90 latency spike: pokud roste end‑of‑turn, často je problém ve VAD/endpointingu; pokud skáče TTFA, bývá to LLM pod zátěží nebo špatné chunkování výstupu do TTS. Praktický takeaway: zaveďte per‑turn tracing (STT time, LLM time‑to‑first‑token, TTS time‑to‑first‑chunk, end‑of‑turn) a nastavte SLO cíle na P90/P95, protože „průměrná latence“ v telco provozu klame – uživatel si pamatuje zaseknutí a překřikování, ne průměr. I když je článek vendor‑biased, checklist je použitelný jako neutralní kontrolní seznam při výběru stacku (composed pipeline vs. unified realtime API) i při incident review.

Zdroj (Inworld)

Z toho pro telco/voice dnes plyne (rychlé shrnutí)

  • ASR vs. TTS data/pipeline oddělujte: robustní rozpoznávání pro reálné hovory potřebuje „špinavá“ data, kvalitní syntéza naopak stabilní studiové záznamy.
  • Standardizujte integrace přes „tool layer“: MCP a podobné přístupy snižují náklady na napojování botů a zlepšují governance/audit.
  • Latence je produktová vlastnost: měřte P90/P95, umějte barge‑in end‑to‑end a mějte observabilitu rozpadlou na STT/LLM/TTS.