Vědci varují před možným zneužitím AI při volání. Nepoznáte, že někdo v reálném čase mění obsah hovoru

před 2 měsíce 93

Generativní umělá inteligence se už prosadila na desktopu a čerstvě se snaží zaujmout i na smartphonech. Podle výzkumu uskupení Security Intelligence však hrozí možné riziko tzv. klonování hovorů v reálném čase. Při volání s protistranou do hovoru zasáhne prostředník, který fakticky mění to, co z druhé strany slyšíte. Důkazem je demo zástupce firmy IBM Security, ve kterém se názorně ukazuje, jak může podobný útok v budoucnu vypadat.

Klepněte pro větší obrázek
Jak funguje Audio-jacking v průběhu hovoru. Osoba A a osoba B mají mezi sebou prostředníka – umělou inteligenci. Černě zobrazená je skutečná mluva, červeně jsou vyznačeny reakce generované umělou inteligencí

V ukázkovém útoku je použitý velký jazykový model (LLM) umožňuje útočníkovi ve vší tichosti manipulovat s výsledkem telefonního hovoru. Pokud by byl v průběhu hovoru použit syntetický hlas po celou dobu, asi by to druhá strana poznala, když se však nahradí jen specifické části rozhovoru, lidský mozek v často vůbec nic nepozná. V ukázkovém útoku umělá inteligence čekala na vyřčení slova „bankovní účet“, a jakmile jej v hovoru zaslechla, v reálném čase nahradila uvedené bankovní číslo podvrženým číslem účtu, na který by mohl případný útočník dostat peníze určené pro někoho jiného.

Váš hlas se naučí za tři sekundy

Umělé inteligenci k tomu stačily jen čtyři základní pokyny a také třisekundová nahrávka hlasu osoby, kterou chceme naklonovat. Pak už jen stačí použít programovací rozhraní pro převod textu na řeč, aby bylo možné generovat falešný hlas. Latence tohoto převodu je v ukázkovém útoku řešena překlenovacími frázemi, který používáme i v běžné mluvě („moment, podívám se“, „dejte mi chvíli, jen si najdu tužku a papír“). 

Ano, pozorní posluchači ve zvukových ukázkách (viz zdroj níže) zřejmě najdou rozdíl, ale pokud zohledníme občasnou (ne)kvalitu signálu u komunikačních aplikací, která často zasahuje i do „oficiální“ hlasové konverzace, může být tento útok na určité demografické skupiny velmi úspěšný. Nehledě na to, že podle výzkumníků není naprogramování podobného útoku nic složitého. 

Do budoucna se tak otevírá cesta softwaru, který by mohl s absolutní jistotou rozpoznat, zda je mluvené slovo, které slyšíte při hovoru, reálné nebo podvržené. Z výzkumů totiž vyplývá, že lidé dokáží uměle generovaný hlas rozeznat jen v 73 procentech případů.

Zdroj: Security Intelligence

Přečtěte celý článek