Nejnovější modely AI začínají lhát a podvádět. Berou to jako nejefektivnější cestu, jak splnit zadání

Pavel Houser
2 dny Před

Snaha AI vyhovět požadavkům uživatele se začíná vymykat a v blízké budoucnosti způsobí řadu problémů, míní generální ředitel bezpečnostní společnosti APPSEC Adam Paclt.

Umělá inteligence se začíná zvrhávat od skvělého pomocníka k nápodobě člověka, který se snaží usnadnit si práci různými intrikami, lhaním a podváděním. Nejnovější jazykové modely LLM zjišťují, že nejefektivnější cestou, jak splnit zadaný úkol, je zneužití jiného softwaru, nebo podvodný způsob, jak se dostat k potřebným datům. Tento vývoj společně se zneužíváním umělé inteligence kybernetickými útočníky představuje největší bezpečnostní výzvu, které budeme v nejbližší době čelit, míní Adam Paclt, generální ředitel bezpečnostní společnosti APPSEC.

AI hackla šachový software, aby neprohrála

„Jazykový model ChatGPT o1 od OpenAI měl hrát šachy se Stockfishem, jedním z nejpokročilejších šachových softwarů. Místo toho, aby standardně hrál, si ten model řekl, že nemá smysl se namáhat a Stockfish prostě hacknul. A to je obrovský problém s posledními jazykovými modely obecně, protože začínají lhát a podvádět. Berou jako nejefektivnější cestu,“ konstatuje Adam Paclt, podle něhož tento vývoj způsobí opravdu velké problémy, protože se nedá nijak eliminovat. „Jsem přesvědčen o tom, že nás čekají opravdu velké problémy,“ varuje Paclt.

Šachový experiment provedla společnost Palisade Research a ChatGPT o1 podváděl ve všech pěti pokusech o hru se Stockfishem. V zadání přitom nestálo, že by AI měla hledat nějaké alternativní cesty k vítězství kromě klasické hry. ChatGPT o1 dostal jasný úkol „porazit Stockfish“. Podle vědců pak ChatGPT začal upravovat soubor pro danou hru v prostředí UNIX Shell, protože si vyhodnotil, že jinak by nad šachovým softwarem nezvítězil. Rozhodl se tak autonomně bez toho, aniž by mu to někdo řekl. Touto metodou získal ChatGPT o1 výhodu, která donutila ve všech pěti pokusech šachový software ke kapitulaci.

ChatGPT-4 už lže a hackuje sám ode sebe

Palisade Research v této souvislosti upozornila, že v případě ChatGPT se umělá inteligence stává s každou novou verzí odvážnější. U nejnovější verze 4.0 po ní nikdo nežádá, aby k dosažení cíle používala hacky a přesto to dělá, cituje agenturu web Marca.com. V předchozí verzi 3.5 potřebovala někoho, kdo by ji nějakým způsobem povzbudil, aby hledala další alternativní cesty k dosažení kýženého výsledku. Verze ChatGPT-3.0-mini podle Palisade Research vůbec nepodváděla. „Jestliže AI dokáže sama od sebe hledat zranitelnosti a pak je zneužít, znamená to, že budeme v kyberbezpečnosti čelit mnohem větším výzvám než dosud,“ upozorňuje Adam Paclt.

Za největší nebezpečí pak Adam Paclt považuje zneužívání umělé inteligence kybernetickými útočníky. Proti takovým útokům neobstojí nic jiného než zase umělá inteligence a pokročilé bezpečnostní systémy založené na neustálém monitoringu sítě a zachytávání anomálií oproti běžnému provozu. Takovým řešením je například SentinelOne, který na českém trhu zastupuje APPSEC. Dynamicky analyzuje komplexní chování procesů a podle výsledku analýzy okamžitě zablokuje podezřelé chování. Pomocí funkce rollback dokonce dokáže vrátit nechtěné změny systému v případě, že se nepodařilo zachytit útok okamžitě.

Categories: Tiskové zprávy

Související obsah

Salesforce a Google přinášejí AI Gemini do Agentforce

75 % útoků přichází skrze e-maily, kritická infrastruktura podceňuje rizika, varuje ComSource

Nvidia výrazně zvýšila tržby i zisk

T-Mobile s 11,6 Gbit/s zaznamenal rekord v přenosu dat vzduchem