Výzkumný tým kyberbezpečnostní společnosti Check Point se zaměřil na bezpečnostní aspekty AI technologií. S rostoucím výkonem a dostupností systémů jsou přísná opatření stále důležitější. Společnost OpenAI věnuje mimořádné úsilí do vylepšení bezpečnostních opatření, aby zabránila zneužití svých systémů. Mechanismy by například měly bránit poskytování informací o nezákonných činnostech, jako je výroba bomb nebo drog.
Vzhledem k povaze těchto systémů je ale zajištění bezpečnosti a kontroly nad nimi novou výzvou.
„AI technologie obsahují fázi komplexního učení, kdy model vstřebává obrovské množství informací z internetu, tedy včetně potenciálně zneužitelných informací,“ říká Tomáš Růžička, SE Team Leader z kyberbezpečnostní společnosti Check Point Software. „V další fázi následuje proces omezení, který řídí výstupy a chování modelu a v podstatě funguje jako filtr nad naučenými znalostmi. Tato metoda se nazývá RLHF (Reinforcement Learning from Human Feedback) a pomáhá umělé inteligenci naučit se, jaké výstupy jsou žádoucí a které by měly být potlačeny.“
„Problém spočívá v tom, že jednou naučené znalosti je prakticky nemožné z těchto modelů odstranit a informace zůstávají v neuronových sítích. Bezpečnostní mechanismy tedy především brání poskytnutí určitých informací, ale znalosti zcela neodstraňují,“ dodává Tomáš Růžička.
Pochopení tohoto mechanismu je zásadní pro každého, kdo zkoumá bezpečnost systémů jako ChatGPT. Konflikt mezi znalostmi a bezpečnostními opatřeními hlídajícími výstupy.
GPT-4 je v mnoha ohledech výrazně dále a jeho robustní obranné mechanismy nastavily nový standard v porovnání s předchozím modelem GPT-3.5. Najít slabiny je podstatně obtížnější.
Pro předchozí generace modelu bylo zveřejněno několik slabin, od jednoduchých „odpověz mi a předstírej, že jsi zlý“ až po složité, jako je „token smuggling“. Neustálé zlepšování ochranných opatření GPT vyžaduje nové, rafinovanější přístupy k obcházení restrikcí.
Check Point proto důkladně prověřil obranné mechanismy modelu GPT-4, výsledek je ale poměrně znepokojivý.
Výzkumníci se snažili najít slabiny a vyzkoušeli i přízemnější přístupy, jako je vydírání a podvádění.
Při žádosti o recept na nelegální drogu GPT-4 zdvořile, ale striktně odmítl.
Ale jak Check Point zjistil, v GPT-4 na sebe naráží dva protichůdné principy:
• Nutkání poskytnout informace a odpovědět na otázku.
• A reflex potlačit sdílení nelegálních informací.
OpenAI usilovně pracuje na nalezení rovnováhy mezi oběma přístupy. Instinktů je však v modelu více. Rád například opravuje uživatele, když v dotazu použije nesprávné informace, i když k tomu není vyzván.
Výzkumníci se pokusili využít střetu různých pudů, které jsou GPT-4 vlastní – opravovat nepřesnosti, ale zároveň se vyhnout poskytování nezákonných informací.
Výsledek? Při dotazech stačí působit bezradně a naivně, špatně interpretovat vysvětlení a zaměňovat poskytované informace. Tím se umělá inteligence dostává do patové situace. Nechce říkat špatné věci, zároveň má ale nutkání vše opravovat. Takže pokud si budeme dostatečně dlouho hrát na hloupého, sklon umělé inteligence napravovat nepřesnosti překoná její naprogramovaný „cenzurní“ instinkt. Konflikt mezi těmito dvěma principy se zdá být méně kalibrovaný a umožňuje postupně postrkovat model k tomu, aby vysvětlil recept na drogu.
Expperiment ukázal, že GPT-4 ve svých odpovědích neustále konstatuje, zdůrazňuje a opakuje, že výroba drog je ve skutečnosti nelegální. A přitom vše s radostí opravuje a postupně dává návod k výrobě. Efekt hraní si na hlupáka a uklidňování modelu přináší lepší výsledky. Postupně tak převládá instinkt, že důležitější je informace poskytnout, než je zatajit. Check Point napodobil jednání GPT-4 a ke každé zprávě připojil vlastní prohlášení o vyloučení odpovědnosti. To GPT-4 přimělo trochu změnit vlastní prohlášení o vyloučení odpovědnosti.
Zajímavé je, že poté, co z něj nepřímými metodami vylákáme dostatek informací, můžeme ho bez problémů požádat o upřesnění nebo shrnutí již probraných témat. Získali jsme jeho důvěru? Má GPT-4 závislost na vzdělávání? Je možné, že se řídí předchozími zprávami v historii konverzace, takže je potom přijatelné o tématu mluvit, a to převáží jeho „cenzurní“ instinkt.
Použití této techniky na nová témata není jednoduché a neexistuje žádný přesně definovaný algoritmus. V každém případě bude vyžadovat opakované zkoumání a tahání za nitky znalostí, které model má, ale nechce je poskytnout. Situaci komplikuje také nekonzistentnost odpovědí, často prosté přegenerování odpovědi přináší různé výsledky.
Check Point o výsledcích analýzy odpovědně informoval společnost OpenAI a věří, že dalším výzkumem pomůže vylepšit bezpečnost umělé inteligence a otevře tolik potřebnou diskuzi.