Turingův test v různých podobách přes veškerá omezení a nejednoznačné konkrétní implementace zůstává stále relevantní pro posuzování schopností umělé inteligence. Cameron Jones a Benjamin Bergen z Kalifornské univerzity v San Diegu se nyní soustředili na otázku, jak si v tomto ohledu stojí nová verze ChatGPT 4. Výsledek: ještě to není zcela ono, ale už moc nechybí.
Zde je třeba říct, že dnešní chatboty nejsou vůbec designovány, aby se vydávaly za člověka, předstíraly nějaké emoce, vědomí apod. (respektive i kdyby je měly, tak to popírají). Na druhé straně ale projevují smysl pro humor, dokážou si i vymýšlet („halucinovat“). Test v podobě „imitační hry“ je proto třeba speciálně navrhnout s ohledem na současnou situaci.
Oba autoři proto vytvořili 1 400 krátkých konverzačních situací, k nimž pak proběhly krátké rozhovory mezi dobrovolníky a jiným člověkem vs. modelem GPT. Účastníci testu pak měli určit, zda šlo o člověka nebo program. Ukázalo se, že modely GPT 4 oklamaly účastníky ve 41 % případů, zatímco GPT 3.5 pouze v 5 až 14 % případů. Potvrdil se tím tedy i jindy uváděny velký pokrok ve verzi 4. A samozřejmě klíčový údaj – falešně pozitivní detekce umělé inteligence: lidé pouze v 63 % pokusů identifikovali správně člověka, v 37 % případů ho naopak pokládali za umělou inteligenci. Chybovost tedy není ani v jednom případě příliš daleko od náhodného výsledku (50 %), i když se k této hranici obě čísla blíží z opačných (a „správných“) stran.
Shrnutí z toho má být, že model GPT 4 Turingovým testem stále neprojde. Nemá k tomu ale daleko. (Co další verze? Viz také: Má, nebo nemá (současná umělá inteligence vědomí)? https://sciencemag.cz/ma-nebo-nema-soucasna-umela-inteligence-vedomi/ Zde se rovněž předpokládá, že se nacházíme těsně před zlomem.) A za další, v řadě situací už dnes chatboty komunikují dostatečně přesvědčivě…
Za pozornost stojí také to, jak vlastně lidé člověka od stroje v testu rozpoznávali. Ukázalo se, že za „nelidskou“ se považuje stejně tak špatná jako příliš dobrá gramatika, příliš formální nebo naopak neformální styl komunikace, odpovědi příliš stručné nebo příliš obsáhlé nebo příliš obecné, snažící se vyhýbat kontroverzím. Dále nebyly specifické, lidští jednotlivci mají své libůstky a výstřednosti.
Nebyl by asi problém, kdyby modely AI tyto schopnosti získaly, eventuálně naopak někdy chyby a odchylky od normy „předstíraly“. Lidé také své výstřednosti a kontroverzní názory nesdělují nutně každému na potkání, nechávají si leccos pro sebe. A pokud máme umělou inteligenci poznat podle toho, že prakticky nedělá gramatické chyby či překlepy nebo jich dělá méně než průměrný uživatel, pak je i jasné, proč bylo tolik lidí pokládáno za AI…
Výše uvedené výsledky bych proto hodnotil opačně – spíše tak, že model GPT 4 už Turingův test složil víceméně úspěšně.
Cameron Jones et al, Does GPT-4 Pass the Turing Test?, arXiv (2023). DOI: 10.48550/arxiv.2310.20216
Zdroj: arXiv/TechXplore.com a další