Nový algoritmus Co-LLM dokáže spárovat univerzální základní velký jazykový model (LLM) se specializovanějším modelem a pomoci jim spolupracovat. Velký obecný model vytváří odpověď, Co-LLM ji pak přezkoumává (analyzuje každé slovo), aby zjistil, kde může získat přesnější odpověď od odborného modelu. Až dosud se rozhodnutí, zda požádat o pomoc, nechávalo na samotném LLM, a tento přístup nebyl příliš efektivní, vyžadoval složité vzorce nebo velké databáze předem označených slov (které spouštěly žádost o pomoc). Nový systém má dávat lepší výsledky například v oblastech medicíny nebo při odpovědích na matematické a logické problémy.
„Pokud byste například požádali Co-LLM, aby vyjmenoval několik příkladů vyhynulých druhů medvědů, dva modely by odpovědi navrhly společně. Obecný LLM začne dávat dohromady odpověď, přičemž přepínač zasáhne v částech, kde může vložit lepší informace z odborného modelu, například přidá rok, kdy druhy medvědů vyhynuly,“ uvádí oznámení MITu.
„Proces automaticky najde části dat, které jsou pro základní model obtížně generovatelné, a poté dá základnímu modelu pokyn, aby se přepnul na expertní LLM, který byl předem vycvičen na datech z podobné oblasti. … Naše zjištění naznačují, že LLM se organicky učí vzorce spolupráce, což se podobá tomu, jak lidé rozpoznávají, kdy mají vyzvat experta k doplnění prázdných míst,“ uvádí hlavní autorka nové studie Shannon Shen.
Oba spolupracující modely mohou být výrazně odlišné. Při jiných přístupech se třeba vyžadovalo, aby spolupracující modely byly trénovány podobně, což omezovalo možné kombinování.
Dalším plánem výzkumu je řešit situaci, kdy odpověď zprostředkovaná malým expertním modelem není uspokojivá. Zajímavá je také otázka aktualizace expertního modelu, objeví-li se nové odborné informace.
„Cílem je vyvinout ekosystémy specializovaných modelů, které by překonaly drahé monolitické systémy umělé inteligence,“ uzavírá článek v MIT News.
Shannon Zejiang Shen et al, Learning to Decode Collaboratively with Multiple Language Models, arXiv (2024). DOI: 10.48550/arxiv.2403.03870
Zdroj: Massachusetts Institute of Technology, MIT News, Phys.org