Googleova istraživačka skupina Paradigms of Intelligence tvrdi da je za stvaranje suradljivih višestrukih agenata dovoljno klasične modele velikih jezičnih mreža (LLM) trenirati protiv raznolikog skupa protivnika, umjesto da se za svaku situaciju grade komplicirana, tvrdokodirana pravila.
Ključ je decentralizirano učenje pojačanjem: jedan agent istodobno igra i uči u okruženju u kojem se nalaze protivnici različitih vrsta – neki se također prilagođavaju, a neki ostaju statični i vođeni pravilima. Agent svaku interakciju čita u kontekstu i u hodu prilagođava svoju strategiju, čime, ističu istraživači, nastaju „društveni“ obrasci ponašanja koje je teško postići tradicionalnim orkestracijama.
Uobičajeni problem u sustavima s više agenata jest tzv. „međusobna defekcija“, poznata iz Dilememe zatvorenika: svaki algoritam pokušava maksimizirati vlastitu metriku i na kraju svi gube. Novo rješenje pokazuje da se takva pat-pozicija može izbjeći već samim izborom šireg skupa suparnika pri treniranju, bez središnjeg nadzora nad cijelim sustavom.
„The primary limitation of hardcoded orchestration is its lack of flexibility”, rekao je koautor studije i viši istraživač Alexander Meulemans, naglasivši da tradicionalni automatizirani tokovi postupno zapinju kako raste složenost primjene.
Paradigms of Intelligence navodi da je njihov pristup skalabilniji i računalno učinkovitiji za velike poslovne implementacije, gdje pojedini agenti često raspolažu samo lokalnim podacima te moraju brzo procijeniti ponašanje ostalih sudionika u nepredvidivom okruženju. Umjesto utrke prema dnu – primjerice dvaju automatiziranih cjenika koji ruše jedan drugoga – sustavi trenirani na ovaj način spontano pronalaze strategije koje maksimiziraju zajednički dobitak.
Istraživači smatraju da bi se metoda mogla primijeniti na čitav niz poslovnih scenarija, od logistike do financijskog trgovanja, bez potrebe za skupim i teško održivim „ručnim“ koordinacijskim pravilnicima.