Sve više poduzeća želi ugraditi umjetnu inteligenciju koja autonomno planira i izvršava zadatke, no golema ponuda modela i biblioteka često izaziva paralizu pri odabiru. Novo interdisciplinarno istraživanje donosi prvi sveobuhvatni okvir koji krajnje praktično razdvaja četiri glavne strategije prilagodbe agentičkih sustava i alata – od najjeftinijih do najskupljih.
Dvije osi prilagodbe
- Prilagodba agenta (A-strategije) mijenja same parametre temeljnog jezičnog modela.
- Prilagodba alata (T-strategije) ostavlja „mozak” netaknutim, a trenira okolicu – pretraživače, memorijske module ili pod-agente.
Svaka se os podijelila na po dvije konkretne metode:
• A1 – učenje na izvršavanju alata: model prima binarnu povratnu informaciju o tome je li kod prošao kompilaciju ili je SQL upit vratio valjan rezultat.
• A2 – nagrada za konačan odgovor: agent dobiva bodove samo ako točno riješi zadatak, pa sam uči kako orkestrirati više alata.
• T1 – alati neovisni o agentu: klasični RAG sustavi gdje se unaprijed istrenirani pretraživač naknadno „utače” u veliki, smrznuti LLM.
• T2 – alati nadzirani od agenta: mali se pretraživač trenira na izlazima smrznutog LLM-a kako bi mu vraćao točno ono što treba.
Trošak, generalizacija i modularnost
• Trošak naspram fleksibilnosti: A-pristupi traže mnogo podataka i GPU sati (npr. Search-R1 je gutao 170 000 primjera), ali su jeftiniji u izvođenju. T-pristupi poput sustava s3 postižu slične rezultate s 70-put manje podataka, no pri radu moraju koordinirati s većim modelom.
• Generalizacija: monolitni agenti rizikuju „preučavanje” – Search-R1 briljirao je na općim upitima, ali je pao na medicinskim pitanjima (71,8 % točnosti). Kombinacija smrznutog LLM-a i prilagođenog alata (s3) donijela je 76,6 %.
• Modularnost: T-sustavi dopuštaju „hot-swapping” – zamjenu memorijskog ili pretraživačkog modula bez diranja jezgre. Kod A-sustava svaka nova vještina može izbrisati staru („katastrofalno zaboravljanje”).
Preporučena ljestvica za poduzeća
- Krenuti s T1: moćan, smrznuti LLM + gotov retriever = brzo prototipiranje bez treniranja.
- Prijeći na T2 kad generički alati ne daju optimum – istrenirati mali pretraživač specifičan za interne podatke.
- Upotrijebiti A1 za specijalizirane, provjerljive zadatke (SQL, Python, vlastiti API-ji).
- A2 ostaviti za kraj – skupo end-to-end treniranje isplati se samo kad je potrebno da agent sam razvija složene strategije.
Zaključak studije jasan je: umjesto utrke za jednim golemim modelom, najveći povrat donosi ekosustav malih, dobro uvježbanih alata oko pouzdane jezgre.