Nova studija istraživača sa Sveučilišta Arizona State (ASU) dovodi u pitanje popularnu praksu Chain-of-Thought (CoT) promptiranja, tvrdeći da modeli velikih jezičnih modela (LLM) zapravo ne razmišljaju, već vješto prepoznaju obrasce iz podataka na kojima su trenirani.
Istraživači su razvili okruženje DataAlchemy i testirali manje LLM-ove u tri scenarija „distribucijskog pomaka” – novu vrstu zadatka, drukčiju duljinu rezoniranja te promjenu formata prompta. U sva tri slučaja izvedba se „urušila” čim su modeli izišli iz zone poznatih primjera.
„CoT-ov uspjeh proizlazi ne iz urođene sposobnosti zaključivanja, nego iz mogućnosti uvjetnog generaliziranja na testne primjere koji strukturno nalikuju onima iz treninga”, pišu autori. Dodaju da se izvan tog raspona CoT pretvara u „sofisticiranu varijantu strukturiranog podudaranja uzoraka, fundamentalno ograničenu viđenom distribucijom podataka”.
Ključni nalazi • Na novim zadacima modeli su kopirali najbliže poznate obrasce umjesto da razviju novo logičko rješenje. • Kada je duljina lanca zaključivanja odstupila od naučene, modeli su umjetno dodavali ili skraćivali korake kako bi se vratili na poznatu strukturu. • Minimalne promjene u formatu prompta – primjerice drukčiji redoslijed uputa – drastično su snižavale točnost.
Fine-tuning brzo „krpa” rupe, ali potvrđuje tezu: model ne postaje apstraktniji, nego samo pamti novi uzorak. „Napredak znanosti mora ostati usmjeren na čovjeka – strojevi mogu pomagati, ali otkrića i dalje pokreću ljudska radoznalost i kreativnost”, poručuje koredaktor studije Chengshuai Zhao.
Savjeti za primjenu u tvrtkama
- Ne oslanjati se slijepo na CoT u područjima visokog rizika poput financija ili prava; nužan je stručni nadzor.
- Provoditi rigorozno testiranje izvan distribucije (OOD) koje sustavno ispituje zadatke, duljine i formate.
- Shvaćati fine-tuning kao privremenu zakrpu, a ne rješenje za opću sposobnost rezoniranja.
Autori zaključuju da većina poslovnih primjena ipak može profitirati od LLM-ova, ali samo ako se njihove granice precizno mapiraju i ako se dodatno treniranje koristi „kirurški” – točno ondje gdje evaluacija otkrije slabost. Tako se „fluent nonsense” pretvara u predvidljivu pomoć, a mito o umjetnoj inteligenciji koja „misli kao čovjek” vraća u realne okvire.