Appleova istraživačka skupina za strojno učenje objavila je rad „The Illusion of Thinking” i potaknula žestoku raspravu u zajednici umjetne inteligencije. U 53 stranice autori tvrde da modeli za tzv. veliko rezoniranje – poput OpenAI-jeva „o” niza ili Googleova Gemini-2.5 Pro – ne „razmišljaju” nego naprosto prepoznaju obrasce te posustaju čim se zadaci zakompliciraju.
Kako je izgledalo Appleovo testiranje
• Istraživači su modele suočili s klasikom kognitivnih i AI-puzzli: Tower of Hanoi, Blocks World, River Crossing i Checkers Jumping. • Svaka je zagonetka zahtijevala višekorakno planiranje i objašnjenje logike putem chain-of-thought upita. • Što su zadaci postajali složeniji, to je točnost padala; na najtežoj razini modeli su pali na nulu. • Istodobno su se skraćivali „tragovi razmišljanja” (broj tokena), što je Apple protumačio kao odustajanje od rješavanja.
Kritike: problem je u tokenima, ne u logici
Na X-u (bivšem Twitteru) brojni su stručnjaci osporili metodologiju.
• @scaling01 ukazao je da Tower of Hanoi eksponencijalno povećava veličinu izlaza: „S više od 13 diskova svi modeli imaju 0 % jer fizički ne mogu ispisati toliko!” • Kritičari su primijetili da Apple nije usporedio rezultate s ljudskim sudionicima, pa nije jasno gube li i ljudi preciznost bez bilješki. • Neki su sugerirali da tvrtka, zaostala za OpenAI-jem i Googleom, možda nastoji spustiti ljestvicu očekivanja.
Rebuttal: „The Illusion of the Illusion of Thinking”
Neovisni istraživač Alex Lawsen i model Claude Opus 4 objavili su odgovor tvrdeći da su „kolapsi” rezultat loše postavljenog testa.
• Appleov skript označavao je rješenja netočnima čim bi modeli premašili ograničenje tokena, iako je strategija bila točna. • Kad su smjeli dati sažet, programerski odgovor – primjerice Lua funkciju koja generira korake Tower of Hanoija – modeli su uspješno riješili daleko složenije verzije problema.
Zašto je važno za poduzeća
Rasprava otkriva da je dizajn evaluacije jednako presudan kao i arhitektura modela.
- Dugi lančani zadaci mogu se „slomiti” ne zbog manjka logike, nego zbog premale radne memorije ili prevelikog zahtjeva za eksplicitnim ispisom.
- Poduzeća koja grade agente ili kopilote trebaju razmotriti vanjsko spremište memorije, podjelu zadataka u manje cjeline ili komprimirane izlaze (kod umjesto teksta).
- Sintetički benchmark ne smije biti jedino mjerilo; realni slučajevi uporabe često traže drugačiji oblik odgovora.
Zaključak
Umjesto definitivnog presuđivanja o „kraju” rezoniranja u LLM-ovima, aktualna polemika naglašava koliko su format pitanja, ograničenja tokena i kriteriji ocjenjivanja ključni za procjenu stvarnih sposobnosti modela. Prije nego što se proglasi proboj – ili fijasko – potrebno je provjeriti je li problem možda u kutiji u koju smo model smjestili, a ne u samom modelu.