Tehnologija

14. lipnja 2025, 08:26

Apple izazvao buru: jesu li LLM-ovi doista sposobni zaključivati?

Appleov istraživački rad o (ne)sposobnosti LLM-ova za zaključivanje izazvao je val kritika i suprotni studij koji tvrdi da su padovi performansi zapravo rezultat loše postavljenih testova, a ne manjka „inteligencije” modela.

min. čitanja

Appleova istraživačka skupina za strojno učenje objavila je rad „The Illusion of Thinking” i potaknula žestoku raspravu u zajednici umjetne inteligencije. U 53 stranice autori tvrde da modeli za tzv. veliko rezoniranje – poput OpenAI-jeva „o” niza ili Googleova Gemini-2.5 Pro – ne „razmišljaju” nego naprosto prepoznaju obrasce te posustaju čim se zadaci zakompliciraju.

Kako je izgledalo Appleovo testiranje

• Istraživači su modele suočili s klasikom kognitivnih i AI-puzzli: Tower of Hanoi, Blocks World, River Crossing i Checkers Jumping. • Svaka je zagonetka zahtijevala višekorakno planiranje i objašnjenje logike putem chain-of-thought upita. • Što su zadaci postajali složeniji, to je točnost padala; na najtežoj razini modeli su pali na nulu. • Istodobno su se skraćivali „tragovi razmišljanja” (broj tokena), što je Apple protumačio kao odustajanje od rješavanja.

Kritike: problem je u tokenima, ne u logici

Na X-u (bivšem Twitteru) brojni su stručnjaci osporili metodologiju.

• @scaling01 ukazao je da Tower of Hanoi eksponencijalno povećava veličinu izlaza: „S više od 13 diskova svi modeli imaju 0 % jer fizički ne mogu ispisati toliko!” • Kritičari su primijetili da Apple nije usporedio rezultate s ljudskim sudionicima, pa nije jasno gube li i ljudi preciznost bez bilješki. • Neki su sugerirali da tvrtka, zaostala za OpenAI-jem i Googleom, možda nastoji spustiti ljestvicu očekivanja.

Rebuttal: „The Illusion of the Illusion of Thinking”

Neovisni istraživač Alex Lawsen i model Claude Opus 4 objavili su odgovor tvrdeći da su „kolapsi” rezultat loše postavljenog testa.

• Appleov skript označavao je rješenja netočnima čim bi modeli premašili ograničenje tokena, iako je strategija bila točna. • Kad su smjeli dati sažet, programerski odgovor – primjerice Lua funkciju koja generira korake Tower of Hanoija – modeli su uspješno riješili daleko složenije verzije problema.

Zašto je važno za poduzeća

Rasprava otkriva da je dizajn evaluacije jednako presudan kao i arhitektura modela.

Dugi lančani zadaci mogu se „slomiti” ne zbog manjka logike, nego zbog premale radne memorije ili prevelikog zahtjeva za eksplicitnim ispisom.
Poduzeća koja grade agente ili kopilote trebaju razmotriti vanjsko spremište memorije, podjelu zadataka u manje cjeline ili komprimirane izlaze (kod umjesto teksta).
Sintetički benchmark ne smije biti jedino mjerilo; realni slučajevi uporabe često traže drugačiji oblik odgovora.

Zaključak

Umjesto definitivnog presuđivanja o „kraju” rezoniranja u LLM-ovima, aktualna polemika naglašava koliko su format pitanja, ograničenja tokena i kriteriji ocjenjivanja ključni za procjenu stvarnih sposobnosti modela. Prije nego što se proglasi proboj – ili fijasko – potrebno je provjeriti je li problem možda u kutiji u koju smo model smjestili, a ne u samom modelu.

#google #apple #openai #claude-opus-4 #alex-lawsen

View post on X

Slično

Tehnologija

Tajni „wink” dogovor: Izrael od Googlea i Amazona tražio šifrirane dojave o predaji podataka

Izraelsko-američki ugovor o oblaku otkriva šifrirani sustav dojava izraelskim vlastima i zabranu Googleu i Amazonu da ikada prekinu usluge državi, čak i uz sumnje na kršenja ljudskih prava.

min čitanja

Više

Tehnologija

Razvod otkrio mračnu stranu Appleova Family Sharinga

Sustav roditeljske kontrole osmišljen da olakša zajednički život može, nakon razvoda, postati alat nadzora i prisile – a pravila platforme nerijetko jača su od sudskih odluka.

min čitanja

Više

Tehnologija

GitHub predstavlja Agent HQ: jedinstveni kontrolni toranj za više AI agenata

Nova platforma centralizira upravljanje više konkurentskih AI pomoćnika za pisanje koda, uvodi granularnu sigurnost i mogućnost definiranja vlastitih „custom” agenata.

min čitanja

Više

Tehnologija

Googleovi Nest uređaji pojednostavljuju kućnu sigurnost

Google Home i Nest kamere omogućuju brzo i pristupačno postavljanje kućnog nadzora, od unutarnjih i vanjskih kamera do pametnog video zvonca.

min čitanja

Više

Tehnologija

Adobe na MAX konferenciji predstavio val novih AI alata

Na MAX konferenciji u Los Angelesu Adobe je predstavio nove AI funkcije u Fireflyju, Photoshopu i Expressu te najavio Project Moonlight i integraciju s ChatGPT-om.

min čitanja

Više

Tehnologija

Utrka za podatke u stvarnom vremenu: Confluent predstavlja engine za kontekst u pokretu

Confluent lansira alat koji AI agentima donosi neprekidan, svjež kontekst, dok konkurenti poput Redpande nude svoja rješenja u sve žešćoj utrci za podatke u stvarnom vremenu.

min čitanja

Više

Tehnologija

Geostar želi zavladati novom erom pretrage vođenom umjetnom inteligencijom

Startup iz Silicijske doline razvija autonomne agente koji optimiziraju mrežne stranice za ChatGPT, Gemini i druge AI sustave, dok analitičari predviđaju pad klasične pretrage na internetu.

min čitanja

Više

Tehnologija

Volkswagen predstavio novi T-Roc: veći, pametniji i štedljiviji kompaktni SUV

Druga generacija najprodavanijeg Volkswagenova SUV-a stigla je u hrvatsku pretprodaju s modernijim dizajnom, blagim hibridnim motorima i početnom cijenom ispod 29 tisuća eura.

min čitanja

Više

Tehnologija

IBM predstavio Granite 4.0 Nano: moćni jezični modeli stanu na prijenosno računalo

IBM lansira Granite 4.0 Nano, četvero malih jezičnih modela koji nude vrhunske rezultate i otvorenu licencu, a rade čak i na običnom prijenosniku.

min čitanja

Više

Tehnologija

Microsoft širi Copilot: razgovorom do aplikacija i automatizacije bez linije koda

Copilot dobiva App Builder, Workflows i novu verziju Copilot Studija, čime Microsoft želi omogućiti milijunima uredskih radnika da bez pisanja koda stvaraju aplikacije i automatiziraju poslove.

min čitanja

Više

Tehnologija

14. lipnja 2025, 08:26

Apple izazvao buru: jesu li LLM-ovi doista sposobni zaključivati?

min. čitanja

Kako je izgledalo Appleovo testiranje

Kritike: problem je u tokenima, ne u logici

Na X-u (bivšem Twitteru) brojni su stručnjaci osporili metodologiju.

Rebuttal: „The Illusion of the Illusion of Thinking”

Neovisni istraživač Alex Lawsen i model Claude Opus 4 objavili su odgovor tvrdeći da su „kolapsi” rezultat loše postavljenog testa.

Zašto je važno za poduzeća

Rasprava otkriva da je dizajn evaluacije jednako presudan kao i arhitektura modela.

Dugi lančani zadaci mogu se „slomiti” ne zbog manjka logike, nego zbog premale radne memorije ili prevelikog zahtjeva za eksplicitnim ispisom.
Poduzeća koja grade agente ili kopilote trebaju razmotriti vanjsko spremište memorije, podjelu zadataka u manje cjeline ili komprimirane izlaze (kod umjesto teksta).
Sintetički benchmark ne smije biti jedino mjerilo; realni slučajevi uporabe često traže drugačiji oblik odgovora.

Zaključak

#google #apple #openai #claude-opus-4 #alex-lawsen

View post on X

Slično

Tehnologija

Tajni „wink” dogovor: Izrael od Googlea i Amazona tražio šifrirane dojave o predaji podataka

Izraelsko-američki ugovor o oblaku otkriva šifrirani sustav dojava izraelskim vlastima i zabranu Googleu i Amazonu da ikada prekinu usluge državi, čak i uz sumnje na kršenja ljudskih prava.

min čitanja

Više

Tehnologija

Razvod otkrio mračnu stranu Appleova Family Sharinga

Sustav roditeljske kontrole osmišljen da olakša zajednički život može, nakon razvoda, postati alat nadzora i prisile – a pravila platforme nerijetko jača su od sudskih odluka.

min čitanja

Više

Tehnologija

GitHub predstavlja Agent HQ: jedinstveni kontrolni toranj za više AI agenata

Nova platforma centralizira upravljanje više konkurentskih AI pomoćnika za pisanje koda, uvodi granularnu sigurnost i mogućnost definiranja vlastitih „custom” agenata.

min čitanja

Više

Tehnologija

Googleovi Nest uređaji pojednostavljuju kućnu sigurnost

Google Home i Nest kamere omogućuju brzo i pristupačno postavljanje kućnog nadzora, od unutarnjih i vanjskih kamera do pametnog video zvonca.

min čitanja

Više

Tehnologija

Adobe na MAX konferenciji predstavio val novih AI alata

Na MAX konferenciji u Los Angelesu Adobe je predstavio nove AI funkcije u Fireflyju, Photoshopu i Expressu te najavio Project Moonlight i integraciju s ChatGPT-om.

min čitanja

Više

Tehnologija

Utrka za podatke u stvarnom vremenu: Confluent predstavlja engine za kontekst u pokretu

Confluent lansira alat koji AI agentima donosi neprekidan, svjež kontekst, dok konkurenti poput Redpande nude svoja rješenja u sve žešćoj utrci za podatke u stvarnom vremenu.

min čitanja

Više

Tehnologija

Geostar želi zavladati novom erom pretrage vođenom umjetnom inteligencijom

Startup iz Silicijske doline razvija autonomne agente koji optimiziraju mrežne stranice za ChatGPT, Gemini i druge AI sustave, dok analitičari predviđaju pad klasične pretrage na internetu.

min čitanja

Više

Tehnologija

Volkswagen predstavio novi T-Roc: veći, pametniji i štedljiviji kompaktni SUV

Druga generacija najprodavanijeg Volkswagenova SUV-a stigla je u hrvatsku pretprodaju s modernijim dizajnom, blagim hibridnim motorima i početnom cijenom ispod 29 tisuća eura.

min čitanja

Više

Tehnologija

IBM predstavio Granite 4.0 Nano: moćni jezični modeli stanu na prijenosno računalo

IBM lansira Granite 4.0 Nano, četvero malih jezičnih modela koji nude vrhunske rezultate i otvorenu licencu, a rade čak i na običnom prijenosniku.

min čitanja

Više

Tehnologija

Microsoft širi Copilot: razgovorom do aplikacija i automatizacije bez linije koda

Copilot dobiva App Builder, Workflows i novu verziju Copilot Studija, čime Microsoft želi omogućiti milijunima uredskih radnika da bez pisanja koda stvaraju aplikacije i automatiziraju poslove.

min čitanja

Više