CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

14. lipnja 2025, 08:26

Apple izazvao buru: jesu li LLM-ovi doista sposobni zaključivati?

Appleov istraživački rad o (ne)sposobnosti LLM-ova za zaključivanje izazvao je val kritika i suprotni studij koji tvrdi da su padovi performansi zapravo rezultat loše postavljenih testova, a ne manjka „inteligencije” modela.

min. čitanja

Appleova istraživačka skupina za strojno učenje objavila je rad „The Illusion of Thinking” i potaknula žestoku raspravu u zajednici umjetne inteligencije. U 53 stranice autori tvrde da modeli za tzv. veliko rezoniranje – poput OpenAI-jeva „o” niza ili Googleova Gemini-2.5 Pro – ne „razmišljaju” nego naprosto prepoznaju obrasce te posustaju čim se zadaci zakompliciraju.

Kako je izgledalo Appleovo testiranje

• Istraživači su modele suočili s klasikom kognitivnih i AI-puzzli: Tower of Hanoi, Blocks World, River Crossing i Checkers Jumping. • Svaka je zagonetka zahtijevala višekorakno planiranje i objašnjenje logike putem chain-of-thought upita. • Što su zadaci postajali složeniji, to je točnost padala; na najtežoj razini modeli su pali na nulu. • Istodobno su se skraćivali „tragovi razmišljanja” (broj tokena), što je Apple protumačio kao odustajanje od rješavanja.

Kritike: problem je u tokenima, ne u logici

Na X-u (bivšem Twitteru) brojni su stručnjaci osporili metodologiju.

• @scaling01 ukazao je da Tower of Hanoi eksponencijalno povećava veličinu izlaza: „S više od 13 diskova svi modeli imaju 0 % jer fizički ne mogu ispisati toliko!” • Kritičari su primijetili da Apple nije usporedio rezultate s ljudskim sudionicima, pa nije jasno gube li i ljudi preciznost bez bilješki. • Neki su sugerirali da tvrtka, zaostala za OpenAI-jem i Googleom, možda nastoji spustiti ljestvicu očekivanja.

Rebuttal: „The Illusion of the Illusion of Thinking”

Neovisni istraživač Alex Lawsen i model Claude Opus 4 objavili su odgovor tvrdeći da su „kolapsi” rezultat loše postavljenog testa.

• Appleov skript označavao je rješenja netočnima čim bi modeli premašili ograničenje tokena, iako je strategija bila točna. • Kad su smjeli dati sažet, programerski odgovor – primjerice Lua funkciju koja generira korake Tower of Hanoija – modeli su uspješno riješili daleko složenije verzije problema.

Zašto je važno za poduzeća

Rasprava otkriva da je dizajn evaluacije jednako presudan kao i arhitektura modela.

  1. Dugi lančani zadaci mogu se „slomiti” ne zbog manjka logike, nego zbog premale radne memorije ili prevelikog zahtjeva za eksplicitnim ispisom.
  2. Poduzeća koja grade agente ili kopilote trebaju razmotriti vanjsko spremište memorije, podjelu zadataka u manje cjeline ili komprimirane izlaze (kod umjesto teksta).
  3. Sintetički benchmark ne smije biti jedino mjerilo; realni slučajevi uporabe često traže drugačiji oblik odgovora.

Zaključak

Umjesto definitivnog presuđivanja o „kraju” rezoniranja u LLM-ovima, aktualna polemika naglašava koliko su format pitanja, ograničenja tokena i kriteriji ocjenjivanja ključni za procjenu stvarnih sposobnosti modela. Prije nego što se proglasi proboj – ili fijasko – potrebno je provjeriti je li problem možda u kutiji u koju smo model smjestili, a ne u samom modelu.

#google#apple#openai#claude-opus-4#alex-lawsen
View post on X
View post on X
View post on X
View post on X
View post on X
View post on X

Slično

Tehnologija

Tajni „wink” dogovor: Izrael od Googlea i Amazona tražio šifrirane dojave o predaji podataka
Izraelsko-američki ugovor o oblaku otkriva šifrirani sustav dojava izraelskim vlastima i zabranu Googleu i Amazonu da ikada prekinu usluge državi, čak i uz sumnje na kršenja ljudskih prava.

min čitanja

Više

Tehnologija

Razvod otkrio mračnu stranu Appleova Family Sharinga
Sustav roditeljske kontrole osmišljen da olakša zajednički život može, nakon razvoda, postati alat nadzora i prisile – a pravila platforme nerijetko jača su od sudskih odluka.

min čitanja

Više

Tehnologija

GitHub predstavlja Agent HQ: jedinstveni kontrolni toranj za više AI agenata
Nova platforma centralizira upravljanje više konkurentskih AI pomoćnika za pisanje koda, uvodi granularnu sigurnost i mogućnost definiranja vlastitih „custom” agenata.

min čitanja

Više

Tehnologija

Googleovi Nest uređaji pojednostavljuju kućnu sigurnost
Google Home i Nest kamere omogućuju brzo i pristupačno postavljanje kućnog nadzora, od unutarnjih i vanjskih kamera do pametnog video zvonca.

min čitanja

Više

Tehnologija

Adobe na MAX konferenciji predstavio val novih AI alata
Na MAX konferenciji u Los Angelesu Adobe je predstavio nove AI funkcije u Fireflyju, Photoshopu i Expressu te najavio Project Moonlight i integraciju s ChatGPT-om.

min čitanja

Više

Tehnologija

Utrka za podatke u stvarnom vremenu: Confluent predstavlja engine za kontekst u pokretu
Confluent lansira alat koji AI agentima donosi neprekidan, svjež kontekst, dok konkurenti poput Redpande nude svoja rješenja u sve žešćoj utrci za podatke u stvarnom vremenu.

min čitanja

Više

Tehnologija

Geostar želi zavladati novom erom pretrage vođenom umjetnom inteligencijom
Startup iz Silicijske doline razvija autonomne agente koji optimiziraju mrežne stranice za ChatGPT, Gemini i druge AI sustave, dok analitičari predviđaju pad klasične pretrage na internetu.

min čitanja

Više

Tehnologija

Volkswagen predstavio novi T-Roc: veći, pametniji i štedljiviji kompaktni SUV
Druga generacija najprodavanijeg Volkswagenova SUV-a stigla je u hrvatsku pretprodaju s modernijim dizajnom, blagim hibridnim motorima i početnom cijenom ispod 29 tisuća eura.

min čitanja

Više

Tehnologija

IBM predstavio Granite 4.0 Nano: moćni jezični modeli stanu na prijenosno računalo
IBM lansira Granite 4.0 Nano, četvero malih jezičnih modela koji nude vrhunske rezultate i otvorenu licencu, a rade čak i na običnom prijenosniku.

min čitanja

Više

Tehnologija

Microsoft širi Copilot: razgovorom do aplikacija i automatizacije bez linije koda
Copilot dobiva App Builder, Workflows i novu verziju Copilot Studija, čime Microsoft želi omogućiti milijunima uredskih radnika da bez pisanja koda stvaraju aplikacije i automatiziraju poslove.

min čitanja

Više

Najčitanije

Nogomet

Gorica s pola tuceta golova projurila u četvrtfinale Hrvatskog kupa
Velikogoričani s visokih 6-0 svladali lidera Prve NL i prvi izborili četvrtfinale Hrvatskog kupa.

min čitanja

Više

Nogomet

Disciplinska komisija BiH kaznila Igora Štimca s 5000 KM i uvjetnom suspenzijom
Trener Zrinjskog kažnjen je zbog objave s pozdravom „ZDS” i javne kritike suđenja u korist banjalučkog Borca.
By Tasnim News Agency, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=48331751

min čitanja

Više

Najnovije

Sport

Ultrasi odali počast Nicolieru i vukovarskim herojima na rasprodanom stadionu

Vijesti

Stručnjaci upozoravaju na slab odaziv cijepljenju: kronični bolesnici i stariji najizloženiji

Politika

Washington briše Dodika s crne liste; ukinute mjere za više od 20 suradnika i desetke tvrtki

Biznis

Plenković odbacio MOL-ove prozivke: Janaf bez problema može opskrbiti rafinerije u Mađarskoj i Slovačkoj

Politika

Bruxelles upozorava London: novi planerski zakon može ugroziti trgovinski sporazum s EU-om

Biznis

Lažne kripto-obećanja Riječane i Lošinjane koštala više od 200 000 eura

Tehnologija

Tajni „wink” dogovor: Izrael od Googlea i Amazona tražio šifrirane dojave o predaji podataka

Sport

Gorica s pola tuceta golova projurila u četvrtfinale Hrvatskog kupa

Biznis

Podravka povećala preradu rajčice za 50 % i postala samodostatna

Sport

Trećeligaš Kruševo izbacio favorizirani Borac: potpuni potop Banjalučana u Mostaru

Sport

Iskre u Vinkovcima: Kalik i Rubić u klinču, žuti kartoni smirili tenzije