Tehnologija

Apple izazvao buru: jesu li LLM-ovi doista sposobni zaključivati?

Appleov istraživački rad o (ne)sposobnosti LLM-ova za zaključivanje izazvao je val kritika i suprotni studij koji tvrdi da su padovi performansi zapravo rezultat loše postavljenih testova, a ne manjka „inteligencije” modela.

min čitanja

Appleova istraživačka skupina za strojno učenje objavila je rad „The Illusion of Thinking” i potaknula žestoku raspravu u zajednici umjetne inteligencije. U 53 stranice autori tvrde da modeli za tzv. veliko rezoniranje – poput OpenAI-jeva „o” niza ili Googleova Gemini-2.5 Pro – ne „razmišljaju” nego naprosto prepoznaju obrasce te posustaju čim se zadaci zakompliciraju.

Kako je izgledalo Appleovo testiranje

• Istraživači su modele suočili s klasikom kognitivnih i AI-puzzli: Tower of Hanoi, Blocks World, River Crossing i Checkers Jumping. • Svaka je zagonetka zahtijevala višekorakno planiranje i objašnjenje logike putem chain-of-thought upita. • Što su zadaci postajali složeniji, to je točnost padala; na najtežoj razini modeli su pali na nulu. • Istodobno su se skraćivali „tragovi razmišljanja” (broj tokena), što je Apple protumačio kao odustajanje od rješavanja.

Kritike: problem je u tokenima, ne u logici

Na X-u (bivšem Twitteru) brojni su stručnjaci osporili metodologiju.

• @scaling01 ukazao je da Tower of Hanoi eksponencijalno povećava veličinu izlaza: „S više od 13 diskova svi modeli imaju 0 % jer fizički ne mogu ispisati toliko!” • Kritičari su primijetili da Apple nije usporedio rezultate s ljudskim sudionicima, pa nije jasno gube li i ljudi preciznost bez bilješki. • Neki su sugerirali da tvrtka, zaostala za OpenAI-jem i Googleom, možda nastoji spustiti ljestvicu očekivanja.

Rebuttal: „The Illusion of the Illusion of Thinking”

Neovisni istraživač Alex Lawsen i model Claude Opus 4 objavili su odgovor tvrdeći da su „kolapsi” rezultat loše postavljenog testa.

• Appleov skript označavao je rješenja netočnima čim bi modeli premašili ograničenje tokena, iako je strategija bila točna. • Kad su smjeli dati sažet, programerski odgovor – primjerice Lua funkciju koja generira korake Tower of Hanoija – modeli su uspješno riješili daleko složenije verzije problema.

Zašto je važno za poduzeća

Rasprava otkriva da je dizajn evaluacije jednako presudan kao i arhitektura modela.

  1. Dugi lančani zadaci mogu se „slomiti” ne zbog manjka logike, nego zbog premale radne memorije ili prevelikog zahtjeva za eksplicitnim ispisom.
  2. Poduzeća koja grade agente ili kopilote trebaju razmotriti vanjsko spremište memorije, podjelu zadataka u manje cjeline ili komprimirane izlaze (kod umjesto teksta).
  3. Sintetički benchmark ne smije biti jedino mjerilo; realni slučajevi uporabe često traže drugačiji oblik odgovora.

Zaključak

Umjesto definitivnog presuđivanja o „kraju” rezoniranja u LLM-ovima, aktualna polemika naglašava koliko su format pitanja, ograničenja tokena i kriteriji ocjenjivanja ključni za procjenu stvarnih sposobnosti modela. Prije nego što se proglasi proboj – ili fijasko – potrebno je provjeriti je li problem možda u kutiji u koju smo model smjestili, a ne u samom modelu.

View post on X
View post on X
View post on X
View post on X
View post on X
View post on X

Slično

DeepSeek izazvao potres u svijetu umjetne inteligencije
Kineski startup DeepSeek postigao je vrhunske AI rezultate uz djelić troškova konkurencije, natjeravši OpenAI, Microsoft i Metu na brze zaokrete i otvorivši novu raspravu o efikasnosti, sintetičkim podacima i rizicima autonomnog samokritičkog treniranja.

min čitanja

Više

Google Cloud zatajio: pad brojnih AI alata i popularnih servisa
Problemi u Google Cloud Platformi srušili su ChatGPT, Claude, Replit i druge AI alate te izazvali poteškoće na Discordu i Spotifyju.

min čitanja

Više

Silicijska dolina u potrazi za novim čudom: jesu li AI agenti doista „sljedeći veliki prodor”
Tehnološki divovi i start-upovi ulažu milijarde u AI agente koji bi samostalno obavljali zadatke umjesto ljudi. Donosimo pregled tko predvodi utrku, gdje su izazovi i što sve to znači za radna mjesta.

min čitanja

Više

Jeftini AI agenti podižu strah od nestanka početničkih poslova
Preniske cijene AI alata potiču tvrtke da mijenjaju juniore digitalnim agentima, upozorava industrija.

min čitanja

Više

Apple ne odustaje od Vision Pro: nova verzija donosi realističnije avatare i prostorne widgete
Apple na WWDC-u predstavlja visionOS 26 s realističnijim Personama i prostornim widgetima, unatoč slabom odazivu korisnika na skupi headset Vision Pro.

min čitanja

Više

MacOS 26 Tahoe donosi najveći vizualni zaokret i pametniji Spotlight
Najopsežnije promjene na Macu u godinama: novi izgled Liquid Glass, moćniji Spotlight, AI automatizacije i Phone aplikacija dolaze s MacOS-om 26 Tahoe.

min čitanja

Više

Zentester obećava kraj dugih QA ciklusa: Zencoder lansirao AI alat za automatizirano testiranje
Zencoder je predstavio Zentester, AI alat koji end-to-end testiranje skraćuje s dana na sate, jačajući utrku za potpunu automatizaciju razvoja softvera.

min čitanja

Više

OpenAI preskočio 3 milijuna poslovnih korisnika i lansirao alate za uredske bitke s Microsoftom
Tvrtka je u četiri mjeseca osvojila milijun novih poslovnih pretplatnika i predstavila alate za transkripciju sastanaka, kodiranje i dublje povezivanje s uredskim aplikacijama, pojačavajući okršaj s Microsoftom na tržištu korporativne umjetne inteligencije.

min čitanja

Više

Google stavlja generativni AI u džep: AI Edge Gallery radi bez interneta
Googleova eksperimentalna aplikacija AI Edge Gallery omogućuje pokretanje naprednih AI modela izravno na Android telefonima bez internetske veze, stavljajući naglasak na privatnost, ali i otvarajući nova sigurnosna pitanja.

min čitanja

Više

Zip lansirao 50 AI agenata za revoluciju nabave
Startup Zip predstavio je 50 AI agenata koji automatiziraju ključne korake korporativne nabave, uz podršku OpenAI-ja i drugih velikih korisnika.

min čitanja

Više

Ostalo

Oman potvrdio otkazivanje iransko-američkih nuklearnih pregovora
Nuklearni pregovori SAD-a i Irana u Muskatu otkazani su nakon napada na iranska postrojenja, potvrdio je ministar vanjskih poslova Omana.

min čitanja

Više

Gyökeres odbio Amorimov United, želi Ligu prvaka
Najbolji strijelac Sportinga odbio je prijedlog bivšeg trenera Rubena Amorima da prijeđe u Manchester United, inzistirajući na klubu koji igra Ligu prvaka.

min čitanja

Više

Matija Dedić o naslijeđu Arsena: „Dug je put do rečenice da sam bolji od oca”
Pijanist Matija Dedić prisjetio se koncerta s ocem Arsenom iz 2014. i „dugog puta” do trenutka kad ga je slavni kantautor nazvao boljim od sebe.

min čitanja

Više

Rog se oprostio od Dinama emotivnom porukom
Veznjak je na društvenim mrežama potvrdio odlazak iz Dinama uz emotivnu zahvalu klubu i navijačima.

min čitanja

Više

Prižmić juri novo slavlje u Bratislavi; Marčinko zaustavljena u Gradu
Dino Prižmić izborio finale Challengera u Bratislavi, dok je Petra Marčinko zaustavljena u polufinalu turnira u Gradu.

min čitanja

Više

U Berlinu ubijen neporaženi čečenski boksač Abu Jusupov
Nepoželjni šok u svijetu boksa: Abu Jusupov smrtno izboden u Berlinu; policija traži počinitelja.

min čitanja

Više

Rade Šerbedžija otkrio zašto je povratak u hrvatski teatar bio „atomska bomba”
Glumac i redatelj Rade Šerbedžija najavio je jubilarnu, 25. sezonu Teatra Ulysses te objasnio zašto je njegov povratak na hrvatske pozornice izazvao snažan odjek.

min čitanja

Više

Jedna osoba poginula u sudaru četiri vozila na A4, promet preusmjeren
Nesreća kod čvora Popovec odnijela je jedan život, promet na A4 zatvoren u oba smjera.

min čitanja

Više

Znanstveni skup u Benkovcu rasvjetljuje zaboravljenu bojišnicu Domovinskog rata
Benkovac je svečano obilježio 25 godina 134. domobranske pukovnije uz skup koji otvara nova poglavlja o biogradsko-benkovačkoj bojišnici.

min čitanja

Više

Na Sljemenu uručena priznanja najboljim hrvatskim skijašima
Hrvatski skijaški savez proglasio je najbolje sportaše i klubove u nordijskim, alpskim i snowboard disciplinama za sezonu 2024./2025.

min čitanja

Više