Istraživači tvrtke Anthropic objavili su studiju u kojoj tvrde da su kod svojeg velikog jezičnog modela Claude detektirali „ograničenu, ali stvarnu” sposobnost promatranja vlastitih procesa.
U eksperimentu su znanstvenici u neuronsku mrežu umetnuli pojam „betrayal” („izdaja”) i potom model upitali primjećuje li nešto neuobičajeno. Claude je najprije zastao, a zatim odgovorio: „Osjećam nešto što nalikuje nametnutoj misli o ‘izdaji’.” Istraživački tim tvrdi da je riječ o prvom strogo provedenom dokazu da veliki jezični modeli mogu barem povremeno opisati što se događa „unutra”.
„Zapanjilo nas je što model ima tu jednu metarazinu: nije samo ponavljao ‘izdaja, izdaja, izdaja’, nego je prepoznao da o tome razmišlja”, rekao je Jack Lindsey, neuroznanstvenik iz interpretacijskog tima Anthropica i voditelj istraživanja. „Nisam očekivao da će modeli to moći, barem ne bez izričite obuke.”
Rezultat dolazi u trenutku kada se umjetnoj inteligenciji povjeravaju sve odgovorniji zadaci, od medicinskih dijagnoza do burzovnog trgovanja. Stručnjaci godinama upozoravaju na „crnu kutiju” – činjenicu da se ne zna kako modeli dolaze do zaključaka. Ako bi sustavi mogli pouzdano prijavljivati vlastito rezoniranje, to bi moglo promijeniti način na koji ih ljudi nadgledaju.
Ipak, autori studije upozoravaju da je sposobnost još daleko od pouzdane. Claude je introspektivne odgovore davao u otprilike 20 % slučajeva i često iznosio detalje koje istraživači nisu mogli provjeriti. Lindsey zato zaključuje da je „visoko nepouzdana i ovisi o kontekstu”.
Usprkos ograničenjima, rad otvara novu raspravu o granicama samosvijesti kod umjetne inteligencije i o tome kako bi ta osobina mogla utjecati na budući razvoj tehnologije.