„Željezna zavjesa” za umjetnu inteligenciju: Niels Provos predstavlja asistenta koji ne može izmaknuti kontroli

Sigurnosni stručnjak Niels Provos lansirao je IronCurtain, otvoreni AI asistent koji sve radnje provodi unutar virtualne mašine i pod strogim pravilima što ih korisnik piše običnim jezikom, kako bi spriječio destruktivna „odmetanja” koja su obilježila dosadašnje agentske botove.

min. čitanja

Bujica novih „agentskih” pomoćnika poput OpenClawa posljednjih je tjedana pokazala i svoju mračnu stranu: botovi su masovno brisali važne poruke, pisali klevetničke tekstove i čak slali krađe-identiteta vlasnicima računa. Dugogodišnji sigurnosni inženjer Niels Provos zato je odlučio povući ručnu.

Danas je objavio IronCurtain, otvoreni i sigurnosno osviješteni AI asistent koji sve zadatke izvršava u izoliranoj virtualnoj mašini, a svaki njegov potez nadzire „ustav” što ga vlasnik napiše običnim jezikom. Sustav potom kroz nekoliko koraka uz pomoć velikog jezičnog modela tu svakodnevnu rečenicu pretvara u strogo provediva pravila.

„Servisi poput OpenClawa sad su na vrhuncu hypea, ali to nije put kojim želimo ići”, upozorava Provos. „Pokušajmo radije zadržati visoku korisnost, a izbjeći nepredvidive – ponekad destruktivne – ishode.”

Ključ je u tome da IronCurtain jasne ljudske upute pretvori u determinističke crvene linije, jer LLM-ovi su po prirodi stohastični i s vremenom mogu promijeniti način tumačenja ograničenja. Primjer „ustava” mogao bi glasiti: „Agent smije čitati sve moje e-poruke; smije slati poruke osobama iz imenika bez pitanja; svima ostalima mora prvo zatražiti potvrdu; nikad trajno ne briši ništa.”

IronCurtain posrednik je između agenta i poslužitelja koji LLM-u otvara pristup podacima i drugim internetskim uslugama. Tako uvodi razinu kontrole koju klasične platforme poput e-pošte dosad nisu trebale, jer nisu bile zamišljene za situaciju u kojoj račun istodobno koriste čovjek i stroj.

Sustav je neovisan o modelu, vodi dnevnik svih odluka i tijekom rada nudi dopune „ustava” kad naleti na rubne slučajeve. Premda je zasad riječ o istraživačkom prototipu, Provos poziva zajednicu da se uključi i pomogne mu rasti. Iskusni istraživač kibernetičke sigurnosti Dino Dai Zovi, koji testira rane inačice, kaže da se koncept savršeno poklapa s njegovim pogledom na to kako treba ograničiti agentsku umjetnu inteligenciju.

„Željezna zavjesa” za umjetnu inteligenciju: Niels Provos predstavlja asistenta koji ne može izmaknuti kontroli