Bujica novih „agentskih” pomoćnika poput OpenClawa posljednjih je tjedana pokazala i svoju mračnu stranu: botovi su masovno brisali važne poruke, pisali klevetničke tekstove i čak slali krađe-identiteta vlasnicima računa. Dugogodišnji sigurnosni inženjer Niels Provos zato je odlučio povući ručnu.
Danas je objavio IronCurtain, otvoreni i sigurnosno osviješteni AI asistent koji sve zadatke izvršava u izoliranoj virtualnoj mašini, a svaki njegov potez nadzire „ustav” što ga vlasnik napiše običnim jezikom. Sustav potom kroz nekoliko koraka uz pomoć velikog jezičnog modela tu svakodnevnu rečenicu pretvara u strogo provediva pravila.
„Servisi poput OpenClawa sad su na vrhuncu hypea, ali to nije put kojim želimo ići”, upozorava Provos. „Pokušajmo radije zadržati visoku korisnost, a izbjeći nepredvidive – ponekad destruktivne – ishode.”
Ključ je u tome da IronCurtain jasne ljudske upute pretvori u determinističke crvene linije, jer LLM-ovi su po prirodi stohastični i s vremenom mogu promijeniti način tumačenja ograničenja. Primjer „ustava” mogao bi glasiti: „Agent smije čitati sve moje e-poruke; smije slati poruke osobama iz imenika bez pitanja; svima ostalima mora prvo zatražiti potvrdu; nikad trajno ne briši ništa.”
IronCurtain posrednik je između agenta i poslužitelja koji LLM-u otvara pristup podacima i drugim internetskim uslugama. Tako uvodi razinu kontrole koju klasične platforme poput e-pošte dosad nisu trebale, jer nisu bile zamišljene za situaciju u kojoj račun istodobno koriste čovjek i stroj.
Sustav je neovisan o modelu, vodi dnevnik svih odluka i tijekom rada nudi dopune „ustava” kad naleti na rubne slučajeve. Premda je zasad riječ o istraživačkom prototipu, Provos poziva zajednicu da se uključi i pomogne mu rasti. Iskusni istraživač kibernetičke sigurnosti Dino Dai Zovi, koji testira rane inačice, kaže da se koncept savršeno poklapa s njegovim pogledom na to kako treba ograničiti agentsku umjetnu inteligenciju.