Američki startup Anthropic objavio je da je u suradnji s Ministarstvom energetike (DOE) i Nacionalnom upravom za nuklearnu sigurnost (NNSA) naučio svoj chatbot Claude da „ne dijeli nuklearne tajne”.
Tvrtka je, koristeći Amazonove cloud-servere najvišeg stupnja tajnosti, dopustila državnim stručnjacima da mjesecima "red-teamaju" (traže propuste) eksperimentalne verzije modela. Marina Favaro iz Anthropica objašnjava: „We deployed a then-frontier version of Claude in a Top Secret environment so that the NNSA could systematically test whether AI models could create or exacerbate nuclear risks.”
Rezultat tog testiranja je takozvani „nuklearni klasifikator” – sofisticirani filtar koji prepoznaje osjetljive teme i prekida razgovore koji bi mogli voditi prema izradi oružja. Popis rizičnih termina sastavila je NNSA, a iako je kontroliran, nije povjerljiv pa ga, kaže Favaro, mogu primijeniti i druge tvrtke. „It catches concerning conversations without flagging legitimate discussions about nuclear energy or medical isotopes.”
Skeptici traže više detalja
Dio stručnjaka ne dijeli oduševljenje. Oliver Stephenson iz Federacije američkih znanstvenika upozorava da današnji modeli možda i nisu prijetnja, ali "we don’t know where they’ll be in five years time … and it’s worth being prudent about that fact.” Smatra da bi Anthropic trebao jasnije opisati koje točno rizike klasifikator rješava i što se nalazi iza zida tajnosti.
Još je oštrija Heidy Khlaaf iz AI Now Institutea, koja podsjeća da Claude ionako nema pristup klasificiranom materijalu: „If the NNSA probed a model which was not trained on sensitive nuclear material, then their results are not an indication that their probing prompts were comprehensive, but that the model likely did not contain the data or training to demonstrate any sufficient nuclear capabilities.” Khlaaf dodaje da takve objave precjenjuju sposobnosti današnjih chatbotova i otvaraju pitanje treba li privatnim, slabo reguliranim kompanijama davati pristup vojnim podacima.
Odgovor iz Anthropica glasi: „A lot of our safety work is focused on proactively building safety systems that can identify future risks and mitigate against them.” Tvrtka je klasifikator ponudila besplatno konkurenciji u nadi da postane dobrovoljni industrijski standard.
Preciznost i pogreške
Iako je nuklearna tehnologija stara više od 80 godina, izrada oružja i dalje zahtijeva matematičku preciznost. Veliki jezikovni modeli poznati su po pogreškama u računanju, a podsjetnik na moguće posljedice je američki pokus iz 1954. kada je jedan matematički previd utrostručio snagu bombe.
Zasad, tvrde u Anthropicu i NNSA-i, Claude je zaštićen od takvih scenarija. No rasprava o tome je li riječ o pravoj sigurnosti ili samo „security theater” – tek je započela.