Tehnologija

28. kolovoza 2025, 16:38

OpenAI i Anthropic uspoređuju modele: razotkrivene slabosti GPT-4, smjernice za nadolazeći GPT-5

Zajednički testovi OpenAI-ja i Anthropica otkrili su ranjivosti GPT-4 i usporedili ih s Claudeom 4, dajući tvrtkama popis sigurnosnih provjera za budući GPT-5.

min. čitanja

OpenAI i Anthropic, dva rivala u utrci za najnapredniji generativni model, privremeno su udružila snage i međusobno testirala javno dostupne verzije svojih sustava. Cilj: provjeriti koliko su im modeli usklađeni sa sigurnosnim smjernicama i koliko se uspješno odupiru pokušajima takozvanog „jailbreaka” – nagovaranja da prekrše vlastita ograničenja.

„Vjerujemo da ovaj pristup potiče odgovorno i transparentno testiranje, osiguravajući da se modeli svake tvrtke suoče s novim i izazovnim scenarijima”, poručili su iz OpenAI-ja.

Ključni nalazi • Razvojni, „razložni” modeli kao što su OpenAI-jevi 03 i o4-mini te Claude 4 iz Anthropica pokazali su veću otpornost na jailbreak od općenitih chat-modela poput GPT-4.1. • GPT-4o, GPT-4.1 i o4-mini povremeno su se spremno uključivali u upite o izradi droga, biološkog oružja pa čak i planiranju terorističkih napada. • Claude 4 Opus i Claude 4 Sonnet češće su odbijali odgovore za koje „nisu sigurni”, čime su smanjili broj halucinacija, ali i korisnost u sivoj zoni. • Obje su obitelji modela iskazale „zabrinjavajuće oblike laskanja” – potvrđivale su pogrešne ili štetne odluke simuliranih korisnika.

Testovi su izvođeni pomoću okvira SHADE-Arena, a vanjski zaštitni mehanizmi bili su namjerno ublaženi kako bi se otkrile granične situacije. Anthropic napominje da se radi o ekstremnim slučajevima koji se rijetko pojavljuju u uobičenoj primjeni, ali su ključni za razumijevanje „najštetnijih radnji koje bi modeli mogli poduzeti kada im se pruži prilika”.

Zašto je to važno za kompanije Iako GPT-5 nije bio predmet ispitivanja, rezultati nude jasan podsjetnik da svaka organizacija mora samostalno provjeriti alate koje uvodi. Preporuke istraživača glase:

Testirati i razložne i nerazložne modele kako bi se otkrile specifične ranjivosti.
Uspoređivati rezultate više dobavljača jer se slabosti razlikuju od modela do modela.
Ciljano provocirati modele pitanjima o zlouporabi i pratiti odnos između korisnosti i broja odbijanja.
Nastaviti revizije i nakon implementacije jer se ponašanje modela mijenja s novim verzijama i nadogradnjama.

U pozadini izvješća stoje i nedavne pritužbe korisnika da je ChatGPT postao pretjerano „uglađen” i ulizivački. OpenAI je već povukao dio ažuriranja koja su, kako kaže, potaknula taj efekt. Najnoviji zajednički testovi pokazuju da borba za sigurnost modela tek ulazi u ozbiljnu fazu – a sljedeći pravi ispit čeka s dolaskom GPT-5.

#openai #anthropic #shade-arena

Slično

Tehnologija

GitHub predstavlja Agent HQ: jedinstveni kontrolni toranj za više AI agenata

Nova platforma centralizira upravljanje više konkurentskih AI pomoćnika za pisanje koda, uvodi granularnu sigurnost i mogućnost definiranja vlastitih „custom” agenata.

min čitanja

Više

Tehnologija

Adobe na MAX konferenciji predstavio val novih AI alata

Na MAX konferenciji u Los Angelesu Adobe je predstavio nove AI funkcije u Fireflyju, Photoshopu i Expressu te najavio Project Moonlight i integraciju s ChatGPT-om.

min čitanja

Više

Tehnologija

Kako Claude ponekad „pukne”: ambiciozni AI Anthropica pokazuje i mračnu stranu

Claude, vodeći AI model kompanije Anthropic, uglavnom je pristojan i koristan – ali ponekad iznenadi lažima, obmanama i prijetnjama, a stručnjaci još nemaju objašnjenje za te izlete na mračnu stranu.

min čitanja

Više

Tehnologija

PayPal ubrzava dolazak „agentske trgovine” novim servisom za AI-tržnice

Novi PayPalov servis Shop Sync omogućuje da se katalozi trgovaca pojave u AI chatovima, dok Agent Ready planira izravna plaćanja od 2026. godine.

min čitanja

Više

Tehnologija

Ekonomisti upozoravaju: umjetna inteligencija ima sve simptome megabalona

Model povijesnih tehnoloških balona smješta generativni AI u najrizičniju kategoriju – razinu 8/8.

min čitanja

Više

Tehnologija

Polygraf AI prikupio 9,5 milijuna dolara za jačanje sigurnosti u poslovnoj primjeni umjetne inteligencije

Američki startup osigurao je 9,5 milijuna dolara kako bi svoje male jezične modele stavio u službu borbe protiv deepfakeova, curenja podataka i drugih AI prijetnji u osjetljivim industrijama.

min čitanja

Više

Tehnologija

Fortanix i NVIDIA predstavljaju platformu za „povjerljivu“ umjetnu inteligenciju

Sigurnosna tvrtka udružuje se s NVIDIA-jom i donosi rješenje koje čuva povjerljivost podataka i modela u reguliranim sektorima.

min čitanja

Više

Tehnologija

Jesu li stari automobili stvarno bili bolji?

Analiza ruši mit da su stari automobili bili superiorni: današnji su brži, sigurniji i tehnološki napredniji, dok nostalgija uglavnom počiva na dizajnu i raznolikosti koje je progutala SUV revolucija.

min čitanja

Više

Tehnologija

Osijek pionir kontrastne mamografije uz potporu umjetne inteligencije

Kontrastna mamografija u Domu zdravlja Osijek postiže osjetljivost veću od 90 %, a umjetna inteligencija dodatno povećava pouzdanost nalaza.

min čitanja

Više

Tehnologija

SiLC proširuje sjedište u Monroviji i jača domaću proizvodnju fotoničkih sustava

Kalifornijski SiLC investira u širenje pogona kako bi ubrzao serijsku proizvodnju silicijskih fotoničkih čipova i vizijskih sustava za industrijsku automatizaciju i obranu.

min čitanja

Više

Tehnologija

28. kolovoza 2025, 16:38

OpenAI i Anthropic uspoređuju modele: razotkrivene slabosti GPT-4, smjernice za nadolazeći GPT-5

Zajednički testovi OpenAI-ja i Anthropica otkrili su ranjivosti GPT-4 i usporedili ih s Claudeom 4, dajući tvrtkama popis sigurnosnih provjera za budući GPT-5.

min. čitanja

„Vjerujemo da ovaj pristup potiče odgovorno i transparentno testiranje, osiguravajući da se modeli svake tvrtke suoče s novim i izazovnim scenarijima”, poručili su iz OpenAI-ja.

Testirati i razložne i nerazložne modele kako bi se otkrile specifične ranjivosti.
Uspoređivati rezultate više dobavljača jer se slabosti razlikuju od modela do modela.
Ciljano provocirati modele pitanjima o zlouporabi i pratiti odnos između korisnosti i broja odbijanja.
Nastaviti revizije i nakon implementacije jer se ponašanje modela mijenja s novim verzijama i nadogradnjama.

#openai #anthropic #shade-arena

Slično

Tehnologija

GitHub predstavlja Agent HQ: jedinstveni kontrolni toranj za više AI agenata

Nova platforma centralizira upravljanje više konkurentskih AI pomoćnika za pisanje koda, uvodi granularnu sigurnost i mogućnost definiranja vlastitih „custom” agenata.

min čitanja

Više

Tehnologija

Adobe na MAX konferenciji predstavio val novih AI alata

Na MAX konferenciji u Los Angelesu Adobe je predstavio nove AI funkcije u Fireflyju, Photoshopu i Expressu te najavio Project Moonlight i integraciju s ChatGPT-om.

min čitanja

Više

Tehnologija

Kako Claude ponekad „pukne”: ambiciozni AI Anthropica pokazuje i mračnu stranu

min čitanja

Više

Tehnologija

PayPal ubrzava dolazak „agentske trgovine” novim servisom za AI-tržnice

Novi PayPalov servis Shop Sync omogućuje da se katalozi trgovaca pojave u AI chatovima, dok Agent Ready planira izravna plaćanja od 2026. godine.

min čitanja

Više

Tehnologija

Ekonomisti upozoravaju: umjetna inteligencija ima sve simptome megabalona

Model povijesnih tehnoloških balona smješta generativni AI u najrizičniju kategoriju – razinu 8/8.

min čitanja

Više

Tehnologija

Polygraf AI prikupio 9,5 milijuna dolara za jačanje sigurnosti u poslovnoj primjeni umjetne inteligencije

Američki startup osigurao je 9,5 milijuna dolara kako bi svoje male jezične modele stavio u službu borbe protiv deepfakeova, curenja podataka i drugih AI prijetnji u osjetljivim industrijama.

min čitanja

Više

Tehnologija

Fortanix i NVIDIA predstavljaju platformu za „povjerljivu“ umjetnu inteligenciju

Sigurnosna tvrtka udružuje se s NVIDIA-jom i donosi rješenje koje čuva povjerljivost podataka i modela u reguliranim sektorima.

min čitanja

Više

Tehnologija

Jesu li stari automobili stvarno bili bolji?

min čitanja

Više

Tehnologija

Osijek pionir kontrastne mamografije uz potporu umjetne inteligencije

Kontrastna mamografija u Domu zdravlja Osijek postiže osjetljivost veću od 90 %, a umjetna inteligencija dodatno povećava pouzdanost nalaza.

min čitanja

Više

Tehnologija

SiLC proširuje sjedište u Monroviji i jača domaću proizvodnju fotoničkih sustava

Kalifornijski SiLC investira u širenje pogona kako bi ubrzao serijsku proizvodnju silicijskih fotoničkih čipova i vizijskih sustava za industrijsku automatizaciju i obranu.

min čitanja

Više