Databricks je unaprijedio svoj okvir „Judge Builder”, interni sustav u kojem umjetna inteligencija (AI) procjenjuje rad druge AI, rješavajući pritom tzv. „ouroboros” paradoks – kružni problem dokazivanja kvalitete.
Glavne novosti
• Struktura radionica: nakon povratnih informacija korisnika tvrtka je uz tehničke alate uvela vođene radionice koje kroz tri koraka pomažu timovima da usuglase kriterije kvalitete, uhvate znanje stručnjaka i skaliraju procjene.
• Mjerenje „udaljenosti od ljudskog uzorka”: sustav uspoređuje ocjene AI-suca s ocjenama stručnjaka i tako kalibrira točnost, čineći strojne suce pouzdanim nadomjestkom ljudske evaluacije.
Tri lekcije iz prakse
-
Stručnjaci se ne slažu onoliko koliko se misli. Batched anotacija i provjera međusobne pouzdanosti (inter-rater reliability) rano otkrivaju nesuglasice; interne ekipe dosegle su koeficijent pouzdanosti 0,6, dvostruko bolji od prosjeka vanjskih servisa.
-
Veliki kriteriji treba razbiti na specifične suce. Umjesto jednog „općeg” suda, bolje je imati zasebne za točnost, relevantnost ili ton poruke, pa se kvar jasno locira i brže popravlja.
-
Dovoljno je 20–30 pažljivo odabranih primjera. Radionice traju tek nekoliko sati ako se fokusiraju na granične slučajeve koji izazivaju raspravu.
Citati
„Inteligencija modela obično nije usko grlo; pravo je pitanje kako natjerati model da radi ono što želimo i kako provjeriti je li to stvarno napravio”, naglasio je glavni znanstvenik Jonathan Frankle.
Autorica okvira Pallavi Koppol dodala je: „Želite suca da provjeri je li vaš sustav dobar, no i sudac je AI. Kako onda znate da je sudac dobar?”
Poslovni učinak
• Jedan je klijent nakon prve radionice izgradio više od deset AI-sudaca i sada „mjeri sve”. • Nekoliko korisnika postali su sedmeroznamenkasti potrošači generativne AI jer mogu objektivno dokazati dobit. • Tvrtke koje su oklijevale prijeći s prompt-inženjeringa na napredno „reinforcement learning” uvele su ga jer napokon mogu mjeriti poboljšanja.
Preporučena praksa
- Odaberite jedan regulatorni zahtjev i jednu uočenu slabu točku kao startni portfelj sudaca.
- Organizirajte kratke sesije sa stručnjacima, koristite serijsku anotaciju i provjeru suglasja.
- Redovito revidirajte suce na temelju podataka iz produkcije – kako sustav evoluira, evoluiraju i mjerila.
Frankle zaključuje: „Kad jednom imate suca koji kvantificira ljudski ukus, možete ga iskoristiti na tisuću načina – od optimizacije promptova do nadgledanog učenja i postavljanja čvrstih ograda za svoje agente.”