Startup Raindrop, specijaliziran za nadzor rada aplikacija temeljenih na umjetnoj inteligenciji, predstavio je Experiments – analitički modul koji tvrtkama omogućuje A/B testiranje AI agenata u stvarnim uvjetima.
Osnovna ideja novog alata jest da razvojni timovi mogu u realnom vremenu usporediti učinak različitih verzija modela, promptova ili skupova alata koje agenti koriste, i to kroz milijune stvarnih interakcija s krajnjim korisnicima. Sučelje vizualno prikazuje kad testna varijanta nadmašuje ili zaostaje za osnovnom, a skokovi u negativnim signalima (npr. učestaliji neuspjesi zadataka ili nepotpuni kod) odmah se ističu.
„AI proizvodi neprestano spektakularno griješe – i to na načine koji su istodobno urnebesni i zastrašujući”, podsjetio je suosnivač i tehnički direktor Ben Hylak, objašnjavajući zašto timovi trebaju jasniji uvid u ono što se događa nakon svakog deploya. Kolegica Alexis Gauba dodala je da se prečesto događa paradoks: „Prođu svi testovi, agent u produkciji ipak zakaže.”
Ključne značajke Experimentsa • Usporedbe „bilo čega s bilo čim”: modela, promptova, novih alata ili kompletnih refaktora. • Detaljni metrički pregled (učestalost korištenja alata, stopa pogrešaka, trajanje razgovora, duljina odgovora). • Upozorenja na nedovoljan uzorak – alatom je u pravilu potrebno oko 2 000 korisnika dnevno za statistički pouzdane rezultate. • Izvorni zapisi svake interakcije dostupni su jednim klikom, što olakšava pronalazak korijena problema poput „agenta zaglavljenog u petlji”. • Integracija s popularnim platformama za upravljanje značajkama poput Statsiga, dok se za osnovne usporedbe mogu koristiti i vremenski rasjeci (npr. jučer vs. danas) bez dodatnog podešavanja.
Sigurnost i cijene Raindrop radi kao oblakom podržana usluga, ali nudi i lokalno brisanje osobnih podataka za klijente s pojačanim zahtjevima. Tvrtka je SOC 2 certificirana, a funkcija PII Guard automatski uklanja osjetljive informacije iz pohranjenih zapisa.
Experiments je dio Pro paketa koji stoji 350 USD mjesečno, odnosno 0,0007 USD po interakciji. Jeftiniji Starter (65 USD mjesečno; 0,001 USD po interakciji) donosi temeljne analitike i upozorenja, dok Enterprise paket nudi cijene i mogućnosti po mjeri velikih sustava, uključujući jednokratnu prijavu, napredne integracije i prioritetnu podršku.
Raindrop, čiji su osnivači Hylak, Gauba i Zubin Singh Koticha, nastavlja misiju probijanja „crne kutije” generativnih modela – od pukog detektiranja tihih pogrešaka do preciznog mjerenja stvarnih poboljšanja. S Experimentsom želi AI razvoju dati onu razinu transparentnosti i kontrolirane iteracije koju klasični softver ima već godinama.