Bivši direktor Tesline umjetne inteligencije i jedan od osnivača OpenAI-ja Andrej Karpathy proveo je vikend izrađujući „LLM Council” – minimalističku web-aplikaciju koja u svega nekoliko stotina redaka Pythona i JavaScripta orkestrira raspravu četiri vrhunska velikih jezičnih modela (LLM-ova) i donosi zajednički zaključak.
Karpathy je uradak nazvao „vibe code projektom”, naglasivši da ga ne namjerava održavati te dodao: „Code is ephemeral now and libraries are over, ask your LLM to change it in whatever way you like.” No iza nehajnog tona krije se ogledni primjer sloja koji mnogim korporacijama još nedostaje – tankog middlewarea koji povezuje poslovne aplikacije s promjenjivim tržištem AI modela.
Kako funkcionira AI vijeće
- Panel: upit korisnika paralelno dobivaju GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 i Grok 4.
- Recenzija: svaki model anonimno ocjenjuje odgovore ostalih prema točnosti i pronicljivosti.
- Sinteza: „predsjedavajući” – trenutačno Gemini 3 – prima sve materijale i vraća objedinjeni odgovor korisniku.
Tijekom probnog čitanja knjige modeli su najčešće hvalili GPT-5.1, dok je Karpathy sam preferirao sažetiji Gemini, što je odmah otvorilo pitanje razilaženja strojnog i ljudskog ukusa.
Minimalna, ali prenosiva arhitektura Backend je postavljen na FastAPI-ju, frontend na Reactu, a podaci se spremaju u obične JSON datoteke. Ključni element je OpenRouter – posrednička usluga koja ujednačava pozive prema različitim dobavljačima modela. Time se svaki LLM tretira kao zamjenjivi „uložak”: popis COUNCIL_MODELS mijenja se jednim retkom, bez dodatnog koda. Takva neutralizacija dobavljača smanjuje rizik vezivanja za jednog partnera i omogućuje brzu nadogradnju kad se pojavi bolji model.
Što nedostaje do produkcije • Identifikacija i ovlasti: aplikacija nema autentifikaciju ni razine pristupa. • Zaštita podataka: osobni podaci odlaze vanjske modele bez ikakve redakcije ili audita. • Pouzdanost: nema mehanizama za prekide, ponovne pokušaje ili prebacivanje na pričuvni servis.
Upravo ti „dosadni” slojevi – sigurnost, usklađenost i nadzor – čine glavninu vrijednosti komercijalnih AI platformi koje se skupo naplaćuju, a koje Karpathyjevo vikend rješenje namjerno preskače.
Kad AI ocjenjuje AI Eksperiment je pokazao i zamku samoprovjere: modeli su sustavno favorizirali opširniji GPT-5.1, dok je čovjeku bio draži sažetiji stil. Ako se takvi automatizirani evaluatori nekritički prenesu na korisničke servise, postoji opasnost da metrika pokaže „savršene” rezultate, a korisničko zadovoljstvo klizne.
Lekcija za 2026. „LLM Council” tako postaje lakmus-papir industrije: hobistima igračka, dobavljačima prijetnja, a IT direktorima ogledni nacrt. Pokazuje da tehnička prepreka za multi-model strategiju nije u rutiranju upita, nego u izgradnji čvrstog okvira za sigurnost i upravljanje podacima. Pitanje je samo hoće li kompanije taj okvir razviti same ili ga kupiti zapakiranog u skupljem, ali potpunom, enterprise rješenju.