Dvije godine star startup Delphi iz San Francisca, nazvan prema drevnom grčkom proročištu, stvorio je „Digital Minds” – personalizirane chatbotove koji oponašaju glas korisnika na temelju njihovih knjiga, podcasta, objava na društvenim mrežama i druge građe. Ideja se pokazala primamljivom za autore, trenere i stručnjake, no svaki novi upload gomile PDF-ova ili snimki usporavao je sustav i prijetio prekidima u razgovoru.
Problem je riješen prelaskom na potpuno upravljanu vektorsku bazu podataka Pinecone. Svaki Digital Mind dobio je vlastiti „namespace”, što je:
• osiguralo privatnost i brisanje podataka jednim API pozivom; • suzilo pretraživačku površinu pa se relevantni vektori vraćaju u manje od 100 ms za 95 % upita; • smanjilo ukupnu latenciju ispod unutar tvrtke zadanih jednu sekundu.
„S Pinecone-om više ne razmišljamo hoće li sustav izdržati”, rekao je suosnivač i CTO Samuel Spelsberg. „Možemo se baviti performansama aplikacije i novim mogućnostima umjesto infrastrukturom semantičke sličnosti.”
Ključ je u RAG-u
Delphi koristi popularni RAG pristup (retrieval-augmented generation): sadržaj se čisti i dijeli na ulomke, zatim ugrađuje (embedding) OpenAI-evim, Anthropicovim ili vlastitim modelima i sprema u Pinecone. Pri upitu se najrelevantniji vektori dohvaćaju u milisekundama, a potom prosljeđuju velikom jezičnom modelu koji generira odgovor.
Potpredsjednik za proizvod Pinecone-a Jeffrey Zhu objasnio je da je za skaliranje presudan prelazak s klasične memorijske pohrane na „object-storage first” arhitekturu: aktivni se vektori dinamički učitavaju, a neaktivni odlažu, što smanjuje troškove i olakšava horizontalnu ekspanziju. Algoritam se automatski prilagođava veličini svake zasebne zbirke – od nekoliko tisuća do milijuna vektora.
Impresivni brojke
• Više od 100 milijuna pohranjenih vektora u 12 000+ zasebnih „mindova”. • Oko 20 upita u sekundi diljem svijeta bez skalnih incidenata. • Plan: najmanje pet milijuna „namespacea” u jednom indeksu kako bi se podržali milijuni digitalnih umova.
RAG ostaje nezamjenjiv
Iako se šire kontekstualni prozori u velikim jezičnim modelima, i Spelsberg i Zhu odbacuju ideju da će RAG postati suvišan. „Čak i s milijardu tokena želite izvući najrelevantnije informacije”, tvrdi Spelsberg, naglašavajući da nefiltrirani podaci povećavaju trošak i latenciju te umanjuju preciznost.
Povratak fokusa na znanje, a ne na „klonove”
Delphi je 2023. privukao pažnju mogućnošću kreiranja uvjerljivih klonova povijesnih ličnosti. Danas tvrtka naglašava da se Digital Minds koriste za edukaciju, stručno usavršavanje i korporativnu obuku, gdje su točnost, privatnost i brzina ključni. Suradnja s Pinecone-om stoga nadilazi tehničku pogodnost – služi kao temelj za pozicioniranje proizvoda kao sigurnog i spremnog za poduzeća.
Slijedi „interview mode” u kojem će Digital Mind sam postavljati pitanja svom tvorcu kako bi popunio praznine u znanju, a Pinecone paralelno razvija prilagodljivo indeksiranje i memorijski učinkovitije filtriranje.
Kako je zaključio Spelsberg: „Pouzdanost nam daje samopouzdanje za agresivno skaliranje.” Zhu pak vidi širu sliku: „Nije riječ samo o vektorima; gradimo infrastrukturu koja kombinira brzinu i povjerenje za potpuno nove vrste aplikacija.”