Dok su veliki jezični modeli već ovladali tekstom, slikom i zvukom, redovi i stupci koji pokreću poslovni svijet ostali su na milosti zastarjelih algoritama. Startup Fundamental iz San Francisca sada tvrdi da je taj jaz zatvorio – i to sa 255 milijuna USD svježeg kapitala.
„Najvrjedniji podaci na svijetu žive u tablicama, a dosad nije postojao dobar temeljni model koji ih razumije”, kaže suosnivač i direktor Jeremy Fraenkel. Njegova tvrtka izronila je iz stealth faze s NEXUS-om, velikim tabličnim modelom (Large Tabular Model, LTM) istreniranim na milijardama stvarnih setova podataka putem Amazonova sustava SageMaker HyperPod.
Zašto LLM-ovi posrću na brojevima
Fraenkel objašnjava da klasični LLM-ovi „tokeniziraju” broj 2,3 u tri odvojena znaka – „2”, „.” i „3” – pa gube osjećaj za raspodjelu vrijednosti. NEXUS zato tretira brojeve i strukturu tablice kao mrežu nelinearnih odnosa, a ne kao običan tekstualni niz. Redoslijed stupaca pritom ne utječe na rezultat: „Ako u zdravstvenoj tablici zamijenite visinu i težinu, predikcija dijabetesa mora ostati ista”, ističe Fraenkel.
Jedna linija koda umjesto mjeseci ručnog rada
Tradicionalno, izrada prediktivnog modela zahtijeva mjesece čišćenja podataka i ručnog inženjeringa značajki. Fundamental tvrdi da NEXUS taj proces svodi na jednu Python naredbu: korisnik spoji sirove tablice, označi ciljni stupac – recimo vjerojatnost prijevare ili kvar stroja – a model vrati regresiju ili klasifikaciju u realnom vremenu.
Tvrtka se hvali već potpisanim višemilijunskim ugovorima s nekoliko Fortune 100 kompanija. Distribuciju pojednostavljuje činjenica da je AWS prodavatelj od zapisa na Marketplaceu, pa klijenti NEXUS plaćaju kao bilo koju drugu cloud uslugu.
Od sprječavanja korozije do bržeg odobravanja kredita
Fundamental navodi niz primjena:
- predviđanje pucanja cjevovoda kako bi se izbjegle katastrofe poput one u Flintu,
- pravodobna proizvodnja zaštitne opreme – tijekom pandemije bolnice su, podsjeća tvrtka, zbog nestašica izgubile 323 milijarde USD,
- 30- do 60-dnevne prognoze poplava i suša koje bi mogle umanjiti štete nalik onima u Pakistanu 2022.,
- procjena rizika ponovnog prijema pacijenata, posebno onih „koji rade dva posla i nemaju vremena za kontrolu”.
Što definira „bolje”, ovisi o branši. Bankama i fondovima i pola postotnog boda veće točnosti vrijedi milijarde, dok u humanitarnim misijama presudna može biti preciznost, a ne latencija, objašnjava Fraenkel.
Kapital i pedigre
Seriju A od 225 milijuna USD predvodi Oak HC/FT, uz sudjelovanje fondova Salesforce Ventures, Valor Equity Partners i Battery Ventures te anđeoskih ulagača iz tvrtki kao što su Perplexity, Wiz, Brex i Datadog. „Značaj Fundamentalova modela teško je precijeniti – strukturirani, relacijski podaci još nisu doživjeli dubokoučnu revoluciju”, poručuje suosnivačica Oak-a Annie Lamont.
Ekipa broji oko 35 ljudi, a ambicija je jasna: „Radimo isto ono što je ChatGPT napravio za tekst, ali za tablice”, zaključuje Fraenkel.