Latinska Amerika dobiva svoj prvi veliki otvoreni jezični model – Latam-GPT. Projekt vodi neprofitni Čileanski nacionalni centar za umjetnu inteligenciju (CENIA) s ciljem da regiji osigura tehnološku neovisnost i alat prilagođen njezinim jezicima, povijesti i društvenim izazovima.
„This work cannot be undertaken by just one group or one country in Latin America: It is a challenge that requires everyone’s participation”, poručuje direktor CENIA-e Álvaro Soto. Od samog početka projekt se temelji na suradnji: 33 partnerske institucije iz dvadesetak zemalja prikupile su više od 8 terabajta tekstova – ekvivalent milijunima knjiga. Na toj se građi trenira model od 50 milijardi parametara, usporediv s GPT-om 3.5, ali optimiziran za latinoamerički kontekst.
Korpus trenutačno broji 2 645 500 dokumenata. Najviše ih dolazi iz Brazila (685 000), slijede Meksiko (385 000), Španjolska (325 000), Kolumbija (220 000) i Argentina (210 000). Analitičari CENIA-e paze da nijedna zemlja ili tema ne dominira sadržajem te već planiraju aktivnije uključiti potzastupljene države i materinske jezike autohtonih naroda.
Računalna infrastruktura koju je osiguralo Sveučilište Tarapacá u Arici ključna je za ambiciozan plan. Novi superračunalni klaster – ulaganje procijenjeno na 10 milijuna dolara – sastoji se od 12 čvorova s ukupno 96 vrhunskih NVIDIA H200 grafičkih procesora. Ovo je prvo postrojenje takvog kapaciteta u Čileu i šire, a omogućit će treniranje modela unutar regije, uz manju potrošnju energije i bez oslanjanja na inozemne podatkovne centre.
Prva verzija Latam-GPT-a izlazi ove godine. Očekuje se da će u općim zadacima biti blizu komercijalnih modela, ali „with superior performance in topics specific to Latin America”, naglašava Soto. Dugoročni je plan razviti čitavu obitelj sustava – od multimodalnih (slika, video) do specijaliziranih rješenja za obrazovanje, zdravstvo, poljoprivredu ili kulturu koje bi po potrebi mogle prilagođavati lokalne institucije.
Soto upozorava kako postojeći globalni modeli ne zadovoljavaju potrebe regije: „Imagine if we wanted to use them to modernize the education system in Latin America. If you ask one of these models for an example, it would probably tell you about George Washington.” Upravo zato Latam-GPT želi ponuditi sadržaj koji učenicima i stručnjacima govori njihovim jezikom – doslovno i kulturološki.
Vizija do 2030. uključuje scenarij u kojem je Latinska Amerika ne samo korisnik, nego i kreator napredne umjetne inteligencije. „If we manage to give this technology a Latin American stamp and contribute to its development, the project will have been a great success”, zaključuje čileanski znanstvenik.