CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

21. listopada 2025, 20:19

DeepSeek predstavio OCR koji deset puta skraćuje tekst i otvara put golemoj kontekstualnoj memoriji

DeepSeek objavio potpuno otvoren OCR model koji tekst komprimira kroz slike, omogućujući deset puta veće kontekstualne prozore za velike jezične modele.

min. čitanja

XFacebookWhatsApp

Kineska istraživačka tvrtka DeepSeek ponovno je uzdrmala pretpostavke o troškovima i metodama razvoja umjetne inteligencije. Najnoviji model, nazvan DeepSeek-OCR, objavljen je s potpunim otvorenim kodom i težinama, a nudi ono što autori nazivaju „inverzijom paradigme” u obradi jezika: tekst pretvara u vizualni zapis i tako ga komprimira i do deset puta učinkovitije od uobičajenih tekstualnih tokena.

„Through DeepSeek-OCR, we demonstrate that vision-text compression can achieve significant token reduction (7-20×) for different historical context stages, offering a promising direction for addressing long-context challenges in large language models”, navodi se u službenom radu. U praksi to znači da bi budući jezični modeli mogli odjednom obuhvaćati desetke milijuna tokena – višestruko više od današnjih granica.

Programer i su-osnivač OpenAI-ja Andrej Karpathy u objavi je reagirao riječima: „Maybe it makes more sense that all inputs to LLMs should only ever be images… Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in.” Njegov komentar odražava osjećaj dijela zajednice da bi vizualni pristup mogao postati novi standard u obradi jezika.

Ključne komponente • DeepEncoder – vizualni enkoder od 380 milijuna parametara koji spaja lokalnu percepciju iz Meta-ina SAM-a i globalno razumijevanje iz OpenAI-jevog CLIP-a te dodatno koristi modul za 16-struku kompresiju. • Mixture-of-experts dekoder – jezični model od 3 milijarde parametara (570 milijuna aktivnih) koji prevodi vizualne tokene natrag u tekst.

U testiranju na skupu Fox, model je s tek 100 vizualnih tokena dosegnuo 97,3 % točnosti na dokumentima sa 700–800 tekstualnih tokena, što predstavlja kompresijski omjer 7,5 : 1. Čak i pri omjerima blizu 20 : 1 preciznost je ostala oko 60 %.

Prijenos u praksi DeepSeek tvrdi da jedno Nvidia A100-40G grafičko procesorsko sučelje može obraditi više od 200 000 stranica dnevno. Skupina od 20 poslužitelja, svaki s osam takvih GPU-ova, prema projekciji doseže 33 milijuna stranica dnevno – dovoljno za brzo slaganje golemih skupova podataka za treniranje drugih AI sustava.

Podloga za uspjeh nalazi se i u opsežnoj obuci: 30 milijuna PDF-ova na oko 100 jezika, od čega 25 milijuna na kineskom i engleskom, te devet vrsta dokumenata – od znanstvenih radova do rukom pisanih bilješki.

Za razliku od mnogih komercijalnih laboratorija, DeepSeek je sve – od težina do skripti za inferenciju – postavio na GitHub i Hugging Face, gdje je repozitorij u samo 24 sata prikupio više od 4 000 zvjezdica.

Otvorena objava potiče pitanje skrivaju li drugi laboratoriji slične tehnologije, ali i nudi istraživačima širom svijeta alat koji bi mogao proširiti granice konteksta velikih jezičnih modela brže nego što se do jučer smatralo mogućim.

#openai#hugging-face#deepseek#deepseek-ocr#andrej-karpathy
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Tehnološki lideri ujedinjeni protiv praksi ICE-a
Otvoreno pismo zaposlenika i šefova iz Silicijske doline poziva na prekid suradnje s američkom imigracijskom službom zbog nasilnih metoda.

min čitanja

Više

Tehnologija

Nissan predstavio solarnu Ariyu: do 23 km dnevno bez utičnice
Konceptna Ariya s ugrađenim solarnim panelima pokazuje kako Nissan planira električnim vozilima svakodnevno dodati i do 23 km dosega bez priključivanja na mrežu.

min čitanja

Više

Tehnologija

Pametnija obrada dokumenata otključava puni potencijal RAG-a u industriji
Zašto mnogi industrijski chatbotovi haluciniraju i kako im semantičko „rezanje” dokumenata te obrada slika mogu vratiti vjerodostojnost.

min čitanja

Više

Tehnologija

Poziv na uklanjanje kineskih kamera s Magna Carte i Partenona
Aktivisti traže uklanjanje kineskih kamera Dahua i Hikvision s Magna Carte u Salisburyju i Partenona zbog sumnji na zloporabe protiv Ujgura i sigurnosnih hakiranja u Ukrajini.

min čitanja

Više

Tehnologija

Blue Origin pauzira svemirski turizam i preusmjerava sve snage na Mjesec
Tvrtka Jeffa Bezosa stavlja turističke letove na čekanje kako bi ubrzala razvoj lunarnog programa u sklopu NASA-ina Artemisa.

min čitanja

Više

Tehnologija

Precizna terapija mikrobioma donosi olakšanje oboljelima od sindroma iritabilnog crijeva
Nova kombinacija posebnih bakterijskih sojeva i bakteriofaga nudi ciljani pristup ublažavanju bolova, nadutosti i grčeva kod sindroma iritabilnog crijeva.

min čitanja

Više

Tehnologija

Sigurnosni alarm nakon meteorskog uzleta OpenClawa na GitHubu
OpenClaw je u tjedan dana prikupio 180 000 GitHub zvjezdica, ali i razotkrio sigurnosne propuste u više od 1 800 javno dostupnih instanci.

min čitanja

Više

Tehnologija

Arcee predstavio Trinity Large: 400-milijardni model otvorenog koda s rekordnom učinkovitošću
Arcee je lansirao Trinity Large, 400-milijardni MoE jezični model, te ponudio sirovi checkpoint TrueBase za neovisne revizije i prilagodbe.

min čitanja

Više

Tehnologija

PageIndex uvodi „navigacijsko” pretraživanje i podiže točnost RAG-a za duge dokumente
Otvoreni okvir PageIndex zamjenjuje klasično „chunk-and-embed” indeksiranje stablom sadržaja, čime poboljšava preciznost AI-a pri pretraživanju vrlo dugih i složenih dokumenata.

min čitanja

Više

Tehnologija

Rimac u St. Moritzu predstavio prvu Neveru R Founderʼs Edition
Na zaleđenom jezeru St. Moritz Rimac je isporučio prvi od svega deset primjeraka ekskluzivne Nevere R Founderʼs Edition, hiperautomobila od 2107 KS rasprodanog u tjedan dana.

min čitanja

Više

Najčitanije

Nogomet

Kramarić s dva brza pogotka utišao Union
Hrvatski napadač Andrej Kramarić postigao je dva gola u tri minute protiv Uniona Berlin, čime je došao do sedmog i osmog pogotka u Bundesligi ove sezone.

min čitanja

Više

Politika

Eksplozije u Iranu: poginuli u Bandar Abbasu i Ahvazu dok rastu napetosti s Washingtonom
Serija eksplozija u Bandar Abbasu i Ahvazu odnijela je najmanje pet života i dogodila se usred rastućih američko-iranskih napetosti.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Vijesti

Lažni policajci namamili 63-godišnjaka: policija razotkrila dobro osmišljenu telefonsku prijevaru
Zagrebačka policija kazneno prijavila četvoricu muškaraca koji su se predstavljali kao policajci i 63-godišnjaku uzeli novac, upozorava građane da policija nikada ne traži financijske podatke telefonom.

min čitanja

Više

Vijesti

Sinjanin pao s 3,5 kg kokaina i vojnim snajperom
Uhićen 42-godišnji Sinjanin: zaplijenjeno više od 3,5 kilograma kokaina i poluautomatski snajper M76

min čitanja

Više

Rukomet

Sigurdsson traži maksimum u borbi za europsku broncu protiv Islanda
Izbornik Dagur Sigurdsson ističe da su dvoboji za broncu posebni i najavljuje detaljnu analizu prethodnih susreta prije okršaja s Islandom na Europskom prvenstvu.

min čitanja

Više

Politika

Hajdaš Dončić obećao kraće radno vrijeme i jače oporezivanje kapitala
Predsjednik SDP-a na konvenciji stranke predstavio plan s kraćim radnim vremenom, višim porezima na kapital i oštrim kritikama HDZ-a.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986Autor Social Democratic Party of Croatia - https://flickr.com/photos/59485410@N07/29007717956, CC BY 2.0, https://commons.wikimedia.org/w/index.php?curid=153450927

min čitanja

Više

Politika

Grafiti mržnje u Zagrebu: poziv na ubojstvo Milorada Pupovca oslikan u pothodniku
Na zidu zagrebačkog pothodnika ispisan je grafit s pozivom na ubojstvo Milorada Pupovca. Zastupnik SDSS-a poručuje da je riječ o nastavku kulture mržnje koja se slobodno širi javnim prostorom.
Autor Kepkke. - Моја особна архива. Kepkke., Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=15184061

min čitanja

Više

Najnovije

Vijesti

Dokumenti otkrivaju: Epstein je tjedan dana prije smrti vagao suradnju s tužiteljima

Sport

Skelin nakon poraza u Gorici: „Moramo šutjeti, raditi i pokazati što je Hajduk”

Sport

Riječki odbojkaši pobjedom u Varaždinu učvrstili bijeg od dna

Sport

Kvarner jedva sačuvao pobjedu protiv Cedevite Junior i prekinuo crni niz

Sport

Mlačić seli u Udinese: Hajduk inkasira 5,5 milijuna eura

Politika

Plenković: transatlantski dijalog ključan unatoč napetostima

Vijesti

Puntanje kmetov najavilo spektakl Seljačke bune u Stubici

Politika

Hrvatska zabranila ulazak svećeniku SPC-a zbog izjave o Hrvatima u Crnoj Gori

Sport

Memorijalni kickboxing kup u Gospiću odaje počast heroju Gavranu

Vijesti

Prekinuta potraga za posadom potonulog ribarskog broda kod Massachusettsa

Politika

Gorani ostaju bez povrata putnih troškova za liječenje: „Pravila su uvredljiva i diskriminirajuća”