CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

21. listopada 2025, 20:19

DeepSeek predstavio OCR koji deset puta skraćuje tekst i otvara put golemoj kontekstualnoj memoriji

DeepSeek objavio potpuno otvoren OCR model koji tekst komprimira kroz slike, omogućujući deset puta veće kontekstualne prozore za velike jezične modele.

min. čitanja

Kineska istraživačka tvrtka DeepSeek ponovno je uzdrmala pretpostavke o troškovima i metodama razvoja umjetne inteligencije. Najnoviji model, nazvan DeepSeek-OCR, objavljen je s potpunim otvorenim kodom i težinama, a nudi ono što autori nazivaju „inverzijom paradigme” u obradi jezika: tekst pretvara u vizualni zapis i tako ga komprimira i do deset puta učinkovitije od uobičajenih tekstualnih tokena.

„Through DeepSeek-OCR, we demonstrate that vision-text compression can achieve significant token reduction (7-20×) for different historical context stages, offering a promising direction for addressing long-context challenges in large language models”, navodi se u službenom radu. U praksi to znači da bi budući jezični modeli mogli odjednom obuhvaćati desetke milijuna tokena – višestruko više od današnjih granica.

Programer i su-osnivač OpenAI-ja Andrej Karpathy u objavi je reagirao riječima: „Maybe it makes more sense that all inputs to LLMs should only ever be images… Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in.” Njegov komentar odražava osjećaj dijela zajednice da bi vizualni pristup mogao postati novi standard u obradi jezika.

Ključne komponente • DeepEncoder – vizualni enkoder od 380 milijuna parametara koji spaja lokalnu percepciju iz Meta-ina SAM-a i globalno razumijevanje iz OpenAI-jevog CLIP-a te dodatno koristi modul za 16-struku kompresiju. • Mixture-of-experts dekoder – jezični model od 3 milijarde parametara (570 milijuna aktivnih) koji prevodi vizualne tokene natrag u tekst.

U testiranju na skupu Fox, model je s tek 100 vizualnih tokena dosegnuo 97,3 % točnosti na dokumentima sa 700–800 tekstualnih tokena, što predstavlja kompresijski omjer 7,5 : 1. Čak i pri omjerima blizu 20 : 1 preciznost je ostala oko 60 %.

Prijenos u praksi DeepSeek tvrdi da jedno Nvidia A100-40G grafičko procesorsko sučelje može obraditi više od 200 000 stranica dnevno. Skupina od 20 poslužitelja, svaki s osam takvih GPU-ova, prema projekciji doseže 33 milijuna stranica dnevno – dovoljno za brzo slaganje golemih skupova podataka za treniranje drugih AI sustava.

Podloga za uspjeh nalazi se i u opsežnoj obuci: 30 milijuna PDF-ova na oko 100 jezika, od čega 25 milijuna na kineskom i engleskom, te devet vrsta dokumenata – od znanstvenih radova do rukom pisanih bilješki.

Za razliku od mnogih komercijalnih laboratorija, DeepSeek je sve – od težina do skripti za inferenciju – postavio na GitHub i Hugging Face, gdje je repozitorij u samo 24 sata prikupio više od 4 000 zvjezdica.

Otvorena objava potiče pitanje skrivaju li drugi laboratoriji slične tehnologije, ali i nudi istraživačima širom svijeta alat koji bi mogao proširiti granice konteksta velikih jezičnih modela brže nego što se do jučer smatralo mogućim.

#openai#hugging-face#deepseek#deepseek-ocr#andrej-karpathy
View post on X

Slično

Tehnologija

OpenAI predstavio ChatGPT Atlas: preglednik koji razgovara s korisnikom
Atlas za macOS odmah je dostupan, a inačice za druge platforme stižu uskoro. OpenAI tvrdi da novi preglednik spaja klasično surfanje i dijalog s umjetnom inteligencijom, dok za napredne funkcije angažira posebne agente.
TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Claude Code stiže na web i iOS: Anthropic otvara put asinkronom ‘vibe’ programiranju
Anthropic proširuje dostupnost Claude Codea na web i iOS, omogućujući asinkrono programiranje u oblaku uz naglasak na sigurnost i paralelne zadatke.

min čitanja

Više

Tehnologija

Tužba razotkriva navodnu kripto-shemu: Melania Trump poslužila kao mamac
Investitori optužuju suosnivače Meteore i Kelsier Labsa da su uz pomoć slavnih lica pumpali i rušili vrijednost najmanje 15 tokena, a $MELANIA je nakon kratkog uzleta izgubila 95 % vrijednosti.

min čitanja

Više

Tehnologija

Google AI Studio uvodi 'vibe coding': izradite i objavite aplikaciju u nekoliko minuta
Googleov AI Studio dobio je redizajn koji omogućuje svakome da pomoću umjetne inteligencije izgradi i pokrene web-aplikaciju bez pisanog koda i bez kreditne kartice.

min čitanja

Više

Tehnologija

Alibaba proširio Qwen Deep Research: od izvještaja do web-stranice i podcasta u dva klika
Alibabin alat Qwen Deep Research sada u istom sučelju generira izvještaj, web-stranicu i višeglasni podcast, bez potrebe za dodatnom infrastrukturom.

min čitanja

Više

Tehnologija

Pad AWS-a otkrio krhkost studentskog života oslonjenog na Canvas
Višesatni pad Amazon Web Servicesa u SAD-u onemogućio je milijunima studenata pristup Canvasu, ključnom alatu za nastavu i učenje, ističući koliko je visoko obrazovanje postalo ovisno o jednoj platformi.

min čitanja

Više

Tehnologija

BoodleBox udružio snage s Microsoftom radi odgovornog uvođenja umjetne inteligencije u obrazovanje
Migracija BoodleBoxa na Microsoft Azure donosi skalabilniju, sigurniju i ekološki učinkovitiju umjetnu inteligenciju školama i sveučilištima.

min čitanja

Više

Tehnologija

Tvrtke troše milijune na umjetnu inteligenciju, ali povrat ostaje maglovit
Istraživanja Apptia i Gartnera upozoravaju: proračuni za umjetnu inteligenciju rastu, no manji dio uprava vidi zadovoljavajući povrat. Stručnjaci predlažu TBM okvir kako bi se ulaganja povezala s konkretnom poslovnom vrijednošću.

min čitanja

Više

Tehnologija

EU digitalna lisnica na udaru kritika: kriptografi upozoravaju na mehanizme nadzora
Kriptografski stručnjaci upozoravaju da EU-ov digitalni identitet krije opcije za praćenje i isključivanje korisnika te traže primjenu naprednijih zaštita privatnosti prije uvođenja.

min čitanja

Više

Tehnologija

Hrvatski tim otkrio novu ulogu proteina CENP-E u sprječavanju pogrešaka stanične diobe
Istraživači Instituta Ruđer Bošković preispitali dvadesetogodišnje dogme o proteinu CENP-E i otvorili nova vrata za borbu protiv raka.

min čitanja

Više

Najčitanije

Politika

Preminula Šima Krasić, prva glavna državna revizorica
U Zagrebu je, nakon duge bolesti, preminula Šima Krasić, prva glavna državna revizorica i dugogodišnja čelnica Državnog ureda za reviziju.

min čitanja

Više

Nogomet

Barcelona pregazila Olympiacos, Oršićev Pafos izdržao s igračem manje
Hat-trick Fermina Lópeza donio je Barceloni visokih 6-1 protiv Olympiacosa, dok je Pafos s Mislavom Oršićem izborio 0-0 u Almati unatoč isključenju već u 4. minuti.

min čitanja

Više

Nogomet

Mafija ušla na tribine: Juve Stabia pod sudskom upravom zbog utjecaja Camorre
Talijanski drugoligaš Juve Stabia stavljen je pod sudsku upravu nakon što su tužitelji otkrili kako je napuljska mafija Camorra preuzela kontrolu nad ključnim segmentima poslovanja kluba.

min čitanja

Više

Vijesti

Vlada ograničila rad trgovina na blagdan Svih svetih
Na blagdan Svih svetih smiju raditi samo cvjećarnice i štandovi; inspekcije najavile pojačane kontrole.

min čitanja

Više

Najnovije

Politika

Quito pušta preživjelog iz „narko-podmornice”, Washingtonova ofenziva izaziva gnjev Latinske Amerike

Vijesti

Mimohod u Vranjicu: građani odaju počast žrtvama azbesta iz tvornice Salonit

Politika

Kurti najavio dogovor s Ujedinjenim Kraljevstvom o suzbijanju ilegalnih migracija

Politika

Čelnici 19 članica EU-a traže bržu deregulaciju i redovite izvještaje Komisije

Politika

Bruxelles najavljuje strateške zalihe ključnih minerala za jačanje industrijske autonomije EU-a

Vijesti

Električni bicikli povezuju Šestanovac, Cistu Provo i Zagvozd

Politika

Grčka blokirala spominjanje globalne pristojbe za brodarstvo u pripremama EU za COP30

Vijesti

Prevaranti otvorili lažnu stranicu za donacije nakon pogibije dvaju malteških parova kod Senja

Lifestyle

Pukao petomjesečni brak Igora Kojića i Sofije Dacić zbog njezinih pjevačkih ambicija

Lifestyle

Kostimografkinja Jenny Beavan otkrila: glumci masovno dolaze na probe bez donjeg rublja

Vijesti

Luksuzna rezidencija princa Andrewa pod povećalom javnosti