Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Am petrecut 25 de ani în industria de apărare (cu 8+ în uniformă, 2+ în zone de război).
Nu iubesc PCC, dar indiferent de modul în care văd guvernul Chinei, companiile lor de cercetare AI fac mult bine și merită un anumit credit.
Pentru oricine crede că Deepseek este un fel de "actor rău", amintiți-vă că, dacă ar păstra secrete aceste tipuri de inovații, este probabil să depășească companiile americane și am pierde cursa AI. Companii precum @deepseek_ai și @Alibaba_Qwen ajută în mod activ la avansarea SOTA AI în SUA și în întreaga lume și nu cer nimic în schimb.
Și fac acest lucru nu din cauza presiunii copleșitoare <cough>gpt-oss<cough>, ci pentru că vor să-și împărtășească cercetările și modelele cu oamenii care le rulează pe datele lor private, fără să-și facă griji că acestea vor fi colectate de terți, folosite pentru reclame sau partajate.
În timp ce companii precum Anthropic încearcă în mod activ să facă presiuni pentru mai multe reglementări, iar OpenAI își păstrează inovațiile, testele și sistemele secrete, aceste laboratoare chineze împing industria înainte, în timp ce sunt criticate de Western Media și NIST.
Felicitări vouă. Continuați să o aduceți.

Andrej Karpathy21 oct., 06:13
Îmi place destul de mult noua lucrare DeepSeek-OCR. Este un model OCR bun (poate puțin mai rău decât punctele), și da, colectarea de date etc., dar oricum nu contează.
Partea mai interesantă pentru mine (mai ales ca viziune computerizată care se deghizează temporar într-o persoană de limbaj natural) este dacă pixelii sunt intrări mai bune pentru LLM-uri decât textul. Dacă jetoanele de text sunt risipitoare și pur și simplu groaznice, la intrare.
Poate că are mai mult sens ca toate intrările la LLM-uri să fie doar imagini. Chiar dacă se întâmplă să aveți o intrare de text pur, poate ați prefera să o redați și apoi să o introduceți:
- mai multă compresie a informațiilor (vezi lucrarea) = > ferestre de context mai scurte, mai multă eficiență
- Flux de informații semnificativ mai general = > nu doar text, ci de exemplu text îngroșat, text colorat, imagini arbitrare.
- intrarea poate fi acum procesată cu atenție bidirecțională cu ușurință și implicit, nu cu atenție autoregresivă - mult mai puternică.
- ștergeți tokenizatorul (la intrare)!! Am vorbit deja despre cât de mult nu-mi place tokenizatorul. Tokenizatorii sunt urâți, separați, nu de la un capăt la altul. "Importă" toată urâțenia Unicode, codificările de octeți, moștenește o mulțime de bagaje istorice, risc de securitate/jailbreak (de exemplu, octeți de continuare). Face ca două personaje care arată identic cu ochiul să arate ca două jetoane complet diferite intern în rețea. Un emoji zâmbitor arată ca un jeton ciudat, nu un... față zâmbitoare reală, pixeli și toate celelalte, și toată învățarea prin transfer pe care o aduce. Tokenizatorul trebuie să dispară.
OCR este doar una dintre multele sarcini utile de > text vizual. Iar sarcinile text > text pot fi transformate în sarcini de viziune >text. Nu invers.
Atât de multe mesaje de utilizator sunt imagini, dar decodorul (răspunsul Asistentului) rămâne text. Este mult mai puțin evident cum să scoateți pixelii în mod realist... sau dacă doriți.
Acum trebuie să mă lupt și cu dorința de a căuta o versiune a nanochat-ului doar cu intrare de imagine...
392,33K
Limită superioară
Clasament
Favorite