Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Jag tillbringade 25 år i försvarsindustrin (med 8+ i uniform, 2+ i krigszoner).
Jag har ingen kärlek till KKP, men oavsett hur jag ser på Kinas regering, så gör deras AI-forskningsföretag mycket gott och förtjänar lite beröm.
Till alla som tror att Deepseek är någon form av "dålig aktör", kom ihåg att om de höll den här typen av innovationer hemliga är det troligt att de skulle dra ifrån amerikanska företag och vi skulle förlora AI-racet. Företag som @deepseek_ai och @Alibaba_Qwen hjälper aktivt till att utveckla SOTA AI i USA och runt om i världen och ber inte om något i gengäld.
Och de gör det inte på grund av överväldigande påtryckningar <cough>gpt-oss<cough>, utan för att de vill dela med sig av sin forskning och sina modeller till människor som kör dem på deras privata data, utan att oroa sig för att den samlas in av tredje part, används för annonser eller delas.
Medan företag som Anthropic aktivt försöker driva på för fler regleringar, och OpenAI håller sina innovationer, tester och system hemliga, driver dessa kinesiska laboratorier branschen framåt samtidigt som de blir nedslagna av västerländska medier och NIST(?).
Kudos till dig. Fortsätt att ta med den.

Andrej Karpathy21 okt. 06:13
Jag gillar verkligen det nya DeepSeek-OCR-pappret. Det är en bra OCR-modell (kanske lite sämre än prickar), och ja datainsamling etc., men det gör ändå inget.
Den mer intressanta delen för mig (särskilt som en datorseende i hjärtat som tillfälligt maskerar sig som en person med naturligt språk) är om pixlar är bättre ingångar till LLM:er än text. Om texttoken är slösaktiga och bara hemska, vid indata.
Kanske är det mer meningsfullt att alla ingångar till LLM:er bara ska vara bilder. Även om du råkar ha ren textinmatning kanske du föredrar att rendera den och sedan mata in den:
- Mer informationskomprimering (se papper) = > kortare kontextfönster, mer effektivitet
- Betydligt mer allmän informationsström = > inte bara text, utan t.ex. fet text, färgad text, godtyckliga bilder.
- Inmatning kan nu enkelt bearbetas med dubbelriktad uppmärksamhet och som standard, inte autoregressiv uppmärksamhet - mycket kraftfullare.
- Ta bort tokenizern (vid ingången)!! Jag har redan rantat om hur mycket jag ogillar tokenizern. Tokenizers är fula, separata, inte från början till slut. Den "importerar" all fulhet i Unicode, byte-kodningar, den ärver en hel del historiskt bagage, säkerhets-/jailbreak-risk (t.ex. fortsättningsbyte). Det gör att två tecken som ser identiska ut med ögat ser ut som två helt olika tokens internt i nätverket. En leende emoji ser ut som en konstig token, inte en... Faktiskt leende ansikte, pixlar och allt, och all överföringsinlärning som det medför. Tokeniseraren måste gå.
OCR är bara en av många användbara visuella > textuppgifter. Och text-> textuppgifter kan göras till vision->textuppgifter. Inte tvärtom.
Så många användarmeddelanden är bilder, men avkodaren (assistentsvaret) förblir text. Det är mycket mindre uppenbart hur man matar ut pixlar realistiskt ... eller om du vill.
Nu måste jag också kämpa mot lusten att sidequesta en version av nanochat som bara är för bildinmatning...
392,33K
Topp
Rankning
Favoriter