Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco ENG+GTM, investerar på Tower Research Ventures | dela min nyfikenhet och hur man tillämpar AI eftertänksamt | @stanfordhai @bloombergbeta @launchdarkly
DeepSeek-OCR resultat på läkares handstil...
Från läsbarhet på college till praktiserande läkarekaos.
Om vi skalar mot oändliga kontextfönster + realtidsintelligens kan vi behöva mindre, snabbare, multimodala modeller med effektiv komprimering, inte skalning av LLM:er.
För kanske är komprimering bara intelligens.
Förutsägelse: DeepSeekV4 kommer att vara en VLM. Det här OCR-pappret är teasern.

5,96K
Säger en pixel mer än tusen ord?
DeepSeek-OCR säger ja.
Jag testade det på läkares handstil, från läsbarhet på universitetet till att praktisera läkarkaos.
Om vi skalar mot oändliga kontextfönster + realtidsintelligens kan vi behöva mindre multimodala modeller med effektiv komprimering, inte bara skalning av LLM:er. För kanske är komprimering bara intelligens...
Förutsägelse: DeepSeekV4 kommer att vara en VLM. Det här OCR-pappret är teasern.


Andrej Karpathy21 okt. 2025
Jag gillar verkligen det nya DeepSeek-OCR-pappret. Det är en bra OCR-modell (kanske lite sämre än prickar), och ja datainsamling etc., men det gör ändå inget.
Den mer intressanta delen för mig (särskilt som en datorseende i hjärtat som tillfälligt maskerar sig som en person med naturligt språk) är om pixlar är bättre ingångar till LLM:er än text. Om texttoken är slösaktiga och bara hemska, vid indata.
Kanske är det mer meningsfullt att alla ingångar till LLM:er bara ska vara bilder. Även om du råkar ha ren textinmatning kanske du föredrar att rendera den och sedan mata in den:
- Mer informationskomprimering (se papper) = > kortare kontextfönster, mer effektivitet
- Betydligt mer allmän informationsström = > inte bara text, utan t.ex. fet text, färgad text, godtyckliga bilder.
- Inmatning kan nu enkelt bearbetas med dubbelriktad uppmärksamhet och som standard, inte autoregressiv uppmärksamhet - mycket kraftfullare.
- Ta bort tokenizern (vid ingången)!! Jag har redan rantat om hur mycket jag ogillar tokenizern. Tokenizers är fula, separata, inte från början till slut. Den "importerar" all fulhet i Unicode, byte-kodningar, den ärver en hel del historiskt bagage, säkerhets-/jailbreak-risk (t.ex. fortsättningsbyte). Det gör att två tecken som ser identiska ut med ögat ser ut som två helt olika tokens internt i nätverket. En leende emoji ser ut som en konstig token, inte en... Faktiskt leende ansikte, pixlar och allt, och all överföringsinlärning som det medför. Tokeniseraren måste gå.
OCR är bara en av många användbara visuella > textuppgifter. Och text-> textuppgifter kan göras till vision->textuppgifter. Inte tvärtom.
Så många användarmeddelanden är bilder, men avkodaren (assistentsvaret) förblir text. Det är mycket mindre uppenbart hur man matar ut pixlar realistiskt ... eller om du vill.
Nu måste jag också kämpa mot lusten att sidequesta en version av nanochat som bara är för bildinmatning...
654
Hjärnröta kraschar LLM-intelligens.
Forskare visar att skräpwebbdata orsakar permanent kognitiv försämring hos LLM:er. Precis som människor som doomscrollar.
>Förfall i resonemang (ARC) 74.9->57.2, långtidskontextminne (RULER) 84.4->52.3. LLM:er hoppar i princip över tankekedjan rakt in i hallucinationer.
> När modeller utvärderas på personlighetsdrag visar de ökade markörer för narcissism och psykopati.
I takt med att slop matas med nästa generations AI-modeller och algoritmer pressas de till toppen, försämras datakvaliteten ytterligare – vilket skapar en oändlig loop.
Som @ilyasut sa är slutet på förträningen här.

714
Topp
Rankning
Favoriter

