Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco ENG+GTM, investering i Tower Research Ventures | dele mine nysgjerrigheter og hvordan bruke AI gjennomtenkt | @stanfordhai @bloombergbeta @launchdarkly
DeepSeek-OCR-resultater på legehåndskrift ...
Fra college-lesbarhet til praktiserende legekaos.
Hvis vi skalerer mot uendelige kontekstvinduer + sanntidsintelligens, kan det hende vi trenger mindre, raskere, multimodale modeller med effektiv komprimering, ikke skalering av LLM-er.
For kanskje komprimering bare er intelligens.
Prediksjon: DeepSeekV4 vil være en VLM. Denne OCR-artikkelen er teaseren.

478
Er en piksel verdt tusen ord?
DeepSeek-OCR sier ja.
Jeg testet det på legehåndskrift, fra college-lesbarhet til praktiserende legekaos.
Hvis vi skalerer mot uendelige kontekstvinduer + sanntidsintelligens, kan det hende vi trenger mindre multimodale modeller med effektiv komprimering, ikke bare skalering av LLM-er. For kanskje komprimering bare er intelligens ...
Prediksjon: DeepSeekV4 vil være en VLM. Denne OCR-artikkelen er teaseren.


Andrej Karpathy21. okt., 06:13
Jeg liker den nye DeepSeek-OCR-artikkelen ganske godt. Det er en god OCR-modell (kanskje litt verre enn prikker), og ja datainnsamling osv., men uansett spiller det ingen rolle.
Den mer interessante delen for meg (spesielt som et datasyn i hjertet som midlertidig maskerer seg som en naturlig språkperson) er om piksler er bedre innganger til LLM-er enn tekst. Om teksttokens er bortkastet og bare forferdelig, ved inngangen.
Kanskje det gir mer mening at alle inndata til LLM-er bare skal være bilder. Selv om du tilfeldigvis har ren tekstinndata, foretrekker du kanskje å gjengi den og deretter mate den inn:
- mer informasjonskomprimering (se artikkelen) => kortere kontekstvinduer, mer effektivitet
- betydelig mer generell informasjonsstrøm => ikke bare tekst, men f.eks. fet tekst, farget tekst, vilkårlige bilder.
- Inndata kan nå behandles med toveis oppmerksomhet enkelt og som standard, ikke autoregressiv oppmerksomhet - mye kraftigere.
- slett tokenizeren (ved inngangen)!! Jeg har allerede raljert om hvor mye jeg misliker tokenizeren. Tokenizere er stygge, separate, ikke ende-til-ende-stadiet. Den "importerer" all styggheten til Unicode, byte-kodinger, den arver mye historisk bagasje, sikkerhets-/jailbreak-risiko (f.eks. fortsettelsesbyte). Det får to tegn som ser identiske ut for øyet til å se ut som to helt forskjellige tokens internt i nettverket. En smilende emoji ser ut som et merkelig token, ikke en... Faktisk smilende ansikt, piksler og alt, og all overføringslæringen som følger med. Tokenizeren må bort.
OCR er bare en av mange nyttige syns- > tekstoppgaver. Og tekst- > tekstoppgaver kan gjøres til visjons- >tekstoppgaver. Ikke omvendt.
Så mange brukermeldingen er bilder, men dekoderen (assistentens svar) forblir tekst. Det er mye mindre åpenbart hvordan man sender ut piksler realistisk ... eller hvis du vil.
Nå må jeg også kjempe mot trangen til å sidesøke en versjon av nanochat med kun bildeinndata...
29
Hjerneråte krasjer LLM-intelligens.
Forskere viser at søppelnettdata forårsaker permanent kognitiv nedgang i LLM. Akkurat som mennesker som doomscroller.
>Forfall i resonnement (ARC) 74.9->57.2, langkontekstminne (RULER) 84.4->52.3. LLM-er hopper i hovedsak tankekjeden rett inn i hallusinasjoner.
>Når de evalueres på personlighetstrekk, viser modellene økt narsissisme og psykopatimarkører.
Etter hvert som slop mater neste generasjon AI-modeller og algoritmer skyver dem til toppen, forringes datakvaliteten ytterligere – og skaper en endeløs sløyfe.
Som @ilyasut sa, er slutten på fortreningen her.

106
Topp
Rangering
Favoritter