Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Emmett Shear
CEO van Softmax: Toegepast ontwikkelingsonderzoek naar cybernetica
Zeer cool werk van Erik dat verduidelijkt wat de distributie van causaliteit over schalen aandrijft.

Erik Hoel23 okt, 01:52
NIEUWE PAPER ALERT:🚨🚨🚨
Een verbeterde Causal Emergence 2.0 (beter, sneller, sterker) van @Abelaer en mijzelf is nu beschikbaar.
We tonen aan hoe we systemen kunnen ontwerpen die ofwel echt complex zijn (oorzaak verspreid over de multiscale structuur) OF slechts een enkele emergente macroschaal hebben.

7,49K
Het beste hieraan is dat welk lettertype je ook traint, het een subliminaal signaal zal worden en als je lettertypen verandert op basis van de gegevensbron, zal de AI veel slimmer worden.

Andrej Karpathy21 okt, 06:13
Ik vind het nieuwe DeepSeek-OCR-paper best leuk. Het is een goed OCR-model (misschien iets slechter dan dots), en ja, dataverzameling enzovoort, maar het maakt niet uit.
Het interessantste deel voor mij (vooral als iemand die van nature een computer vision persoon is en tijdelijk zich voordoet als een taalpersoon) is of pixels betere inputs voor LLM's zijn dan tekst. Of teksttokens verspilling zijn en gewoon verschrikkelijk, als input.
Misschien is het logischer dat alle inputs voor LLM's alleen maar afbeeldingen zouden moeten zijn. Zelfs als je toevallig pure tekstinput hebt, misschien geef je er de voorkeur aan om het weer te geven en dat dan in te voeren:
- meer informatiecompressie (zie paper) => kortere contextvensters, meer efficiëntie
- aanzienlijk meer algemene informatiestroom => niet alleen tekst, maar bijvoorbeeld vetgedrukte tekst, gekleurde tekst, willekeurige afbeeldingen.
- input kan nu gemakkelijk en standaard met bidirectionele aandacht worden verwerkt, niet autoregressieve aandacht - veel krachtiger.
- verwijder de tokenizer (bij de input)!! Ik heb al geklaagd over hoezeer ik de tokenizer niet leuk vind. Tokenizers zijn lelijk, apart, geen end-to-end fase. Het "importeert" al het lelijke van Unicode, byte-encoderingen, het erft veel historische bagage, beveiligings-/jailbreakrisico (bijv. voortgangsbytes). Het maakt van twee karakters die identiek lijken voor het oog, twee volkomen verschillende tokens intern in het netwerk. Een glimlachende emoji lijkt op een vreemd token, niet op een... echte glimlachende gezicht, pixels en al, en al het transferleren dat daarbij komt. De tokenizer moet weg.
OCR is slechts een van de vele nuttige vision -> teksttaken. En tekst -> teksttaken kunnen worden omgevormd tot vision -> teksttaken. Niet omgekeerd.
Dus veel de gebruikersboodschap is afbeeldingen, maar de decoder (de assistentrespons) blijft tekst. Het is veel minder voor de hand liggend hoe je pixels realistisch kunt outputten... of je dat zou willen.
Nu moet ik ook de neiging bestrijden om een zijpad te nemen naar een alleen-afbeelding-input versie van nanochat...
9,57K
Boven
Positie
Favorieten

