Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Ik heb 25 jaar in de defensie-industrie gewerkt (waarvan 8+ in uniform, 2+ in oorlogsgebieden).
Ik heb geen liefde voor de CCP, maar hoe ik de regering van China ook bekijk, hun AI-onderzoeksbedrijven doen veel goeds en verdienen enige erkenning.
Aan iedereen die denkt dat Deepseek een soort "slechte speler" is, herinner je dat als ze dit soort innovaties geheim hielden, het waarschijnlijk zou gebeuren dat ze voorlopen op Amerikaanse bedrijven en we de AI-race zouden verliezen. Bedrijven zoals @deepseek_ai en @Alibaba_Qwen helpen actief de SOTA AI in de VS en de rest van de wereld vooruit, en vragen daar niets voor terug.
En ze doen dit niet vanwege overweldigende druk <cough>gpt-oss<cough>, maar omdat ze hun onderzoek en modellen willen delen met mensen die ze op hun privédata draaien, zonder zich zorgen te maken dat het wordt verzameld door derden, gebruikt voor advertenties of gedeeld.
Terwijl bedrijven zoals Anthropic actief proberen te pleiten voor meer regelgeving, en OpenAI hun innovaties, tests en systemen geheim houdt, duwen deze Chinese laboratoria de industrie vooruit terwijl ze worden bekritiseerd door de Westerse media en NIST(?).
Kudos aan jullie. Blijf het doen.

Andrej Karpathy21 okt, 06:13
Ik vind het nieuwe DeepSeek-OCR-paper best leuk. Het is een goed OCR-model (misschien iets slechter dan dots), en ja, dataverzameling enzovoort, maar het maakt niet uit.
Het interessantste deel voor mij (vooral als iemand die van nature een computer vision persoon is en tijdelijk zich voordoet als een taalpersoon) is of pixels betere inputs voor LLM's zijn dan tekst. Of teksttokens verspilling zijn en gewoon verschrikkelijk, als input.
Misschien is het logischer dat alle inputs voor LLM's alleen maar afbeeldingen zouden moeten zijn. Zelfs als je toevallig pure tekstinput hebt, misschien geef je er de voorkeur aan om het weer te geven en dat dan in te voeren:
- meer informatiecompressie (zie paper) => kortere contextvensters, meer efficiëntie
- aanzienlijk meer algemene informatiestroom => niet alleen tekst, maar bijvoorbeeld vetgedrukte tekst, gekleurde tekst, willekeurige afbeeldingen.
- input kan nu gemakkelijk en standaard met bidirectionele aandacht worden verwerkt, niet autoregressieve aandacht - veel krachtiger.
- verwijder de tokenizer (bij de input)!! Ik heb al geklaagd over hoezeer ik de tokenizer niet leuk vind. Tokenizers zijn lelijk, apart, geen end-to-end fase. Het "importeert" al het lelijke van Unicode, byte-encoderingen, het erft veel historische bagage, beveiligings-/jailbreakrisico (bijv. voortgangsbytes). Het maakt van twee karakters die identiek lijken voor het oog, twee volkomen verschillende tokens intern in het netwerk. Een glimlachende emoji lijkt op een vreemd token, niet op een... echte glimlachende gezicht, pixels en al, en al het transferleren dat daarbij komt. De tokenizer moet weg.
OCR is slechts een van de vele nuttige vision -> teksttaken. En tekst -> teksttaken kunnen worden omgevormd tot vision -> teksttaken. Niet omgekeerd.
Dus veel de gebruikersboodschap is afbeeldingen, maar de decoder (de assistentrespons) blijft tekst. Het is veel minder voor de hand liggend hoe je pixels realistisch kunt outputten... of je dat zou willen.
Nu moet ik ook de neiging bestrijden om een zijpad te nemen naar een alleen-afbeelding-input versie van nanochat...
392,33K
Boven
Positie
Favorieten