Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco ENG+GTM, investire in Tower Research Ventures | condividere le mie curiosità e come applicare l'intelligenza artificiale in modo ponderato | @stanfordhai @bloombergbeta @launchdarkly
Risultati di DeepSeek-OCR sulla scrittura a mano dei medici...
Dalla leggibilità universitaria al caos dei medici praticanti.
Se stiamo scalando verso finestre di contesto infinite + intelligenza in tempo reale, potremmo aver bisogno di modelli più piccoli, più veloci e multimodali con compressione efficiente, non di LLM in espansione.
Perché forse la compressione è solo intelligenza.
Previsione: DeepSeekV4 sarà un VLM. Questo documento OCR è il teaser.

5,9K
Un pixel vale mille parole?
DeepSeek-OCR dice di sì.
L'ho testato sulla scrittura a mano dei medici, dalla leggibilità del college al caos dei medici praticanti.
Se stiamo scalando verso finestre di contesto infinite + intelligenza in tempo reale, potremmo aver bisogno di modelli multimodali più piccoli con compressione efficiente, non semplicemente di scalare i LLM. Perché forse la compressione è solo intelligenza...
Previsione: DeepSeekV4 sarà un VLM. Questo documento OCR è il teaser.


Andrej Karpathy21 ott, 06:13
Mi piace abbastanza il nuovo documento DeepSeek-OCR. È un buon modello OCR (forse un po' peggiore di dots), e sì, la raccolta dei dati ecc., ma comunque non importa.
La parte più interessante per me (soprattutto essendo un appassionato di visione artificiale che si sta temporaneamente spacciando per una persona di linguaggio naturale) è se i pixel siano migliori input per i LLM rispetto al testo. Se i token di testo siano spreconi e semplicemente terribili, come input.
Forse ha più senso che tutti gli input ai LLM dovrebbero essere solo immagini. Anche se ti capita di avere input di puro testo, forse preferiresti renderizzarlo e poi fornirlo:
- maggiore compressione delle informazioni (vedi documento) => finestre di contesto più brevi, maggiore efficienza
- flusso di informazioni significativamente più generale => non solo testo, ma ad esempio testo in grassetto, testo colorato, immagini arbitrarie.
- l'input può ora essere elaborato facilmente e per default con attenzione bidirezionale, non attenzione autoregressiva - molto più potente.
- elimina il tokenizer (all'input)!! Ho già lamentato quanto disprezzi il tokenizer. I tokenizer sono brutti, separati, non sono una fase end-to-end. "Importano" tutta la bruttezza di Unicode, delle codifiche byte, ereditano un sacco di bagagli storici, rischi di sicurezza/jailbreak (ad esempio, byte di continuazione). Fanno sembrare due caratteri che appaiono identici all'occhio come due token completamente diversi internamente nella rete. Un'emoji sorridente sembra un token strano, non un... vero volto sorridente, pixel e tutto, e tutto l'apprendimento trasferito che porta con sé. Il tokenizer deve andare.
L'OCR è solo uno dei tanti compiti utili di visione -> testo. E i compiti di testo -> testo possono essere trasformati in compiti di visione -> testo. Non viceversa.
Quindi molti messaggi dell'utente sono immagini, ma il decodificatore (la risposta dell'assistente) rimane testo. È molto meno ovvio come output realisticamente i pixel... o se lo vorresti.
Ora devo anche combattere l'impulso di deviare in una versione di nanochat solo con input di immagini...
578
Il decadimento cognitivo dei LLM è causato da dati web spazzatura.
I ricercatori dimostrano che i dati scadenti causano un declino cognitivo permanente nei LLM, esattamente come gli esseri umani che fanno doomscrolling.
>Decadenza nel ragionamento (ARC) 74.9->57.2, memoria a lungo termine (RULER) 84.4->52.3. I LLM saltano essenzialmente la catena di pensiero direttamente nelle allucinazioni.
>Quando valutati su tratti della personalità, i modelli mostrano un aumento dei marcatori di narcisismo e psicopatia.
Mentre il cibo spazzatura nutre la prossima generazione di modelli AI e gli algoritmi li spingono in cima, la qualità dei dati degrada ulteriormente—creando un ciclo infinito.
Come ha detto @ilyasut, la fine del pretraining è qui.

654
Principali
Ranking
Preferiti

