المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أتساءل عما إذا كان يمكن أيضا توسيع "وحدات البكسل مقابل الرموز المميزة" إلى "الصوت مقابل النص".
معظم اللغات التي تم التحدث بها على الإطلاق ليس لها شكل مكتوب. يضيع الكثير من المعلومات الغنية (النغمة ، النص الفرعي ، العروض) عندما نقوم بتسطيح الكلمات المنطوقة في نص.
قد تكون تجربة ممتعة لمقارنة LLMS "المتعلمين" (المدربين على صور النص) مقابل LLMS "الشفوي" (المدربين على الصوت الخام) ، ورسم موازية للمجتمعات البشرية: يفكر المرء في الرموز والمكان ، والآخر في الإيقاع والوقت.

21 أكتوبر 2025
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter.
The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input.
Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in:
- more information compression (see paper) => shorter context windows, more efficiency
- significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images.
- input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful.
- delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go.
OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa.
So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to.
Now I have to also fight the urge to side quest an image-input-only version of nanochat...
ستكون لعبة بين حضارة تبني آثارا من الحجر مقابل حضارة تبني المعالم الأثرية في الأغنية
شيء آخر يتبادر إلى الذهن هو أوزيمانديا لشيلي ، الآثار الضخمة المدفونة في الرمال ، ومع ذلك لا يتم تسليم هذه الصور من خلال عيون الشاعر ولكن قصة شفهية لمسافر.
8.08K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

