Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco eng+gtm, berinvestasi di tower research ventures | berbagi keingintahuan saya & cara menerapkan AI dengan bijaksana | @stanfordhai @bloombergbeta @launchdarkly
Hasil DeepSeek-OCR pada tulisan tangan dokter...
Dari keterbacaan perguruan tinggi hingga kekacauan dokter yang berpraktik.
Jika kita menskalakan ke jendela konteks tak terbatas + kecerdasan real-time, kita mungkin memerlukan model multimoda yang lebih kecil, lebih cepat, dengan kompresi yang efisien, bukan menskalakan LLM.
Karena mungkin kompresi hanyalah kecerdasan.
Prediksi: DeepSeekV4 akan menjadi VLM. Makalah OCR ini adalah teasernya.

5,81K
Apakah piksel bernilai seribu kata?
DeepSeek-OCR mengatakan ya.
Saya mengujinya pada tulisan tangan dokter, dari keterbacaan perguruan tinggi hingga kekacauan dokter yang berpraktik.
Jika kita menskalakan ke jendela konteks tak terbatas + kecerdasan real-time, kita mungkin memerlukan model multimoda yang lebih kecil dengan kompresi yang efisien, bukan hanya menskalakan LLM. Karena mungkin kompresi hanyalah kecerdasan...
Prediksi: DeepSeekV4 akan menjadi VLM. Makalah OCR ini adalah teasernya.


Andrej Karpathy21 Okt, 06.13
Saya cukup menyukai makalah DeepSeek-OCR baru. Ini adalah model OCR yang bagus (mungkin sedikit lebih buruk dari titik), dan ya pengumpulan data dll., Tapi bagaimanapun itu tidak masalah.
Bagian yang lebih menarik bagi saya (terutama sebagai visi komputer di hati yang untuk sementara menyamar sebagai orang bahasa alami) adalah apakah piksel adalah input yang lebih baik untuk LLM daripada teks. Apakah token teks boros dan mengerikan, pada input.
Mungkin lebih masuk akal bahwa semua input ke LLM hanya boleh berupa gambar. Bahkan jika Anda kebetulan memiliki input teks murni, mungkin Anda lebih suka merendernya dan kemudian memasukkannya:
- Kompresi informasi lebih banyak (lihat makalah) => jendela konteks yang lebih pendek, lebih efisiensi
- aliran informasi yang jauh lebih umum => bukan hanya teks, tetapi misalnya teks tebal, teks berwarna, gambar sewenang-wenang.
- Input sekarang dapat diproses dengan perhatian dua arah dengan mudah dan sebagai default, bukan perhatian regresif otomatis - jauh lebih kuat.
- hapus tokenizer (di input)!! Saya sudah mengoceh tentang betapa saya tidak menyukai tokenizer. Tokenizer jelek, terpisah, bukan tahap ujung ke ujung. Ini "mengimpor" semua keburukan Unicode, pengkodean byte, mewarisi banyak bagasi historis, risiko keamanan/jailbreak (misalnya byte kelanjutan). Itu membuat dua karakter yang terlihat identik dengan mata terlihat sebagai dua token yang sama sekali berbeda secara internal dalam jaringan. Emoji tersenyum terlihat seperti token aneh, bukan... wajah tersenyum yang sebenarnya, piksel dan semuanya, dan semua pembelajaran transfer yang dibawa. Tokenizer harus pergi.
OCR hanyalah salah satu dari banyak tugas teks > visi yang berguna. Dan tugas teks -> teks dapat dibuat menjadi tugas visi->teks. Tidak sebaliknya.
Begitu banyak pesan Pengguna adalah gambar, tetapi dekoder (respons Asisten) tetap teks. Jauh lebih jelas bagaimana menghasilkan piksel secara realistis... atau jika Anda mau.
Sekarang saya juga harus melawan keinginan untuk mencari sampingan versi nanochat khusus input gambar...
483
Busuk otak menghancurkan kecerdasan LLM.
Para peneliti menunjukkan bahwa data web sampah menyebabkan penurunan kognitif permanen pada LLM. Persis seperti manusia yang doomscroll.
>Pembusukan dalam penalaran (ARC) 74.9->57.2, memori konteks panjang (RULER) 84.4->52.3. LLM pada dasarnya melewatkan rantai pemikiran langsung ke halusinasi.
>Ketika dievaluasi pada ciri-ciri kepribadian, model menunjukkan peningkatan narsisme dan penanda psikopati.
Saat slop memberi makan model AI generasi berikutnya dan algoritme mendorongnya ke puncak, kualitas data semakin menurun—menciptakan perputaran tanpa akhir.
Seperti yang @ilyasut katakan, akhir dari prapelatihan telah tiba.

560
Teratas
Peringkat
Favorit

