Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Membangun @EurekaLabsAI. Sebelumnya Direktur AI @ Tesla, tim pendiri @ OpenAI, CS231n/PhD @ Stanford. Saya suka melatih jaring saraf dalam yang besar.
Saya cukup menyukai makalah DeepSeek-OCR baru. Ini adalah model OCR yang bagus (mungkin sedikit lebih buruk dari titik), dan ya pengumpulan data dll., Tapi bagaimanapun itu tidak masalah.
Bagian yang lebih menarik bagi saya (terutama sebagai visi komputer di hati yang untuk sementara menyamar sebagai orang bahasa alami) adalah apakah piksel adalah input yang lebih baik untuk LLM daripada teks. Apakah token teks boros dan mengerikan, pada input.
Mungkin lebih masuk akal bahwa semua input ke LLM hanya boleh berupa gambar. Bahkan jika Anda kebetulan memiliki input teks murni, mungkin Anda lebih suka merendernya dan kemudian memasukkannya:
- Kompresi informasi lebih banyak (lihat makalah) => jendela konteks yang lebih pendek, lebih efisiensi
- aliran informasi yang jauh lebih umum => bukan hanya teks, tetapi misalnya teks tebal, teks berwarna, gambar sewenang-wenang.
- Input sekarang dapat diproses dengan perhatian dua arah dengan mudah dan sebagai default, bukan perhatian regresif otomatis - jauh lebih kuat.
- hapus tokenizer (di input)!! Saya sudah mengoceh tentang betapa saya tidak menyukai tokenizer. Tokenizer jelek, terpisah, bukan tahap ujung ke ujung. Ini "mengimpor" semua keburukan Unicode, pengkodean byte, mewarisi banyak bagasi historis, risiko keamanan/jailbreak (misalnya byte kelanjutan). Itu membuat dua karakter yang terlihat identik dengan mata terlihat sebagai dua token yang sama sekali berbeda secara internal dalam jaringan. Emoji tersenyum terlihat seperti token aneh, bukan... wajah tersenyum yang sebenarnya, piksel dan semuanya, dan semua pembelajaran transfer yang dibawa. Tokenizer harus pergi.
OCR hanyalah salah satu dari banyak tugas teks > visi yang berguna. Dan tugas teks -> teks dapat dibuat menjadi tugas visi->teks. Tidak sebaliknya.
Begitu banyak pesan Pengguna adalah gambar, tetapi dekoder (respons Asisten) tetap teks. Jauh lebih jelas bagaimana menghasilkan piksel secara realistis... atau jika Anda mau.
Sekarang saya juga harus melawan keinginan untuk mencari sampingan versi nanochat khusus input gambar...

vLLM20 Okt, 19.31
🚀 DeepSeek-OCR — perbatasan baru OCR dari @deepseek_ai, mengeksplorasi kompresi konteks optik untuk LLM, berjalan sangat cepat pada vLLM ⚡ (~2500 token/dtk pada A100-40G) — didukung oleh vllm==0.8.5 untuk dukungan model hari-0.
🧠 Mengompresi konteks visual hingga 20× sambil mempertahankan akurasi OCR 97% pada <10×.
📄 Mengungguli GOT-OCR2.0 & MinerU2.0 di OmniDocBench menggunakan lebih sedikit token penglihatan.
🤝 Tim vLLM bekerja sama dengan DeepSeek untuk menghadirkan dukungan DeepSeek-OCR resmi ke rilis vLLM berikutnya — membuat inferensi multimodal lebih cepat dan lebih mudah untuk diskalakan.
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2,51M
Kesenangan saya datang ke Dwarkesh minggu lalu, saya pikir pertanyaan dan percakapannya sangat bagus.
Saya baru saja menonton pod barusan. Pertama-tama, ya saya tahu, dan saya minta maaf karena saya berbicara begitu cepat :). Ini merugikan saya karena terkadang utas berbicara saya mengeksekusi utas pemikiran saya, jadi saya pikir saya gagal beberapa penjelasan karena itu, dan terkadang saya juga gugup karena saya terlalu banyak menyinggung atau terlalu dalam ke sesuatu yang relatif palsu. Bagaimanapun, beberapa catatan / petunjuk:
Garis waktu AGI. Komentar saya tentang garis waktu AGI tampaknya menjadi bagian paling tren dari respons awal. Ini adalah "dekade agen" adalah referensi untuk tweet sebelumnya Ini Pada dasarnya garis waktu AI saya adalah sekitar 5-10X pesimis w.r.t. apa yang akan Anda temukan di pesta rumah SF AI lingkungan Anda atau di timeline twitter Anda, tetapi masih cukup optimis dengan gelombang penyangkal AI dan skeptis yang meningkat. Konflik yang jelas tidak: imo kami secara bersamaan 1) melihat sejumlah besar kemajuan dalam beberapa tahun terakhir dengan LLM sementara 2) masih banyak pekerjaan yang tersisa (pekerjaan kasar, pekerjaan integrasi, sensor dan aktuator ke dunia fisik, pekerjaan sosial, pekerjaan keselamatan dan keamanan (jailbreak, keracunan, dll.)) dan juga penelitian yang harus dilakukan sebelum kami memiliki entitas yang lebih suka Anda pekerjakan daripada seseorang untuk pekerjaan sewenang-wenang di dunia. Saya pikir secara keseluruhan, 10 tahun seharusnya menjadi garis waktu yang sangat bullish untuk AGI, hanya berbeda dengan hype saat ini bahwa itu tidak terasa seperti itu.
Hewan vs Hantu. Tulisan saya sebelumnya di podcast Sutton . Saya curiga bahwa ada satu algoritme sederhana yang dapat Anda lepaskan di dunia dan mempelajari segalanya dari awal. Jika seseorang membangun hal seperti itu, saya akan salah dan itu akan menjadi terobosan paling luar biasa dalam AI. Dalam pikiran saya, hewan bukanlah contoh dari ini sama sekali - mereka dikemas sebelumnya dengan banyak kecerdasan oleh evolusi dan pembelajaran yang mereka lakukan cukup minimal secara keseluruhan (contoh: Zebra saat lahir). Mengenakan topi teknik kita, kita tidak akan mengulang evolusi. Tetapi dengan LLM kami telah tersandung oleh pendekatan alternatif untuk "mengemas" banyak kecerdasan dalam jaringan saraf - bukan dengan evolusi, tetapi dengan memprediksi token berikutnya melalui internet. Pendekatan ini mengarah pada jenis entitas yang berbeda di ruang intelijen. Berbeda dari hewan, lebih seperti hantu atau roh. Tapi kita dapat (dan harus) membuat mereka lebih seperti binatang dari waktu ke waktu dan dalam beberapa hal itulah yang dimaksud dengan banyak pekerjaan perbatasan.
Pada RL. Saya sudah mengkritik RL beberapa kali, misalnya . Pertama, Anda "mengisap pengawasan melalui sedotan", jadi saya pikir sinyal/kegagalan sangat buruk. RL juga sangat berisik karena penyelesaian mungkin memiliki banyak kesalahan yang mungkin mendapatkan dorongan (jika Anda kebetulan menemukan jawaban yang benar), dan sebaliknya token wawasan brilian yang mungkin akan putus asa (jika Anda mengacaukan nanti). Pengawasan proses dan hakim LLM juga memiliki masalah. Saya pikir kita akan melihat paradigma pembelajaran alternatif. Saya "interaksi agen" yang panjang tetapi "pembelajaran penguatan" singkat Saya telah melihat sejumlah makalah muncul baru-baru ini yang menggonggong pohon yang tepat di sepanjang garis yang saya sebut "pembelajaran cepat sistem", tetapi saya pikir ada juga kesenjangan antara ide-ide tentang arxiv dan implementasi aktual, dalam skala besar di laboratorium perbatasan LLM yang bekerja secara umum. Saya secara keseluruhan cukup optimis bahwa kita akan segera melihat kemajuan yang baik pada dimensi pekerjaan yang tersisa ini, dan misalnya saya bahkan akan mengatakan memori ChatGPT dan sebagainya adalah contoh paradigma pembelajaran baru yang digunakan secara primordial.
Inti kognitif. Posting saya sebelumnya tentang "inti kognitif": , gagasan untuk melucuti LLM, membuat lebih sulit bagi mereka untuk menghafal, atau secara aktif menghilangkan ingatan mereka, untuk membuat mereka lebih baik dalam generalisasi. Jika tidak, mereka terlalu bersandar pada apa yang telah mereka hafal. Manusia tidak dapat menghafal dengan mudah, yang sekarang lebih terlihat seperti fitur daripada bug sebaliknya. Mungkin ketidakmampuan untuk menghafal adalah semacam regularisasi. Juga posting saya dari beberapa waktu lalu tentang bagaimana tren ukuran model adalah "mundur" dan mengapa "model harus terlebih dahulu menjadi lebih besar sebelum mereka bisa menjadi lebih kecil"
Perjalanan waktu ke Yann LeCun 1989. Ini adalah posting yang saya jelaskan dengan sangat tergesa-gesa/buruk di pod: . Pada dasarnya - seberapa banyak Anda dapat meningkatkan hasil Yann LeCun dengan pengetahuan tentang kemajuan algoritmik selama 33 tahun? Seberapa terbatas hasil oleh masing-masing algoritma, data, dan komputasi? Studi kasus di sana.
nanochat. Implementasi end-to-end saya dari alur pelatihan/inferensi ChatGPT (yang paling penting)
Pada agen LLM. Kritik saya terhadap industri ini lebih dalam melampaui kemampuan perkakas saat ini. Saya hidup dalam apa yang saya lihat sebagai dunia menengah di mana saya ingin berkolaborasi dengan LLM dan di mana pro / kontra kami cocok. Industri ini hidup di masa depan di mana entitas yang sepenuhnya otonom berkolaborasi secara paralel untuk menulis semua kode dan manusia tidak berguna. Misalnya, saya tidak ingin Agen yang berbunyi selama 20 menit dan kembali dengan 1.000 baris kode. Saya tentu tidak merasa siap untuk mengawasi tim yang terdiri dari 10 dari mereka. Saya ingin pergi dalam potongan-potongan yang dapat saya simpan di kepala saya, di mana LLM menjelaskan kode yang ditulisnya. Saya ingin itu membuktikan kepada saya bahwa apa yang dilakukannya benar, saya ingin itu menarik dokumen API dan menunjukkan kepada saya bahwa ia menggunakan hal-hal dengan benar. Saya ingin membuat lebih sedikit asumsi dan bertanya/berkolaborasi dengan saya ketika tidak yakin tentang sesuatu. Saya ingin belajar di sepanjang jalan dan menjadi lebih baik sebagai programmer, bukan hanya disajikan gunung-gunung kode yang saya katakan berhasil. Saya hanya berpikir alat-alat tersebut harus lebih realistis dengan kemampuan mereka dan bagaimana mereka cocok dengan industri saat ini, dan saya khawatir jika ini tidak dilakukan dengan baik, kita mungkin berakhir dengan gunungan slop yang terakumulasi di seluruh perangkat lunak, dan peningkatan kerentanan, pelanggaran keamanan, dan lain-lain.
Otomatisasi pekerjaan. Bagaimana ahli radiologi melakukannya dengan baik dan pekerjaan apa yang lebih rentan terhadap otomatisasi dan mengapa.
Fisika. Anak-anak harus belajar fisika dalam pendidikan awal bukan karena mereka melanjutkan untuk melakukan fisika, tetapi karena itu adalah mata pelajaran yang paling baik membangkitkan otak. Fisikawan adalah sel punca embrionik intelektual Saya memiliki posting yang lebih panjang yang telah setengah ditulis dalam draf saya selama ~ tahun, yang saya harap dapat segera diselesaikan.
Terima kasih sekali lagi Dwarkesh karena telah mengundang saya!

Dwarkesh Patel18 Okt, 01.16
Wawancara @karpathy
0:00:00 – AGI masih satu dekade lagi
0:30:33 – Defisit kognitif LLM
0:40:53 – RL mengerikan
0:50:26 – Bagaimana manusia belajar?
1:07:13 – AGI akan menyatu dengan pertumbuhan PDB 2%
1:18:24 – ASI
1:33:38 – Evolusi kecerdasan & budaya
1:43:43 - Mengapa mengemudi sendiri memakan waktu lama
1:57:08 - Masa depan pendidikan
Cari Podcast Dwarkesh di YouTube, Apple Podcasts, Spotify, dll. Menikmati!
3,36M
TV di tahun 90-an: Anda menyalakannya, Anda menonton.
TV 2025:
- nyalakan, tunggu hingga dimuat
- popup: TV ingin memperbarui, 1.5GB. Tidak.
- Gulir ke samping, temukan aplikasi Prime Video atau dll
- popup: sekarang aplikasi ingin memperbarui, 500MB. Tidak!!
- Peluncuran aplikasi... Pemuatan aplikasi...
- Pilih layar akun
- 🫠
1,6M
Teratas
Peringkat
Favorit