Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Saya menghabiskan 25 tahun di industri pertahanan (dengan 8+ berseragam, 2+ di zona perang).
Saya tidak mencintai PKT, tetapi tidak peduli bagaimana saya memandang pemerintah Tiongkok, perusahaan riset AI mereka melakukan banyak hal baik dan pantas mendapatkan pujian.
Bagi siapa pun yang berpikir Deepseek adalah semacam "aktor jahat", ingatlah bahwa jika mereka merahasiakan jenis inovasi ini, kemungkinan besar mereka akan mendahului perusahaan AS dan kita akan kalah dalam perlombaan AI. Perusahaan seperti @deepseek_ai dan @Alibaba_Qwen secara aktif membantu memajukan AI SOTA di AS dan di seluruh dunia, dan tidak meminta imbalan apa pun.
Dan mereka melakukannya bukan karena tekanan yang luar biasa <cough>gpt-oss<cough>, tetapi karena mereka ingin berbagi penelitian dan model mereka dengan orang-orang yang menjalankannya pada data pribadi mereka, tanpa khawatir akan dikumpulkan oleh pihak ke-3, digunakan untuk iklan, atau dibagikan.
Sementara perusahaan seperti Anthropic secara aktif mencoba mendorong lebih banyak peraturan, dan OpenAI merahasiakan inovasi, pengujian, dan sistem mereka, laboratorium Tiongkok ini mendorong industri ke depan sambil dipukul oleh Western Media dan NIST.
Pujian untuk Anda. Terus membawanya.

Andrej Karpathy21 Okt, 06.13
Saya cukup menyukai makalah DeepSeek-OCR baru. Ini adalah model OCR yang bagus (mungkin sedikit lebih buruk dari titik), dan ya pengumpulan data dll., Tapi bagaimanapun itu tidak masalah.
Bagian yang lebih menarik bagi saya (terutama sebagai visi komputer di hati yang untuk sementara menyamar sebagai orang bahasa alami) adalah apakah piksel adalah input yang lebih baik untuk LLM daripada teks. Apakah token teks boros dan mengerikan, pada input.
Mungkin lebih masuk akal bahwa semua input ke LLM hanya boleh berupa gambar. Bahkan jika Anda kebetulan memiliki input teks murni, mungkin Anda lebih suka merendernya dan kemudian memasukkannya:
- Kompresi informasi lebih banyak (lihat makalah) => jendela konteks yang lebih pendek, lebih efisiensi
- aliran informasi yang jauh lebih umum => bukan hanya teks, tetapi misalnya teks tebal, teks berwarna, gambar sewenang-wenang.
- Input sekarang dapat diproses dengan perhatian dua arah dengan mudah dan sebagai default, bukan perhatian regresif otomatis - jauh lebih kuat.
- hapus tokenizer (di input)!! Saya sudah mengoceh tentang betapa saya tidak menyukai tokenizer. Tokenizer jelek, terpisah, bukan tahap ujung ke ujung. Ini "mengimpor" semua keburukan Unicode, pengkodean byte, mewarisi banyak bagasi historis, risiko keamanan/jailbreak (misalnya byte kelanjutan). Itu membuat dua karakter yang terlihat identik dengan mata terlihat sebagai dua token yang sama sekali berbeda secara internal dalam jaringan. Emoji tersenyum terlihat seperti token aneh, bukan... wajah tersenyum yang sebenarnya, piksel dan semuanya, dan semua pembelajaran transfer yang dibawa. Tokenizer harus pergi.
OCR hanyalah salah satu dari banyak tugas teks > visi yang berguna. Dan tugas teks -> teks dapat dibuat menjadi tugas visi->teks. Tidak sebaliknya.
Begitu banyak pesan Pengguna adalah gambar, tetapi dekoder (respons Asisten) tetap teks. Jauh lebih jelas bagaimana menghasilkan piksel secara realistis... atau jika Anda mau.
Sekarang saya juga harus melawan keinginan untuk mencari sampingan versi nanochat khusus input gambar...
392,34K
Bisakah kita menyatukan "America's Got Talent - AI Edition" dengan juri sebagai @karpathy, @drfeifei, dan @ClementDelangue?
Saya merasa itu akan menjadi hit ...
Lihat siapa yang membangun hal yang paling gila. Juri maju hingga 3 final, kemudian publik memberikan suara untuk memenangkan hadiah $ 1 juta.
11,11K
Teratas
Peringkat
Favorit