DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Jeffrey Emanuel

DeepSeek baru saja merilis makalah baru yang cukup mengejutkan. Mereka benar-benar mengubur lede di sini dengan menyebutnya hanya sebagai DeepSeek OCR. Meskipun ini adalah model OCR yang sangat kuat, tujuannya dan implikasi dari pendekatan mereka jauh melampaui apa yang Anda harapkan dari "model OCR lainnya." Secara tradisional, token LLM visi hampir tampak seperti renungan-renungan atau "melesatkan" pada paradigma LLM. Dan 10 ribu kata bahasa Inggris akan memakan jauh lebih banyak ruang dalam LLM multimodal ketika dinyatakan sebagai piksel yang dapat dipahami daripada ketika dinyatakan sebagai token. Jadi 10 ribu kata itu mungkin telah berubah menjadi 15 ribu token, atau 30 ribu hingga 60 ribu "token visual". Jadi token visi jauh kurang efisien dan benar-benar masuk akal untuk digunakan untuk data yang tidak dapat disampaikan secara efektif dengan kata-kata. Tapi itu terbalik sekarang dari ide-ide dalam makalah ini. DeepSeek menemukan cara mendapatkan kompresi 10x lebih baik menggunakan token penglihatan daripada dengan token teks! Jadi, secara teoritis, Anda dapat menyimpan 10 ribu kata itu hanya dalam 1.500 token visual terkompresi khusus mereka. Ini mungkin tidak terduga seperti kedengarannya jika Anda memikirkan bagaimana pikiran Anda sendiri bekerja. Lagi pula, saya tahu bahwa ketika saya mencari bagian dari buku yang telah saya baca, saya membayangkannya secara visual dan selalu mengingat di sisi mana buku itu berada dan kira-kira di mana di halaman itu berada, yang menunjukkan semacam representasi memori visual di tempat kerja. Sekarang, tidak jelas bagaimana tepatnya ini berinteraksi dengan fungsi kognitif hilir lainnya dari LLM; Dapatkah model bernalar dengan cerdas atas token visual terkompresi tersebut seperti yang dapat dilakukan menggunakan token teks biasa? Apakah itu membuat model kurang artikulasi dengan memaksanya ke dalam modalitas yang lebih berorientasi pada visi? Tetapi Anda dapat membayangkan bahwa, tergantung pada pengorbanan yang tepat, itu bisa menjadi sumbu baru yang sangat menarik untuk memperluas ukuran konteks yang efektif. Terutama jika dikombinasikan dengan makalah terbaru DeepSeek lainnya dari beberapa minggu yang lalu tentang perhatian yang jarang. Untuk semua yang kita tahu, Google bisa saja sudah menemukan sesuatu seperti ini, yang dapat menjelaskan mengapa Gemini memiliki ukuran konteks yang begitu besar dan sangat bagus dan cepat dalam tugas OCR. Jika mereka melakukannya, mereka mungkin tidak akan mengatakan karena itu akan dipandang sebagai rahasia dagang yang penting. Tetapi hal yang menyenangkan tentang DeepSeek adalah mereka telah membuat semuanya open source dan bobot terbuka dan menjelaskan bagaimana mereka melakukannya, jadi sekarang semua orang dapat mencobanya dan menjelajah. Bahkan jika trik ini membuat perhatian lebih merugikan, potensi mendapatkan LLM perbatasan dengan jendela konteks 10 atau 20 juta token cukup menarik. Anda pada dasarnya dapat menjejalkan semua dokumen internal utama perusahaan ke dalam pembukaan prompt dan meng-cache ini dengan OpenAI dan kemudian menambahkan kueri atau prompt spesifik Anda di atasnya dan tidak perlu berurusan dengan alat pencarian dan tetap membuatnya cepat dan hemat biaya. Atau masukkan seluruh basis kode ke dalam konteks dan cache, lalu terus menambahkan yang setara dengan git diffs saat Anda membuat perubahan pada kode. Jika Anda pernah membaca cerita tentang fisikawan hebat Hans Bethe, dia dikenal karena memiliki sejumlah besar fakta fisik acak yang dihafal (seperti seluruh tabel periodik; titik didih berbagai zat, dll.) sehingga dia dapat berpikir dan menghitung dengan mulus tanpa harus mengganggu alirannya untuk mencari sesuatu di tabel referensi. Memiliki sejumlah besar pengetahuan khusus tugas dalam memori kerja Anda sangat berguna. Ini tampaknya seperti pendekatan yang sangat cerdas dan aditif untuk berpotensi memperluas bank memori itu sebesar 10x atau lebih.

Teratas

Peringkat

Favorit