🔥 Ini mengubah segalanya tentang AI konteks panjang. Sebuah makalah baru "Every Attention Matters" diam-diam baru saja menyambungkan ulang bagaimana transformer menangani 128K+ token. Tim Ling membangun perhatian "Ring-linear" hibrida yang memadukan Softmax dengan Linear Attention. Hasil? Inferensi 10x lebih murah dengan pengorbanan akurasi nol. Tapi inilah yang membuat rahang saya tercengang: +50% efisiensi pelatihan +90% kecepatan inferensi Pengoptimalan RL yang stabil di seluruh urutan ultra-panjang Tidak ada omong kosong triliunan parameter. Tidak ada perangkat keras eksotis. Hanya arsitektur yang lebih cerdas. Masa depan AI bukanlah perhatian yang lebih besar. Ini adalah perhatian yang lebih cerdas.