Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers memposting ulang
Memperkenalkan DeepConf: Berpikir Mendalam dengan Percaya Diri
🚀 Metode pertama untuk mencapai 99.9% di AIME 2025 dengan model sumber terbuka! Menggunakan GPT-OSS-120B bahkan tanpa alat, kami mencapai akurasi yang hampir sempurna ini sambil menghemat hingga 85% token yang dihasilkan.
Ini juga memberikan banyak keuntungan kuat untuk pemikiran paralel:
🔥 Peningkatan kinerja: ~10% akurasi di seluruh model & kumpulan data
⚡ Sangat efisien: Token yang dihasilkan hingga 85% lebih sedikit
🔧 Plug & play: Bekerja dengan model yang ada APAPUN - tidak diperlukan pelatihan (tidak ada penyetelan hiperparameter juga!)
⭐ Mudah diterapkan: Hanya ~50 baris kode di vLLM (lihat PR di bawah)
📚 Kertas:
🌐 Proyek:
Bekerja bersama dengan: @FuYichao123, xuewei_wang, @tydsh
(lihat detail di komentar di bawah)
408,66K
Tim Dettmers memposting ulang
Bisakah kita memecahkan dinding memori untuk inferensi LLM melalui rematerialisasi cache KV?
🚨 Memperkenalkan XQuant, yang memanfaatkan unit komputasi yang kurang dimanfaatkan untuk menghilangkan kemacetan memori untuk inferensi LLM!
• Penghematan memori 10–12,5x vs. FP16
• Kehilangan akurasi mendekati nol
• Mengalahkan kuantisasi🔥 KV canggih
Wawasan utama:
1. Cache KV = kemacetan → tumbuh secara linier dengan panjang konteks + ukuran batch.
2. Komputasi memori >> → GPU menawarkan urutan besarnya FLOP lebih cepat daripada bandwidth memori.
3. Ide kunci → jangan menyimpan KV, cukup hitung ulang. 🧠
Karena inferensi LLM biasanya terikat memori-bandwidth, unit komputasi seringkali menganggur dan kurang dimanfaatkan. Jadi, kita dapat menggunakan komputasi yang tersedia ini tanpa overhead apa pun!
Tren perangkat keras GPU menunjukkan bahwa kemampuan komputasi menskalakan jauh lebih cepat daripada bandwidth memori. Dengan demikian, mengurangi operasi memori dengan imbalan lebih banyak komputasi dapat membantu mempercepat inferensi LLM. Cache KV tumbuh secara linier dengan panjang urutan dan ukuran batch, menimbulkan sebagian besar operasi memori selama inferensi LLM. Jika kita dapat memperdagangkan komputasi tambahan untuk menghindari pemuatan dan penyimpanan cache KV, kita dapat mempercepat inferensi!
XQuant mengeksploitasi tren perangkat keras ini: 🧵 [1/7]
Kertas:
Kerja bersama dengan: @coleman_hooper1 @mjlee_official dari @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang dari @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,43K
Dalam pandangan saya, SWE-bench dan T-bench adalah beberapa tolok ukur yang memiliki sinyal baik dalam hal seberapa banyak kemajuan yang kita buat dengan model. Model ini berkinerja sebaik Qwen3 Coder dan hanya 10% lebih buruk dari GPT-5, sementara juga menjadi LLM tujuan umum daripada khusus kode.

Z.ai11 Agu, 11.43
Mempresentasikan laporan teknis GLM-4.5! 👇
Pekerjaan ini menunjukkan bagaimana kami mengembangkan model yang unggul dalam penalaran, pengkodean, dan tugas agen melalui paradigma pelatihan multi-tahap yang unik.
Inovasi utama termasuk iterasi model ahli dengan distilasi mandiri untuk menyatukan kemampuan, mode penalaran hibrida untuk pemecahan masalah dinamis, dan kurikulum pembelajaran penguatan berbasis kesulitan.

28,62K
Tampaknya lanskap sumber tertutup vs bobot terbuka telah diratakan. GPT-5 hanya 10% lebih baik dalam pengkodean daripada model bobot terbuka yang dapat Anda jalankan di desktop konsumen dan segera laptop. Jika Anthropic tidak dapat menghasilkan model yang bagus, maka kita mungkin tidak akan melihat AGI untuk sementara waktu.
67,22K
Tim Dettmers memposting ulang
Hujan pikiran: Alih-alih menyimpan pembayaran Twitter/X Anda, arahkan ke "PayoutChallenge" pilihan Anda - apa pun yang Anda inginkan lebih banyak di dunia!
Inilah milik saya untuk putaran ini, menggabungkan 3 pembayaran terakhir saya sebesar $5478.51:
Sangat penting bahwa umat manusia tidak jatuh saat AI naik. Kemanusiaan harus terus bangkit, menjadi lebih baik di samping. Buat sesuatu yang dirancang khusus untuk mengangkat manusia tim. Definisi sengaja dibiarkan agak kabur untuk menjaga beberapa entropi di sekitar interpretasi orang, tetapi contoh imo meliputi:
- Setiap perangkat lunak yang membantu penjelasan, visualisasi, hafalan, inspirasi, pemahaman, koordinasi, dll...
- Tidak harus terlalu tinggi, misalnya bisa berupa artikel/video pendidikan tertentu yang menjelaskan sesuatu yang dapat dimanfaatkan oleh beberapa orang lain atau yang Anda miliki pengetahuan unik.
- Pemintaan/agen untuk penjelasan, misalnya sejalan dengan mode studi ChatGPT yang baru dirilis.
- Karya seni terkait
Tantangan ini akan berlangsung selama 2 minggu hingga 17 Agustus EOD PST. Kirimkan kontribusi Anda sebagai balasan. Itu harus menjadi sesuatu yang diciptakan secara unik untuk tantangan ini dan tidak akan ada sebaliknya. Kriteria termasuk eksekusi, leverage, kebaruan, inspirasi, estetika, hiburan. Orang dapat memberikan suara positif kepada kiriman dengan menyukai, "pilihan orang" ini juga akan menjadi faktor. Saya akan memutuskan pemenang pada 17 Agustus dan mengirim $5478.51 :)
677,06K
Tim Dettmers memposting ulang
Beberapa pembaruan 🚨
Saya menyelesaikan gelar Ph.D saya di @uwcse pada Juni 2025!
Setelah setahun di AI2 sebagai Ilmuwan Riset, saya bergabung dengan CMU @LTIatCMU & @mldcmu (istimewa) sebagai Asisten Profesor pada Musim Gugur 2026.
Perjalanan, pengakuan & perekrutan di 🧵


98,86K
Tim Dettmers memposting ulang
Mengumumkan pekerjaan awal kami tentang inferensi FP4 untuk LLM!
- QuTLASS: dukungan kernel presisi rendah untuk GPU Blackwell
- FP-Quant: harness kuantisasi fleksibel untuk Llama/Qwen
Kami mencapai percepatan 4x vs BF16, dengan akurasi yang baik melalui skala mikro MXFP4 + rotasi Hadamard yang menyatu.


22,62K
Tim Dettmers memposting ulang
Tokenisasi hanyalah kasus khusus dari "chunking" - membangun data tingkat rendah menjadi abstraksi tingkat tinggi - yang pada gilirannya mendasar bagi kecerdasan.
Arsitektur baru kami, yang memungkinkan *pemotongan dinamis* hierarkis, tidak hanya bebas tokenizer, tetapi hanya menskalakan lebih baik.

194,8K
Tim Dettmers memposting ulang
Himpunan data terbesar dari Kode GPU yang ditulis manusia semuanya open-source? 👀 YA Tolong! Kami di @GPU_MODE telah merilis sekitar 40 ribu 🚀 sampel kode yang ditulis manusia yang mencakup Triton, Hip dan PyTorch dan semuanya terbuka di @huggingface Hub. Latih GPT baru untuk membuat GPT lebih cepat ⚡️
Tautan di bawah ini ⬇️
28,92K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal