Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM open source teratas memiliki beberapa perbedaan menarik dalam arsitektur dan metode pelatihan.
Saya membaca semua makalah secara mendalam untuk memecahnya dalam video ini (dan debut saya di YouTube 😅 YC)
Lihat dan beri tahu saya pendapat Anda!

29 Agu 2025
OpenAI baru-baru ini merilis model bobot terbuka pertamanya sejak GPT-2, memasuki bidang yang dipimpin oleh DeepSeek dan Qwen dari Alibaba.
Ankit (@GuptaAnkitV) memecah model OSS teratas ini, termasuk apa yang membedakannya di bawah tenda: campuran ahli, pelatihan konteks panjang, dan teknik pasca-pelatihan yang membentuk penalaran dan penyelarasan—dan bagaimana pilihan desain yang berbeda mengarah pada kinerja yang sangat serupa.
00:00 – Peluncuran OpenAI OSS
01:00 – Membandingkan Arsitektur LLM Open Source
01:46 – Ikhtisar GPT OSS
02:37 – Di Bawah Tenda GPT OSS
03:25 – Arsitektur Qwen-3
04:17 – Pelatihan Qwen-3
05:12 – Qwen-3 Pasca-Pelatihan
06:08 – Qwen-3 Penalaran & Inovasi RL
06:52 – Ikhtisar DeepSeek V3
07:40 – Pembaruan DeepSeek V3.1
08:39 – Mekanisme Perhatian (MLA)
09:39 – Membandingkan Ukuran Model
10:35 – Strategi Konteks Panjang
11:25 – Refleksi tentang Metode
12:00 – Kesimpulan
52,02K
Teratas
Peringkat
Favorit