Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Rihard Jarc
Investor & penulis di UncoverAlpha. Tweet hanyalah opini. Meneliti dan membagikan temuan sektor teknologi secara detail (+14k pelanggan).
Pendapat saya tentang GPU yang memiliki kegunaan hidup 1-2 tahun yang nyata, bukan +4 tahun membuka banyak pertanyaan, jadi izinkan saya menjelaskan secara lebih rinci:
Pertama, semua argumen tandingan adalah sebagai berikut "tetapi H100, A100 masih digunakan dan mereka berusia 3-5 tahun", "pelanggan akan menggunakan GPU lama untuk beban kerja inferensi", "teknologi besar menggunakan GPU lama untuk beban kerja internal"
Inilah mengapa ini adalah pemikiran yang salah:
1. Orang lupa bahwa $NVDA telah beralih ke siklus produk 1 tahun pada tahun 2024 (tidak lebih cepat!), jadi Blackwell masih merupakan produk dari siklus produk 2 tahun. Sebelum Blackwell Hopper -H100, H200 adalah produknya, dan sebelum itu, A100 adalah produknya. Jadi pertama-tama, H100 bukanlah produk berusia 3 tahun; ini adalah produk berusia 1 tahun dalam hal siklus produk (tepat setelah Blackwell). Nvidia juga mulai mengirimkan H100 dengan volume serius pada awal tahun 2023. Ke depan mulai hari ini, setiap tahun kita akan mendapatkan produk baru yang akan jauh lebih berkinerja (10x-30x) dan efisien daripada generasi sebelumnya, jadi tidak setiap 2 tahun tetapi setiap tahun.
2. Kami bertransisi dari dunia di mana setiap penyebaran GPU/akselerator tambahan bersifat inkremental ke dunia di mana sebagian besar penyebaran adalah penggantian (bukan bertahap), karena kami terbatas. Kami dibatasi oleh daya dan pusat data yang tersedia. Jadi, tentu saja, ketika Anda memiliki banyak ruang & daya pusat data, Anda juga akan menggunakan GPU "lama", karena Anda memiliki cukup ruang untuk menerapkannya. Tetapi begitu Anda kehabisan ruang penyebaran itu dan terbatas, faktor pembatas Anda adalah daya, jadi Anda mencari berapa banyak token yang Anda hasilkan per watt yang Anda miliki. Jika generasi baru GPU memberi Anda 10x token/watt dari yang sebelumnya, jika Anda ingin tumbuh dan melayani lebih banyak klien, Anda harus menggantinya dengan generasi baru, dan Anda tidak dapat "menggunakan" GPU "lama", karena Anda tidak memiliki tempat untuk menerapkannya. Sekali lagi, hal yang perlu dipahami adalah bahwa kita beralih dari GPU langka ke POWER langka, dan ini mengubah banyak hal.
3. Untuk melukiskan gambaran "oh, tapi GPU lama akan digunakan untuk beban kerja internal" adalah salah. Hanya ada segelintir perusahaan yang memiliki kemewahan memiliki bisnis cloud mereka sendiri, ditambah juga memiliki bisnis konsumen atau perusahaan besar, yang dapat mengambil beberapa GPU lama ini (sekali lagi, bahkan kasus penggunaan ini akan berkurang secara drastis saat kita memasuki fase yang dijelaskan dalam argumen 2). Penyedia cloud tidak akan memiliki permintaan yang cukup dan margin yang baik untuk menjalankan GPU generasi "lama" untuk pelanggan cloud, karena GPU ini bukanlah aset yang hanya menghasilkan uang setelah Anda membelinya; mereka juga mahal. Mereka membutuhkan daya (harga listrik naik), biaya pendinginan, dan biaya pemeliharaan.
4. Inferensi dengan model pemikiran dan penalaran telah berubah secara drastis. Sekarang, model yang lebih kecil dan kurang berkinerja dalam hal parameter dapat berkinerja lebih baik daripada model yang lebih besar, jika Anda memberinya lebih banyak komputasi di sisi inferensi "untuk berpikir". Komputasi inferensi juga merupakan paradigma penskalaan baru. Artinya, perbedaannya jika Anda menjalankan inferensi pada H100, atau B300, atau B200 sangat besar. Kami juga memindahkan pasar dari beban kerja pelatihan ke inferensi. Dengan pelatihan, metrik terpenting laboratorium penelitian AI adalah kinerja dan kecepatan di mana mereka dapat melatih model baru. Karena kita sekarang memasuki era inferensi, metrik yang paling penting adalah biaya, jadi jika B300 memberi Anda 10x-30x jumlah token dengan biaya yang sama dengan GPU yang lebih lama, Anda akan menggantinya, karena Anda ingin melayani klien sebanyak mungkin, dan Anda ingin mendapatkan keuntungan. Menurut laporan terbaru, OAI kehilangan $3 untuk setiap $1 yang diperolehnya. Ini tidak akan bertahan selamanya, dan salah satu hal terpenting yang harus diubah adalah menjalankan inferensi pada GPU/akselerator yang baru dan efisien.
332,62K
TPU $GOOGL, dalam jangka panjang, mungkin akan menjadi salah satu investasi terbaik mereka dalam sejarah.
- $GOOGL memproses lebih dari 1,3 kuadriliun token/bulan
- API OpenAI memproses 260 triliun/bulan
$GOOGL dengan ikhtisar AI dan Gemini sudah menunjukkan kepada Anda seberapa biaya/efektif Anda dapat menjalankan GenAI dengan bantuan TPU dalam skala besar.
106,59K
Teratas
Peringkat
Favorit