我對於GPU的實際使用壽命只有1-2年,而不是超過4年的看法引發了許多問題,所以讓我更詳細地解釋一下: 首先,所有的反駁論點如下:"但是H100、A100仍然在使用,它們已經3-5年了","客戶會使用舊GPU進行推理工作負載","大型科技公司正在使用舊GPU進行內部工作負載" 這就是為什麼這種思維是錯誤的: 1. 人們忘記了$NVDA在2024年已經進入了1年的產品週期(不是更早!),所以Blackwell仍然是2年產品週期的產品。在Blackwell之前,Hopper -H100、H200是產品,而在那之前,A100是產品。所以首先,H100不是一個3年的產品;就產品週期而言,它是一個1年的產品(就在Blackwell之後)。Nvidia也在2023年初開始以大量發貨H100。從今天開始,每年我們都會獲得一個新產品,其性能(10倍-30倍)和效率將顯著高於前一代,因此不是每2年,而是每年。 2. 我們正在從一個每增加一個GPU/加速器部署都是增量的世界過渡到一個大多數部署是替換(而不是增量)的世界,因為我們受到限制。我們受到電力和可用數據中心的限制。因此,當你擁有大量的數據中心空間和電力時,你也會使用"舊"GPU,因為你有足夠的空間來部署它們。但一旦你用完了部署空間並受到限制,你的限制因素就是電力,因此你會尋找每瓦特生成多少代幣。如果新一代GPU每瓦特提供10倍的代幣,而你想要增長並服務更多客戶,你將不得不用新一代替換它,因為你沒有地方來部署"舊"GPU。再次要理解的是,我們正在從GPU稀缺轉向電力稀缺,這改變了一切。 3. 認為"哦,但舊GPU將用於內部工作負載"的想法是錯誤的。只有少數幾家公司有奢侈的能力擁有自己的雲業務,並且還擁有大型消費者或企業業務,可以承擔一些這些舊GPU(再次,即使這些用例在我們進入第二個論點所描述的階段時也會大幅減少)。雲服務提供商將沒有足夠的需求和良好的利潤來為雲客戶運行"舊"一代GPU,因為這些GPU不是一旦購買就能賺錢的資產;它們也有成本。它們的電力成本(電價上漲),冷卻成本和維護成本。 4. 使用思考和推理模型的推理已經發生了巨大的變化。現在,在參數方面較小、性能較差的模型如果在推理方面給予更多計算資源"來思考",可以表現得比較大的模型更好。推理計算也是一種新的擴展範式。這意味著在H100、B300或B200上運行推理的差異是巨大的。我們也正在將市場從訓練工作負載轉向推理。在訓練中,AI研究實驗室最重要的指標是性能和他們能夠訓練新模型的速度。隨著我們現在進入推理時代,最重要的指標是成本,因此如果B300在與舊GPU相同的成本下為你提供10倍-30倍的代幣數量,你將會替換它,因為你想要服務盡可能多的客戶,並且你想要賺取一些利潤。根據最近的報告,OAI每賺取1美元就虧損3美元。這不會持續太久,而改變的最重要的事情之一是使用新的高效GPU/加速器進行推理。