GPUが+4年ではなく、実際の1〜2年の寿命有用性を持っているという私の見解は、多くの疑問を引き起こしているので、より詳細に説明しましょう。 まず、反論はすべて「しかし、H100、A100はまだ使用されており、3〜5年前のものです」、「顧客は推論ワークロードに古いGPUを使用するでしょう」、「ビッグテックは内部ワークロードに古いGPUを使用しています」です これが間違った考えである理由は次のとおりです。 1. 人々は、$NVDA が 2024 年に 1 年の製品サイクルになったことを忘れているため (それより早くは!)、Blackwell は依然として 2 年の製品サイクルの製品です。ブラックウェルホッパー-H100以前はH200が製品であり、その前にはA100が製品だった。まず第一に、H100 は 3 年前の製品ではありません。製品サイクル的には1年前の製品です(ブラックウェルのすぐ後)。Nvidia も 100 年の初めに大量の H2023 の出荷を開始しました。今日からは、毎年、前世代よりもパフォーマンスが大幅に向上し(10倍から30倍)、効率の高い新製品がリリースされるため、2年ごとではなく毎年発売されます。 2. 私たちは、GPU/アクセラレータの追加展開がすべて増分される世界から、限られているため、展開のほとんどが置き換え(増分ではない)世界に移行しています。電力と利用可能なデータセンターによって制限されています。したがって、もちろん、データセンターのスペースと電力が豊富にある場合は、それらを展開するのに十分なスペースがあるため、「古い」GPUも使用することになります。しかし、その展開スペースを使い果たして制限されると、制限要因は電力であるため、ワットあたりにどれだけのトークンを生成するかを探すことになります。新世代のGPUが前世代の10倍のトークン/ワットを提供する場合、成長してより多くのクライアントにサービスを提供したい場合は、それを新世代に置き換える必要があり、「古い」GPUを「使用する」ことはできません。繰り返しになりますが、理解すべきことは、GPU 不足から電力不足に移行しており、これにより状況が変わるということです。 3. 「ああ、でも古いGPUは内部ワークロードに使用されるだろう」というイメージを描くのは間違っています。独自のクラウドビジネスを持つという贅沢を持っている企業はほんの一握りであり、さらに、これらの古いGPUの一部を引き継ぐことができる大規模な消費者またはエンタープライズビジネスも持っています(繰り返しになりますが、これらのユースケースでさえ、議論2で説明したフェーズに入るにつれて大幅に減少します)。クラウドプロバイダーは、クラウド顧客向けに「古い」世代のGPUを実行するのに十分な需要と十分な利益率を持っていません。また、費用もかかります。電力コスト(電気料金が上昇しています)、冷却コスト、メンテナンスコストがかかります。 4. 思考モデルと推論モデルによる推論は劇的に変化しました。さて、パラメータの点で小さくてパフォーマンスの低いモデルは、推論側でより多くの計算を「考える」とすれば、大きなモデルよりも優れたパフォーマンスを発揮できます。推論コンピューティングも新しいスケーリング パラダイムです。つまり、H100、B300、B200で推論を実行した場合の違いは計り知れません。また、市場をトレーニングワークロードから推論に移行しています。トレーニングにおいて、AI 研究ラボの最も重要な指標は、パフォーマンスと新しいモデルをトレーニングできる速度でした。推論の時代に突入した今、最も重要な指標はコストであるため、B300が古いGPUと同じコストで10倍から30倍の量のトークンを提供する場合、できるだけ多くのクライアントにサービスを提供したいと考え、利益を得たいので、B300を交換することになります。最近のレポートによると、OAIは稼ぐごとに3ドルを失っています。これは永遠に続くわけではなく、変更すべき最も重要なことの 1 つは、新しい効率的な GPU/アクセラレータで推論を実行することです。