1兆パラメータの言語モデルは、完全に問題外というわけではありません(すべてのデータを取得する場所は別として) コンテキストとKVキャッシュには、おそらくこれよりも25%多くのGPUが必要になりますが 100,000万台のH100はおそらくそれを行うことができます