Ein Sprachmodell mit 1 Billiarde Parametern ist nicht ganz ausgeschlossen (abgesehen davon, woher man all diese Daten bekommt) obwohl man wahrscheinlich 25 % mehr GPUs als dies für den Kontext und den KV-Cache benötigen würde 100.000 H100s könnten das wahrscheinlich schaffen