un modello linguistico con 1 quadrilione di parametri non è del tutto fuori questione (a parte da dove prendere tutti quei dati) anche se probabilmente avresti bisogno del 25% in più di GPU rispetto a questo per il contesto e la cache KV 100.000 H100 potrebbero probabilmente farcela