En språkmodell med 1 kvadrillion parameter er ikke helt uaktuelt (foruten hvor man kan få alle disse dataene fra) selv om du sannsynligvis trenger 25 % flere GPUer enn dette for kontekst og KV-cache 100 000 H100-er kan sannsynligvis gjøre det