Un model de limbaj de 1 cvadrilion de parametri nu este complet exclus (în afară de unde să obțineți toate aceste date) deși probabil ați avea nevoie de 25% mai multe GPU-uri decât acesta pentru context și cache KV 100.000 de H100 ar putea probabil să o facă