Un modelo de lenguaje de parámetros de 1 cuatrillón no está completamente descartado (además de dónde obtener todos esos datos) aunque probablemente necesitaría un 25% más de GPU que esta para el contexto y la caché de KV 100.000 H100 probablemente podrían hacerlo