一个1千万亿参数的语言模型并不是完全不可能(除了从哪里获取所有这些数据) 不过你可能需要比这多25%的GPU来处理上下文和KV缓存 100,000个H100可能可以做到