Một mô hình ngôn ngữ với 1 triệu tỷ tham số không hoàn toàn là điều không thể (ngoài việc lấy tất cả dữ liệu đó từ đâu) mặc dù bạn có thể cần 25% GPU nhiều hơn so với điều này cho ngữ cảnh và bộ nhớ KV 100.000 H100 có thể làm được điều đó