een taalmodel met 1 quadrillion parameters is niet helemaal uit de lucht gegrepen (afgezien van waar je al die data vandaan haalt) hoewel je waarschijnlijk 25% meer GPU's nodig zou hebben dan dit voor context en KV-cache 100.000 H100's zouden het waarschijnlijk kunnen doen