sterkt støttet. Modellene våre lærer søppel, og jeg tror det ikke bare er en flat ytelsesskatt – det legger til overfladiskhet, uønsket memorering og "piggete singulariteter" som sannsynligvis øker med skalaen. Jeg lurer på hvordan forskjellige sparsitetsmetoder bidrar til problemet.