stark unterstützt. Unsere Modelle lernen Müll und ich denke, es ist nicht nur eine flache Leistungssteuer – es fügt Oberflächlichkeit, unerwünschte Memorierung und "spiky singularities" hinzu, die wahrscheinlich mit der Skalierung zunehmen. Ich frage mich, wie verschiedene Sparsamkeitsmethoden zu dem Problem beitragen.