sangat didukung. Model kami belajar sampah dan saya pikir itu bukan hanya pajak kinerja tetap – itu menambahkan kedangkalan, hafalan yang tidak diinginkan dan "singularitas runcing" yang mungkin meningkat seiring dengan skala. Saya bertanya-tanya bagaimana metode sparsity yang berbeda berkontribusi pada masalah ini.