Mulai menakutkan ketika model mulai bekerja dengan sangat baik pada tolok ukur yang Anda pikir akan memakan waktu bertahun-tahun. Seperti apa yang Anda maksud model mendapatkan 30-40% pada ARC AGI 2, ketika mereka hampir tidak bisa mendapatkan 40% pada arc AGI 1, awal tahun ini. Saya telah bekerja dengan dan di ARC selama bertahun-tahun. Ini adalah kemajuan yang belum pernah terjadi sebelumnya bahkan untuk pelatihan pada set pengujian