Saya memutuskan untuk mengambil Model Penalaran Hierarkis dan menampar tokenizer teks di atasnya hanya untuk melihat akan terjadi. Melatihnya pada kumpulan data instruksi-tuning (Alpaca), terkejut melihat kerugian turun menjadi ~ 1,9. Menghasilkan sampah yang berpatterend dengan baik saat ini masih, mungkin perlu pra-pelatihan, tetapi ini agak besar jika berhasil...
262