Am putea spune dacă gpt-oss își memora datele de antrenament? Adică, puncte în care este raționament vs recitant? Am aruncat o privire rapidă asupra curburii peisajului de pierdere al modelului 20B pentru a înțelege memorarea și ce se întâmplă intern în timpul raționamentului
22,71K