gpt-ossがトレーニングデータを記憶していたかどうかはわかりますか?つまり、推論と暗唱のポイントは?暗記と推論中に内部で何が起こっているかを理解するために、20B モデルの損失ランドスケープの曲率を簡単に調べました
22.7K