Kunde vi se om gpt-oss memorerade sina träningsdata? D.v.s. punkter där det är resonemang kontra recitation? Vi tog en snabb titt på krökningen av förlustlandskapet i 20B-modellen för att förstå memorering och vad som händer internt under resonemanget
40,96K