Jeśli wytrenujesz ogromny model i nie zastosujesz bardzo silnej regularizacji, to będzie on dopasowywał się do domeny. Geniusz modeli językowych polega na tym, że jeśli domena obejmuje całą ludzką wiedzę, którą możemy zapisać, istnieje wiele rzeczy, do których jest on przydatny w ramach tej samej dystrybucji.
Ale nie ma powodu, aby oczekiwać, że to będzie się generalizować poza rozkład, szczególnie. Dlatego modele językowe, jak są obecnie trenowane, zawsze będą miały trudności z rozwijaniem granicy wiedzy, mimo że są bardzo dobre w interpolowaniu luk.
Świat jest niestacjonarny, rozkład docelowy zmienia się w czasie. Dlatego LLM-y zaczynają tak dobrze, jak tylko mogą, a z czasem powoli stają się gorsze. Oczywiście będą osiągać te same wyniki w starych benchmarkach, ale subtelnie będą gorsze we wszystkich zadaniach w rzeczywistym świecie.
Możesz w pewnym stopniu naprawić ten problem, uwzględniając dane z różnych okresów i regularizując między erami, ale ostatecznie nauczy to model tylko tego, jak radzić sobie ze sposobami, w jakie świat zmieniał się w przeszłości, co jest podzbiorem tego, jak zmieni się w przyszłości.
@joaoabrantis
Emmett Shear
Emmett Shear9 sie, 23:00
Istnieją dwa rodzaje generalizacji w systemach uczenia się: strukturalna i dynamiczna. Generalizacja strukturalna polega na konsolidacji różnych wymiarów w jeden, a generalizacja dynamiczna polega na uczeniu się podejmowania działań, które umożliwiają naukę w różnych środowiskach.
18,22K