Začínám mít pocit, že tento gpt oss byl trénován na 20T tokenech destilovaných bezpečných, možná dokonce benchmaxxed dat z o3. Zdá se, že pod tím není žádný základní model.. Je to phi 5 maxx?
Čekání na @karan4d a @repligate jeho průzkumy lol
@karan4d @repligate Pokud se jedná o čistě destilační předtrénink, pak nemohl existovat žádný "základní model", který by bylo možné uvolnit, protože nikdy žádný neexistoval
@karan4d @repligate Model je doslova neschopen fungovat, pokud nepoužívá svou šablonu chatu? Nikdy jsem to neviděl na modelu, který byl předtrénován na nezpracovaném internetovém textu
60,6K