Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Stavební @EurekaLabsAI. Dříve ředitel AI @ Tesla, zakládající tým @ OpenAI, CS231n/PhD @ Stanford. Rád trénuji velké hluboké neuronové sítě.
Nový příspěvek: nanochat minisérie v1
Správný způsob, jak uvažovat o LLM, je, že neoptimalizujete pro jeden konkrétní model, ale pro rodinu modelů řízených jedním kolečkem (výpočtovou kapacitou, kterou chcete vynaložit), abyste dosáhli monotónně lepších výsledků. To vám umožní provádět pečlivou vědu o škálovacích zákonech a nakonec vám to dává jistotu, že když zaplatíte za "velký běh", extrapolace bude fungovat a vaše peníze budou dobře využity. Při prvním veřejném vydání nanochatu jsem se zaměřil na end-to-end pipeline, který provozuje celý LLM pipeline se všemi jeho fázemi. Teď, po několika předchozích pokusech o YOLO, se vracím k tomu, abych rozpracoval některé části, kterými jsem prošel, samozřejmě začínaje předtréninkem, který je výpočetně náročný a zásadní jako základ inteligence a znalostí v těchto modelech.
Po lokálním ladění některých hyperparametrů jsem vyřadil několik modelů, které opravovaly rozpočet FLOP. (Pro každý cíl FLOPs můžete trénovat malý model dlouhou dobu, nebo velký model na krátkou dobu.) Ukazuje se, že nanochat dodržuje velmi pěkné škálovací zákony, v podstatě reprodukuje papírové grafy Chinchilla:
Což je jen dětská verze tohoto příběhu od Chinchilly:
Velmi důležité a povzbudivé je, že exponent na N (parametrech) a D (tokenech) je roven v bodě ~=0,5, takže stejně jako u Chinchilly máme jednu (výpočtově nezávislou) konstantu, která vztahuje velikost modelu k trénovacím horizontům tokenů. U Chinchilly bylo toto číslo naměřeno na 20. V nanochatu to vypadá na 8!
Jakmile budeme schopni trénovat optimální výpočetní modely, vyřadil jsem minisérii od d10 do d20, což jsou nanochat velikosti schopné zvládnout 2**19 ~= 0,5 milionu batch velikostí na uzlu 8XH100 bez akumulace gradientů. Dostaneme hezké, ne-itersekující tréninkové grafy pro každou velikost modelu.
Pak je zábavnější spojit tuto minisérii v1 s minisériemi GPT-2 a GPT-3, abychom věděli, že jsme na správné cestě. Validační ztráta má mnoho problémů a není srovnatelná, proto místo toho používám CORE skóre (z článku DCLM). Vypočítal jsem to pro GPT-2 a odhadl pro GPT-3, což nám konečně umožňuje hezky a na stejné škále dát nanochat:
Celkové náklady na tuto minisérii jsou pouze ~$100 (~4 hodiny na 8XH100). Tyto experimenty nám dávají jistotu, že vše funguje docela dobře a že pokud zaplatíme více (otočíme ovladačem), získáme stále lepší modely.
Stručně: můžeme trénovat optimální minisérie výpočetní techniky a vztahovat je k GPT-2/3 pomocí objektivních skóre CORE, ale další vylepšení jsou žádoucí a potřebná. Například odpovídající GPT-2 momentálně vyžaduje ~$500, ale podle mě by mělo být možné udělat <$100 s více práce.
Celý příspěvek s mnohem více detaily najdete zde:
A veškeré ladění a kód jsou tlačeny na mastering a lidé je mohou reprodukovat pomocí scaling_laws .sh, miniserií .sh bash skriptů.




1,4K
První 100% autonomní jízda od břeha k pobřeží na Tesla FSD V14.2! 2 dny 20 hodin, 2732 mil, žádné zásahy.
Tento je výjimečný, protože jízda od pobřeží k pobřeží byla hlavním cílem týmu autopilota od samého začátku. Mnoho hodin jsme strávili maratonskými sezeními klipů pozdě do noci, kdy jsme si prohlíželi intervence, zatímco jsme se pokoušeli postupně zvládnout úseky jízdy – třídění, kategorizování, plánování všech projektů, abychom zmenšili mezeru a snížili počet zásahů na nulu.
Je úžasné vidět, že se systém skutečně dostal tam, a obrovské gratulace týmu!

David Moss31. 12. 2025
S hrdostí oznamuji, že jsem úspěšně dokončil první plně autonomní jízdu po celé zemi v USA na světě!
Tesla Diner jsem opustil v Los Angeles před 2 dny a 20 hodinami a nyní jsem skončil v Myrtle Beach, SC (2 732,4 mil)
To bylo dosaženo u Tesly FSD V14.2 bez jakýchkoli odpojení a dokonce i u všech parkovacích míst, včetně Tesla Superchargerů.

615
Top
Hodnocení
Oblíbené
