Ok, citiți de bază @Extropic_AI (@BasedBeffJezos) pe care am reușit să le cercetez în timpul sesiunii mele de antrenament. TLDR: Inferența standard implică efectuarea unei grămezi de calcule atât secvențiale, cât și paralele, dar în cele din urmă se rezumă la eșantionarea probabilistică. Extropic construiește un cip care ocolește toate aceste mașini matematice și, în schimb, încorporează pur și simplu distribuția de probabilitate învățată a setului de antrenament de bază și eșantioane direct din hardware. Este foarte tare!
La cel mai fundamental nivel, LLM-urile iau un set de antrenament uriaș, compus din jetoane, și învață structura între cuvinte, propoziții etc. Ei nu raționează, dar învață - de fapt - distribuția de probabilitate extrem de complexă între token-uri. De exemplu, dacă întreb "Ce culoare are cerul", se va uita în sus în acel PD învățat și apoi va vedea ["The", "color", "of", "the", "sky", "is", "blue"] ca cea mai mare succesiune de probabilitate. S-a ajuns la asta făcând o grămadă de calcule matriciale. Dacă doriți să învățați mecanica acestui lucru, puteți continua și citiți lucrarea originală Transformer, dar sincer nu este atât de importantă. Ceea ce este important este acesta: 1. Etapa de antrenament: introduceți un set mare de date > distribuția probabilității de ieșire a tokenurilor. 2. Pasul de inferență: interogare de intrare --> maparea ieșirii sub eșantionare de probabilitate. Apropo, rezultatul cu adevărat tare (deși oarecum evident) în retrospectivă este că... LLM-urile sunt injective și invertibile! Aceasta înseamnă că există o mapare unică de la prompt la spațiul latent și invers. Hella cool!
Oricum, foarte tare munca echipei Extropic! Apropo, ziua etapei astăzi și a fost glorioasă.
38,14K