Ok, lettura di base su @Extropic_AI (@BasedBeffJezos) che sono riuscito a fare durante la mia sessione di allenamento. TLDR: L'inferenza standard comporta una serie di calcoli matriciali sia sequenziali che paralleli, ma alla fine si riduce a campionamento probabilistico. Extropic sta costruendo un chip che salta tutta quella macchina matematica e, invece, incorpora semplicemente la distribuzione di probabilità appresa del set di addestramento sottostante e campiona direttamente dall'hardware. Questo è molto interessante!
A livello più fondamentale, i LLM prendono un enorme set di addestramento, composto da token, e apprendono la struttura tra parole, frasi, ecc. Non stanno ragionando, ma stanno -- in effetti -- apprendendo la distribuzione di probabilità enormemente complessa tra i token. Ad esempio, se chiedo "Di che colore è il cielo", cercherà in quella PD appresa e poi vedrà ["Il", "colore", "del", "cielo", "è", "blu"] come la sequenza con la probabilità più alta. È arrivato a questo facendo un sacco di calcoli matriciali. Se vuoi imparare la meccanica di questo, puoi andare a leggere il documento originale del Transformer, ma onestamente non è così importante. Ciò che è importante è questo: 1. Passo di addestramento: input di un grande set di dati --> output della distribuzione di probabilità dei token. 2. Passo di inferenza: input di una query --> output della mappatura sotto campionamento di probabilità. A proposito, il risultato davvero interessante (anche se un po' ovvio) a posteriori è che ... i LLM sono iniettivi e invertibili! Questo significa che c'è una mappatura unica dal prompt allo spazio latente e viceversa. Davvero interessante!
Comunque, ottimo lavoro team Extropic! A proposito, oggi è il giorno delle gambe ed è stato glorioso.
38,12K