DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

4 etape de formare a LLM-urilor de la zero, explicate clar (cu imagini):

Astăzi, acoperim cele 4 etape ale construirii LLM-urilor de la zero pentru a le face aplicabile pentru cazurile de utilizare din lumea reală. Vom acoperi: - Pre-instruire - Reglarea fină a instrucțiunilor - Reglarea fină a preferințelor - Reglarea fină a raționamentului Vizualul rezumă aceste tehnici. Să ne scufundăm!

0️⃣ LLM inițializat aleatoriu În acest moment, modelul nu știe nimic. Îl întrebi "Ce este un LLM?" și devii fără sens ca "încearcă mâna lui Peter și salut 448Sn". Nu a văzut încă date și posedă doar greutăți aleatorii. Verificați acest lucru 👇

1️⃣ Pre-antrenament Această etapă îl învață pe LLM elementele de bază ale limbajului, antrenându-l pe corpus masiv pentru a prezice următorul token. În acest fel, absoarbe gramatica, faptele lumii etc. Dar nu este bun la conversație pentru că atunci când i se cere, continuă textul. Verificați acest lucru 👇

2️⃣ Reglarea fină a instrucțiunilor Pentru a-l face conversațional, facem reglarea fină a instrucțiunilor prin antrenament pe perechi instrucție-răspuns. Acest lucru îl ajută să învețe cum să urmeze instrucțiunile și să formateze răspunsurile. Acum poate: - Răspundeți la întrebări - Rezumați conținutul - Scrieți cod etc. Verificați acest lucru 👇

În acest moment, probabil avem: - A utilizat întreaga arhivă și cunoștințe brute de pe internet. - Bugetul pentru datele de răspuns la instrucțiuni etichetate de om. Deci, ce putem face pentru a îmbunătăți și mai mult modelul? Intrăm pe teritoriul Reinforcement Learning (RL). Să învățăm în continuare 👇

3️⃣ Reglarea fină a preferințelor (PFT) Trebuie să fi văzut acest ecran pe ChatGPT unde întreabă: Ce răspuns preferați? Asta nu este doar pentru feedback, ci sunt date valoroase despre preferințele umane. OpenAI folosește acest lucru pentru a-și regla modelele folosind reglarea fină a preferințelor. Verificați acest lucru 👇

În PFT: Utilizatorul alege între 2 răspunsuri pentru a produce date despre preferințele umane. Un model de recompensă este apoi antrenat pentru a prezice preferințele umane și LLM este actualizat folosind RL. Verificați acest lucru 👇

Procesul de mai sus se numește RLHF (Reinforcement Learning with Human Feedback), iar algoritmul folosit pentru a actualiza greutățile modelului se numește PPO. Învață LLM să se alinieze cu oamenii chiar și atunci când nu există un răspuns "corect". Dar putem îmbunătăți și mai mult LLM. Să învățăm în continuare👇

4️⃣ Reglarea fină a raționamentului În sarcinile de raționament (matematică, logică etc.), există de obicei un singur răspuns corect și o serie definită de pași pentru a obține răspunsul. Deci nu avem nevoie de preferințele umane și putem folosi corectitudinea ca semnal. Aceasta se numește reglare👇 fină a raționamentului

Paşi: - Modelul generează un răspuns la o solicitare. - Răspunsul este comparat cu răspunsul corect cunoscut. - Pe baza corectitudinii, atribuim o recompensă. Aceasta se numește învățare prin întărire cu recompense verificabile. GRPO de la DeepSeek este o tehnică populară. Verificați acest lucru👇

Acestea au fost cele 4 etape ale pregătirii unui LLM de la zero. - Începeți cu un model inițializat aleatoriu. - Antrenează-l în prealabil pe corpus la scară largă. - Utilizați reglarea fină a instrucțiunilor pentru a-l face să urmeze comenzi. - Utilizați reglarea fină a preferințelor și raționamentului pentru a clarifica răspunsurile. Verificați acest lucru 👇

Dacă ți s-a părut util, redistribui-l rețelei tale. Găsește-mă → @_avichawla În fiecare zi, împărtășesc tutoriale și informații despre DS, ML, LLM-uri și RAG.

@tasiorek27 Reglarea fină a armăturii: Reglarea fină a instrucțiunilor: (Nu este vorba despre antrenament în sine, ci mai degrabă despre generarea unui set de date de reglare fină a instrucțiunilor)

714,04K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante