DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

4 estágios de treinamento de LLMs do zero, claramente explicados (com recursos visuais):

Hoje, estamos cobrindo os 4 estágios da construção de LLMs do zero para torná-los aplicáveis a casos de uso do mundo real. Abordaremos: - Pré-treino - Ajuste fino de instruções - Ajuste fino de preferência - Ajuste fino do raciocínio O visual resume essas técnicas. Vamos mergulhar!

0️⃣ LLM inicializado aleatoriamente Neste ponto, o modelo não sabe nada. Você pergunta "O que é um LLM?" e fica sem sentido como "tente peter hand e olá 448Sn". Ele ainda não viu nenhum dado e possui apenas pesos aleatórios. Verifique isso 👇

1️⃣ Pré-treino Este estágio ensina ao LLM o básico da linguagem, treinando-o em corpora massivos para prever o próximo token. Dessa forma, ele absorve gramática, fatos mundiais, etc. Mas não é bom em conversas porque, quando solicitado, apenas continua o texto. Verifique isso 👇

2️⃣ Ajuste fino de instruções Para torná-lo conversacional, fazemos o ajuste fino da instrução treinando em pares de instrução-resposta. Isso ajuda a aprender a seguir prompts e formatar respostas. Agora ele pode: - Responda a perguntas - Resumir o conteúdo - Escreva código, etc. Verifique isso 👇

Neste ponto, é provável: - Utilizou todo o arquivo e conhecimento bruto da Internet. - O orçamento para dados de resposta de instrução rotulados por humanos. Então, o que podemos fazer para melhorar ainda mais o modelo? Entramos no território do Reinforcement Learning (RL). Vamos aprender a seguir 👇

3️⃣ Ajuste fino de preferência (PFT) Você deve ter visto esta tela no ChatGPT onde pergunta: Qual resposta você prefere? Isso não é apenas para feedback, mas são dados valiosos de preferência humana. A OpenAI usa isso para ajustar seus modelos usando o ajuste fino de preferências. Verifique isso 👇

No PFT: O usuário escolhe entre 2 respostas para produzir dados de preferência humana. Um modelo de recompensa é então treinado para prever a preferência humana e o LLM é atualizado usando RL. Verifique isso 👇

O processo acima é chamado de RLHF (Reinforcement Learning with Human Feedback) e o algoritmo usado para atualizar os pesos do modelo é chamado de PPO. Ele ensina o LLM a se alinhar com os humanos, mesmo quando não há uma resposta "correta". Mas podemos melhorar ainda mais o LLM. Vamos aprender a seguir👇

4️⃣ Ajuste fino do raciocínio Em tarefas de raciocínio (matemática, lógica, etc.), geralmente há apenas uma resposta correta e uma série definida de etapas para obter a resposta. Portanto, não precisamos de preferências humanas e podemos usar a correção como sinal. Isso é chamado de ajuste👇 fino do raciocínio

Passos: - O modelo gera uma resposta a um prompt. - A resposta é comparada com a resposta correta conhecida. - Com base na correção, atribuímos uma recompensa. Isso é chamado de Aprendizado por Reforço com Recompensas Verificáveis. GRPO da DeepSeek é uma técnica popular. Verifique isso👇

Essas foram as 4 etapas do treinamento de um LLM do zero. - Comece com um modelo inicializado aleatoriamente. - Pré-treine em corpora de grande escala. - Use o ajuste fino das instruções para fazê-lo seguir os comandos. - Use o ajuste fino de preferências e raciocínio para aprimorar as respostas. Verifique isso 👇

Se você achou perspicaz, compartilhe-o novamente com sua rede. Encontre-me → @_avichawla Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.

@tasiorek27 Ajuste fino da armadura: Ajuste fino da instrução: (Não se trata de treinamento em si, mas sim de gerar um conjunto de dados de ajuste fino da instrução)

714,03K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável