4 estágios de treinamento de LLMs do zero, claramente explicados (com recursos visuais):
Hoje, estamos cobrindo os 4 estágios da construção de LLMs do zero para torná-los aplicáveis a casos de uso do mundo real. Abordaremos: - Pré-treino - Ajuste fino de instruções - Ajuste fino de preferência - Ajuste fino do raciocínio O visual resume essas técnicas. Vamos mergulhar!
0️⃣ LLM inicializado aleatoriamente Neste ponto, o modelo não sabe nada. Você pergunta "O que é um LLM?" e fica sem sentido como "tente peter hand e olá 448Sn". Ele ainda não viu nenhum dado e possui apenas pesos aleatórios. Verifique isso 👇
1️⃣ Pré-treino Este estágio ensina ao LLM o básico da linguagem, treinando-o em corpora massivos para prever o próximo token. Dessa forma, ele absorve gramática, fatos mundiais, etc. Mas não é bom em conversas porque, quando solicitado, apenas continua o texto. Verifique isso 👇
2️⃣ Ajuste fino de instruções Para torná-lo conversacional, fazemos o ajuste fino da instrução treinando em pares de instrução-resposta. Isso ajuda a aprender a seguir prompts e formatar respostas. Agora ele pode: - Responda a perguntas - Resumir o conteúdo - Escreva código, etc. Verifique isso 👇
Neste ponto, é provável: - Utilizou todo o arquivo e conhecimento bruto da Internet. - O orçamento para dados de resposta de instrução rotulados por humanos. Então, o que podemos fazer para melhorar ainda mais o modelo? Entramos no território do Reinforcement Learning (RL). Vamos aprender a seguir 👇
3️⃣ Ajuste fino de preferência (PFT) Você deve ter visto esta tela no ChatGPT onde pergunta: Qual resposta você prefere? Isso não é apenas para feedback, mas são dados valiosos de preferência humana. A OpenAI usa isso para ajustar seus modelos usando o ajuste fino de preferências. Verifique isso 👇
No PFT: O usuário escolhe entre 2 respostas para produzir dados de preferência humana. Um modelo de recompensa é então treinado para prever a preferência humana e o LLM é atualizado usando RL. Verifique isso 👇
O processo acima é chamado de RLHF (Reinforcement Learning with Human Feedback) e o algoritmo usado para atualizar os pesos do modelo é chamado de PPO. Ele ensina o LLM a se alinhar com os humanos, mesmo quando não há uma resposta "correta". Mas podemos melhorar ainda mais o LLM. Vamos aprender a seguir👇
4️⃣ Ajuste fino do raciocínio Em tarefas de raciocínio (matemática, lógica, etc.), geralmente há apenas uma resposta correta e uma série definida de etapas para obter a resposta. Portanto, não precisamos de preferências humanas e podemos usar a correção como sinal. Isso é chamado de ajuste👇 fino do raciocínio
Passos: - O modelo gera uma resposta a um prompt. - A resposta é comparada com a resposta correta conhecida. - Com base na correção, atribuímos uma recompensa. Isso é chamado de Aprendizado por Reforço com Recompensas Verificáveis. GRPO da DeepSeek é uma técnica popular. Verifique isso👇
Essas foram as 4 etapas do treinamento de um LLM do zero. - Comece com um modelo inicializado aleatoriamente. - Pré-treine em corpora de grande escala. - Use o ajuste fino das instruções para fazê-lo seguir os comandos. - Use o ajuste fino de preferências e raciocínio para aprimorar as respostas. Verifique isso 👇
Se você achou perspicaz, compartilhe-o novamente com sua rede. Encontre-me → @_avichawla Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.
Avi Chawla
Avi Chawla21 de jul. de 2025
4 estágios de treinamento de LLMs do zero, claramente explicados (com recursos visuais):
@tasiorek27 Ajuste fino da armadura: Ajuste fino da instrução: (Não se trata de treinamento em si, mas sim de gerar um conjunto de dados de ajuste fino da instrução)
Avi Chawla
Avi Chawla6 de mai. de 2025
Let's generate our own LLM fine-tuning dataset (100% local):
714,03K