Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
4 estágios de treinamento de LLMs do zero, claramente explicados (com recursos visuais):
Hoje, estamos cobrindo os 4 estágios da construção de LLMs do zero para torná-los aplicáveis a casos de uso do mundo real.
Abordaremos:
- Pré-treino
- Ajuste fino de instruções
- Ajuste fino de preferência
- Ajuste fino do raciocínio
O visual resume essas técnicas.
Vamos mergulhar!
0️⃣ LLM inicializado aleatoriamente
Neste ponto, o modelo não sabe nada.
Você pergunta "O que é um LLM?" e fica sem sentido como "tente peter hand e olá 448Sn".
Ele ainda não viu nenhum dado e possui apenas pesos aleatórios.
Verifique isso 👇
1️⃣ Pré-treino
Este estágio ensina ao LLM o básico da linguagem, treinando-o em corpora massivos para prever o próximo token. Dessa forma, ele absorve gramática, fatos mundiais, etc.
Mas não é bom em conversas porque, quando solicitado, apenas continua o texto.
Verifique isso 👇
2️⃣ Ajuste fino de instruções
Para torná-lo conversacional, fazemos o ajuste fino da instrução treinando em pares de instrução-resposta. Isso ajuda a aprender a seguir prompts e formatar respostas.
Agora ele pode:
- Responda a perguntas
- Resumir o conteúdo
- Escreva código, etc.
Verifique isso 👇
Neste ponto, é provável:
- Utilizou todo o arquivo e conhecimento bruto da Internet.
- O orçamento para dados de resposta de instrução rotulados por humanos.
Então, o que podemos fazer para melhorar ainda mais o modelo?
Entramos no território do Reinforcement Learning (RL).
Vamos aprender a seguir 👇
3️⃣ Ajuste fino de preferência (PFT)
Você deve ter visto esta tela no ChatGPT onde pergunta: Qual resposta você prefere?
Isso não é apenas para feedback, mas são dados valiosos de preferência humana.
A OpenAI usa isso para ajustar seus modelos usando o ajuste fino de preferências.
Verifique isso 👇

No PFT:
O usuário escolhe entre 2 respostas para produzir dados de preferência humana.
Um modelo de recompensa é então treinado para prever a preferência humana e o LLM é atualizado usando RL.
Verifique isso 👇
O processo acima é chamado de RLHF (Reinforcement Learning with Human Feedback) e o algoritmo usado para atualizar os pesos do modelo é chamado de PPO.
Ele ensina o LLM a se alinhar com os humanos, mesmo quando não há uma resposta "correta".
Mas podemos melhorar ainda mais o LLM.
Vamos aprender a seguir👇
4️⃣ Ajuste fino do raciocínio
Em tarefas de raciocínio (matemática, lógica, etc.), geralmente há apenas uma resposta correta e uma série definida de etapas para obter a resposta.
Portanto, não precisamos de preferências humanas e podemos usar a correção como sinal.
Isso é chamado de ajuste👇 fino do raciocínio
Passos:
- O modelo gera uma resposta a um prompt.
- A resposta é comparada com a resposta correta conhecida.
- Com base na correção, atribuímos uma recompensa.
Isso é chamado de Aprendizado por Reforço com Recompensas Verificáveis.
GRPO da DeepSeek é uma técnica popular.
Verifique isso👇
Essas foram as 4 etapas do treinamento de um LLM do zero.
- Comece com um modelo inicializado aleatoriamente.
- Pré-treine em corpora de grande escala.
- Use o ajuste fino das instruções para fazê-lo seguir os comandos.
- Use o ajuste fino de preferências e raciocínio para aprimorar as respostas.
Verifique isso 👇
Se você achou perspicaz, compartilhe-o novamente com sua rede.
Encontre-me → @_avichawla
Todos os dias, compartilho tutoriais e insights sobre DS, ML, LLMs e RAGs.

21 de jul. de 2025
4 estágios de treinamento de LLMs do zero, claramente explicados (com recursos visuais):
@tasiorek27 Ajuste fino da armadura:
Ajuste fino da instrução: (Não se trata de treinamento em si, mas sim de gerar um conjunto de dados de ajuste fino da instrução)

6 de mai. de 2025
Let's generate our own LLM fine-tuning dataset (100% local):
714,03K
Melhores
Classificação
Favoritos