Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

4 etapas de entrenamiento de LLM desde cero, claramente explicadas (con imágenes):

Hoy, cubrimos las 4 etapas de la creación de LLM desde cero para que sean aplicables a casos de uso del mundo real. Cubriremos: - Pre-entrenamiento - Ajuste fino de instrucciones - Ajuste fino de preferencias - Ajuste fino del razonamiento La imagen resume estas técnicas. ¡Vamos a sumergirnos!

0️⃣ LLM inicializado aleatoriamente En este punto, el modelo no sabe nada. Le preguntas "¿Qué es un LLM?" y obtienes galimatías como "prueba la mano de Peter y hola 448Sn". Todavía no ha visto ningún dato y solo posee pesos aleatorios. Mira esto 👇

1️⃣ Pre-entrenamiento Esta etapa le enseña al LLM los conceptos básicos del lenguaje entrenándolo en corpus masivos para predecir el próximo token. De esta manera, absorbe la gramática, los hechos del mundo, etc. Pero no es bueno en la conversación porque cuando se le solicita, simplemente continúa el texto. Mira esto 👇

2️⃣ Ajuste fino de instrucciones Para que sea conversacional, hacemos ajustes de instrucción mediante el entrenamiento en pares de instrucción y respuesta. Esto le ayuda a aprender a seguir las indicaciones y dar formato a las respuestas. Ahora puede: - Responder preguntas - Resumir el contenido - Escribir código, etc. Mira esto 👇

En este punto, es probable que: - Utilizó todo el archivo y el conocimiento de Internet en bruto. - El presupuesto para datos de respuesta de instrucciones etiquetados por humanos. Entonces, ¿qué podemos hacer para mejorar aún más el modelo? Entramos en el territorio del aprendizaje por refuerzo (RL). Aprendamos a continuación 👇

3️⃣ Ajuste fino de preferencias (PFT) Debes haber visto esta pantalla en ChatGPT donde pregunta: ¿Qué respuesta prefieres? Eso no es solo para comentarios, sino que son valiosos datos de preferencias humanas. OpenAI usa esto para ajustar sus modelos mediante el ajuste fino de preferencias. Mira esto 👇

En PFT: El usuario elige entre 2 respuestas para producir datos de preferencias humanas. Luego se entrena un modelo de recompensa para predecir la preferencia humana y el LLM se actualiza usando RL. Mira esto 👇

El proceso anterior se llama RLHF (Reinforcement Learning with Human Feedback) y el algoritmo utilizado para actualizar los pesos del modelo se llama PPO. Enseña al LLM a alinearse con los humanos incluso cuando no hay una respuesta "correcta". Pero podemos mejorar aún más el LLM. Aprendamos a continuación👇

4️⃣ Ajuste fino del razonamiento En las tareas de razonamiento (matemáticas, lógica, etc.), generalmente solo hay una respuesta correcta y una serie definida de pasos para obtener la respuesta. Así que no necesitamos preferencias humanas, y podemos usar la corrección como señal. Esto se llama ajuste👇 fino del razonamiento

Pasos: - El modelo genera una respuesta a una solicitud. - La respuesta se compara con la respuesta correcta conocida. - En función de la corrección, asignamos una recompensa. Esto se llama aprendizaje por refuerzo con recompensas verificables. GRPO de DeepSeek es una técnica popular. Mira esto👇

Esas fueron las 4 etapas de entrenar un LLM desde cero. - Comience con un modelo inicializado aleatoriamente. - Pre-entrénalo en corpus a gran escala. - Utilice el ajuste fino de instrucciones para que siga los comandos. - Utilice el ajuste fino de preferencias y razonamientos para afinar las respuestas. Mira esto 👇

Si te ha resultado interesante, vuelve a compartirlo con tu red. Encuéntrame → @_avichawla Todos los días, comparto tutoriales e ideas sobre DS, ML, LLM y RAG.

@tasiorek27 Ajuste fino de refuerzos: Ajuste fino de instrucciones: (No se trata de entrenamiento per se sino de generar un conjunto de datos de ajuste fino de instrucciones)

714.03K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas