1/ Poate RL-ul specific bazei de cod să împingă frontiera pentru LLM-urile de cod? La @cgftlabs, am ajutat un client să regleze Qwen-2.5-7B pe baza de cod internă pentru crearea testelor unitare, cu GRPO ghidat de acoperire. Rezultatul? Învinge o4-mini și o3. Iată cum funcționează (link către blogul complet în bio) 🧵
7,99K