我听说强化学习只在可验证的奖励下有效?😛 恭喜!!
Alexander Wei
Alexander Wei2025年7月19日
1/N 我很高兴地分享,我们最新的 @OpenAI 实验性推理 LLM 在人工智能领域实现了一个长期以来的重大挑战:在世界上最负盛名的数学竞赛——国际数学奥林匹克(IMO)中达到了金牌级别的表现。
31.61K