大型語言模型的鏈式思考推理是一種幻影嗎? ... 我們的結果顯示,鏈式思考推理是一種脆弱的幻影,當它被推向超出訓練分佈的範圍時便會消失。這項工作提供了對於鏈式思考推理失敗的原因和時機的更深入理解,強調了實現真正且可泛化推理的持續挑戰。 ... 我們的研究結果顯示,鏈式思考推理在應用於分佈內或接近分佈內的數據時效果良好,但在中等分佈變化下變得脆弱且容易失敗。在某些情況下,大型語言模型生成流暢但邏輯不一致的推理步驟。結果表明,看似結構化的推理可能是一種幻影,源自於訓練數據中記憶或插值的模式,而非邏輯推理。 ... 總的來說,這些發現表明,大型語言模型並不是原則性的推理者,而是推理類文本的複雜模擬器。
2508.01191v2.pdf
43.9K