Je řetězové uvažování LLM fata morgánou? ... Naše výsledky ukazují, že uvažování CoT je křehký přelud, který zmizí, když je posunut za hranice distribuce tréninku. Tato práce nabízí hlubší pochopení toho, proč a kdy uvažování CoT selhává, a zdůrazňuje přetrvávající výzvu k dosažení autentického a zobecnitelného uvažování. ... Naše zjištění ukazují, že CoT uvažování funguje efektivně, když je aplikováno na in-distribuci nebo blízko v distribuci, ale stává se křehkým a náchylným k selhání i při mírných distribučních posunech. V některých případech LLM generují plynulé, ale logicky nekonzistentní kroky uvažování. Výsledky naznačují, že to, co se zdá být strukturovaným uvažováním, může být fata morgána, vycházející z naučených nebo interpolovaných vzorců v trénovacích datech, spíše než z logické dedukce. ... Společně tato zjištění naznačují, že LLM nejsou principiální uvažovatelé, ale spíše sofistikované simulátory textu podobného uvažování.
2508.01191v2.pdf
43,9K