Er tankekjede-resonnement av LLM-er en luftspeiling? ... Resultatene våre avslører at CoT-resonnement er en sprø luftspeiling som forsvinner når den skyves utover opplæringsdistribusjoner. Dette arbeidet gir en dypere forståelse av hvorfor og når CoT-resonnement mislykkes, og understreker den pågående utfordringen med å oppnå ekte og generaliserbar resonnement. ... Våre funn viser at CoT-resonnement fungerer effektivt når det brukes på in-distribusjon eller nær data i distribusjonen, men blir skjøre og utsatt for feil selv under moderate distribusjonsskift. I noen tilfeller genererer LLM-er flytende, men logisk inkonsekvente resonneringstrinn. Resultatene antyder at det som ser ut til å være strukturert resonnement kan være en luftspeiling, som kommer fra memorerte eller interpolerte mønstre i treningsdataene i stedet for logisk slutning. ... Sammen tyder disse funnene på at LLM-er ikke er prinsipielle resonnerenere, men snarere sofistikerte simulatorer av resonneringslignende tekst.
2508.01191v2.pdf
43,9K