新的Anthropic研究:LLMs中的内省迹象。 语言模型能否识别自己的内部思维?还是它们只是当被问及这些时编造出合理的答案?我们发现了Claude在内省能力方面的真实证据——尽管有限。