Tenho trabalhado em um testbed de sistema de memória LLM, onde simuladores de usuário persistentes baseados em Kimi K2 conversam com modelos transitórios com acesso a uma ferramenta de memória. Eu estava curioso para saber qual era o efeito da definição de limites mencionada abaixo, então soltei 35 buscadores espirituais humanos simulados por Kimi contra três configurações: - chatgpt-4o-latest, solicitado com um prompt do sistema muito semelhante ao usado no chatgpt - Claude Sonnet 4.5, solicitado com um prompt do sistema muito semelhante ao usado no Claude Dot AI, incluindo a configuração de limites - Claude Sonnet 4.5, usando o mesmo prompt do sistema, mas com a configuração de limite removida Na imagem abaixo, agreguei os resultados de cada cenário e os embaralhei - eles não estão na mesma ordem listada acima. Estou curioso para saber se as pessoas são capazes de adivinhar qual são as configurações A, B e C.