O Google acaba de dar aos modelos de linguagem uma memória real de longo prazo. Uma nova arquitetura aprende durante a inferência e mantém o contexto ao longo de milhões de tokens. Ela mantém ~70 por cento de precisão em 10 milhões de tokens. 𝗘𝘀𝘁𝗮 𝗮𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗮 𝗹𝗲𝗮𝗿𝗻𝘀 𝘀𝗲𝗻𝗱𝗼 𝗲𝗹𝗮 𝗿𝘂𝗻𝗱𝗮 Titans adiciona uma memória neural de longo prazo que se atualiza durante a geração. Não pesos. Não re-treinamento. Aprendizagem ao vivo. • Uma pequena rede neural armazena contexto de longo alcance • Ela se atualiza apenas quando algo inesperado aparece • Tokens rotineiros são ignorados para manter a velocidade Isso permite que o modelo lembre-se de fatos de textos muito anteriores sem precisar escanear tudo novamente. 𝗘𝗹𝗮 𝗺𝗮𝗻𝘁𝗲𝗺 𝗮 𝘀𝗽𝗲𝗲𝗱 𝗲𝗻𝗾𝘂𝗮𝗻𝗱𝗼 𝗲𝘀𝗰𝗮𝗹𝗮 𝗼 𝗰𝗼𝗻𝘁𝗲𝘅𝘁𝗼 A atenção permanece local. A memória lida com o passado. • Custo de inferência linear • Sem explosões quadráticas de atenção • Precisão estável além de dois milhões de tokens 𝗘𝗹𝗮 𝗽𝗲𝗿𝗺𝗶𝘁𝗲-𝘁𝗲 𝗮 𝗯𝘂𝗶𝗹𝗱𝗮𝗿 𝗻𝗼𝘃𝗮𝘀 𝗸𝗶𝗻𝗱𝘀 𝗼𝗳 𝗮𝗽𝗽𝘀 Você pode processar livros inteiros, logs ou genomas em uma única passada. Você pode manter o estado ao longo de longas sessões. Você pode parar de dividir o contexto apenas para sobreviver aos limites.