Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

cookies (🍪,🍪) | 饼妹
@monad | Sorvete Cabal 🍨
cookies (🍪,🍪) | 饼妹 repostou
Curioso para saber como o SFT funciona em relação ao aprendizado em contexto.
A ICL parece magia negra - o modelo realmente está captando um monte de informações tácitas na eficiência da amostra humana.
Se o ajuste fino pode chegar perto disso, talvez você possa juntar algo que pareça um aprendizado contínuo no topo?
Aqui está uma ideia ingênua: loop interno, faça SFT em resumos de sessões. Loop externo, RL de longo horizonte onde tem que fazer uso de habilidades e conhecimentos que têm que passar entre as sessões. O loop externo basicamente trata o SFT como uma chamada de ferramenta, incentivando o modelo a passar o máximo possível de informações importantes.
Estou curioso para saber se algo que une técnicas existentes como essa será suficiente para o aprendizado contínuo ou se precisamos de um paradigma totalmente novo.
Fiz uma estimativa divertida de Fermi com o ChatGPT para obter alguma intuição em torno dessa questão.
Uma pergunta que você poderia fazer é: quanto o SFT (via LoRA) comprime as informações em relação ao aprendizado em contexto? E compare com o pré-treinamento apenas por diversão.
Se houver uma grande disparidade (também conhecida como há muitas vezes mais bytes usados para os caches KV em comparação com os pesos do LoRA), então isso *pode* sugerir que seria muito difícil para o LoRA ser tão rico e eficiente em amostras e ICL.
Novamente, esta é uma toca de coelho super ondulada à tarde, não uma investigação séria. Só porque usa muito menos memória não significa necessariamente que seja muito mais burro, etc.
Este gráfico é para Llama 3 70 b (que foi pré-treinado em 15 trilhões de tokens).
Quando chegamos a milhares de tokens de um dígito, o LoRA (cujo tamanho não muda com quantos tokens você está ajustando) começa a ter que se compactar muito mais densamente do que o ICL.
Depois de ter 100 mil tokens, os tokens que passam por um LoRA de classificação 32 estão sendo compactados 37 vezes mais do que se estivessem sendo atendidos no contexto (por meio do cache KV).
Nota: os bytes por token de treinamento para pré-treinamento são incrivelmente baixos! (0,009 neste caso).
Fiz outro gráfico, desta vez mantendo a contagem de tokens constante em 100k, e variando a classificação do LoRA.
Ingenuamente, parece que a classificação deve ser pequena o suficiente para que seja apenas uma pequena fração dos pesos totais do modelo (caso contrário, por que se preocupar com um LoRA?), mas também grande o suficiente para conter uma quantidade significativa de informações armazenadas em caches KV. Assim, você pode ver onde esse ponto ideal pode estar.
De qualquer forma, esses gráficos não são conclusivos de nada. E, por favor, desculpe quaisquer erros embaraçosos ou mal-entendidos.
Ansioso para obter opiniões reais de alto nível sobre o quão bem a combinação de SFT e RL funcionará em termos de fazer o aprendizado contínuo que vemos com o aprendizado no contexto funcionar entre as sessões.


31,57K
Melhores
Classificação
Favoritos