Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI na Keen Technologies, ex-CTO Oculus VR, fundador da Id Software e Armadillo Aerospace
#PaperADay 6
TROCA LOCAL DE CARACTERÍSTICAS PARA GENERALIZAÇÃO EM APRENDIZADO POR REFORÇO
Há uma boa discussão sobre generalização, tanto em geral (ha) quanto mais especificamente em RL, mas a ideia apresentada é muito simples, e vou tentar:
CLOP: Permutações locais consistentes com o canal
Dado um tensor 3D (4D com lote), com alguma probabilidade em cada local, troquem aleatoriamente de posição com um vizinho, trocando todos os canais como uma unidade. Como o dropout, isso reduz o overfitting por coadaptação, mas não zera nenhum canal, apenas os move.
Concordo com a ideia de que a ampliação de dados no espaço latente é mais eficiente para generalização do que no espaço de entrada. Eles sugerem fazer isso o mais baixo possível na hierarquia espacial, mas provavelmente não seria uma boa ideia em um nível 2x2, onde há apenas quatro permutações possíveis e qualquer uma delas perturba metade da informação espacial.
Note que eles ajustaram a chance de troca por jogo, o que geralmente não é feito ao reportar resultados em um conjunto de jogos.
Os resultados em tarefas de aprendizado supervisionado puro não foram notáveis, mas podem ser melhores com o CLOP inserido em diferentes lugares e com receitas de treinamento distintas.
873
Gary Gygax fazia parte do meu panteão de heróis quando era um adolescente jogador de D&D, mas eu realmente não sabia muito sobre ele antes de ler este livro. O mais próximo que cheguei foi perguntar para Margaret Weis, uma das autoras de Dragonlance e conhecida do meu pai, por telefone quando eu tinha 13 anos.
O impacto mais amplo de D&D (os jogos da Id Software foram mencionados brevemente perto do final) superou em muito os retornos financeiros para ele, e seu caminho foi bem difícil, mas parece que ele se estabeleceu em um bom lugar como "rei dos nerds" no final.
Morrer aos 69 anos depois de muita saúde debilitada é um lembrete para quem está na casa dos 50 anos para cuidar de si mesmo.
@MikeWitwer

755
#PaperADay 3 (espero que links embutidos reduzam o boost o suficiente para que não muita gente se irrite com esse conteúdo)
@ylecun tem sido um tema atual recentemente, então hoje eu revisei:
Aprendizado Auto-Supervisionado a partir de Imagens com uma Arquitetura Preditiva de Incorporação Conjunta
Concordo amplamente com a ideia de que as previsões importantes são de representações internas, não de pixels, então modelos generativos podem ser um tanto contraproducentes, ou pelo menos desnecessariamente ineficientes para muitas tarefas.
No entanto, tendo a pensar que a previsão interna precisa estar acontecendo em um nível mais granular do que o processamento completo de imagem, no nível minicoluna ou até neural, e com um componente temporal maior do que mascaramento local.
O treinamento auto-supervisionado funciona com um grande conjunto de dados sem saber o que será pedido ao modelo depois, apenas construindo conhecimento a partir dos dados. Depois, você pode treinar um classificador linear simples (sonda linear) na saída e obter um desempenho muito bom. As melhores sondas lineares em modelos auto-supervisionados congelados não são tão fortes quanto classificadores treinados de ponta a ponta, mas o mesmo SSM exato pode ser forte para muitas tarefas diferentes ao mesmo tempo.
O artigo observa que, em contraste com o JEPA, métodos de treinamento baseados em invariância que pegam a mesma imagem e a complementam de duas maneiras diferentes, mantendo a semelhança representacional, obtêm seu desempenho às custas de um conjunto de aumentos de imagem tendenciosos pelo pesquisador, que não se transferem para outras modalidades como áudio ou texto. Observo que o JEPA é muito sensível ao mascaramento exato realizado (tabela 6), que não parece muito diferente.
O codificador de alvo é superficialmente semelhante à formulação moderna do modelo alvo em redes DQN RL com um EMA dos pesos em vez de uma cópia ocasional, mas embora tenha sido um auxílio de estabilidade para RL (e nem sempre seja necessário), ele tem um propósito mais fundamental aqui: evitar que o modelo colapse representações triviais para prever. Isso, junto com o LayerNorm também ser um elemento crucial disso, não está detalhado no artigo, e precisei encontrar referências sobre isso em outro lugar.
É meio estranho que eles aplicem um corte aleatório de 0,85-1,0 ao contexto, mas só removam blocos da direita e da parte inferior. Eu esperava ver uma ablação daquela plantação.
Aumentar a resolução da imagem é uma forma meio estranha de escalar o modelo. Provavelmente não é a resolução que ajuda, mas sim a contagem total de patches.
Há um grande corpo de trabalho sobre autosupervisão com o qual estou apenas vagamente familiarizado, então provavelmente estou deixando passar alguns aspectos importantes que distinguem o JEPA. Ainda estou lidando com a questão central do que exatamente os contextos aprendem e como a arquitetura e o treinamento do modelo os conduzem para longe do colapso.
713
Melhores
Classificação
Favoritos
