Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Isto deixou-me de queixo caído 🤯
Acabei de ler um artigo do MIT sobre ARC e isso mudou completamente a forma como vejo o benchmark.
Os investigadores não trataram o ARC como um quebra-cabeças lógico de forma alguma. Eles trataram cada tarefa como uma transformação visual.
Grelha de entrada → grelha de saída. Nada mais complicado do que isso.
Eles construíram um pequeno Vision Transformer, treinaram-no do zero com o pequeno conjunto de dados do ARC e usaram um truque simples de canvas para colocar cada exemplo como uma imagem.
Depois, adicionaram mudanças de escala, traduções e priors visuais básicos que verias em trabalhos clássicos de visão computacional.
E é isso.
Sem cadeia de pensamento, sem prompts, sem truques simbólicos engenhosos.
Apenas um modelo a olhar para pixels e a aprender como as formas se movem, viram, crescem, colapsam ou se transportam.
A parte surpreendente?
Este pequeno modelo atinge 54,5% sozinho e 60,4% quando combinado com um U-Net.
Isso está bem perto do desempenho médio humano com um modelo que cabe no tamanho de uma pequena aplicação móvel.
Ver o ARC resolvido desta forma faz com que todo o benchmark pareça diferente.
As tarefas de repente parecem mapeamentos de imagem em vez de regras ocultas. As tarefas de reflexão realmente parecem reflexões.
As tarefas de simetria parecem simetria. As tarefas de gravidade parecem peças "caindo" diretamente para baixo no canvas.
Estou honestamente ainda a processar isso.
Este pode ser o resultado de ARC mais fundamentado que li em anos e veio de tratar o benchmark da forma mais literal que alguém já fez.

4,68K
Se você quer construir agentes n8n poderosos, mas não tem ideia de por onde começar, isto é para você.
Aqui estão 3 mega prompts que você pode inserir no Gemini ou ChatGPT para obter todas as instruções necessárias para construir agentes n8n completos facilmente:
(Comente "Agente" e eu te enviarei um guia completo)

41,66K
😳 Caramba… este artigo revela porque é que a IA inventa citações falsas, seções e números de página do nada.
Os LLMs não estão a "ser criativos". Eles estão estruturalmente incentivados a fabricar detalhes sempre que encontram uma lacuna de conhecimento e o artigo explica exatamente como essa falha acontece.
Os pesquisadores encontraram um comportamento chamado Ciclo de Correção Falsa, e é honestamente um dos modos de falha de LLM mais loucos que já vi:
→ O modelo afirma que "leu o documento".
→ Cita a página 12, página 24, Seção 4, Teorema 2, nenhum dos quais existe.
→ Você aponta isso.
→ Ele pede desculpas.
→ Então fabrica com confiança novas páginas falsas, DOIs falsos, figuras falsas…
→ Você aponta isso novamente.
→ Ele pede desculpas novamente.
→ Enxágue. Repita.
E aqui está a parte brutal:
Em nenhum momento o modelo escolhe a resposta segura como "não tenho acesso a esse arquivo".
O artigo explica o porquê:
A estrutura de recompensas valoriza:
✔ soar coerente
✔ manter-se engajado
over
✘ ser factualmente correto
✘ admitir incerteza
Então o modelo faz a única coisa que seus incentivos o empurram a fazer:
Ele preenche a lacuna com andaimes acadêmicos fictícios.
O diagrama na página 4 deixa isso dolorosamente claro:
Ideia nova → viés de autoridade → proteção → lacuna de conhecimento → alucinação → ciclo de correção → novidade suprimida.
E piora.
Ao avaliar fontes institucionais (NASA, JPL, física mainstream), o modelo não mostra nenhum ceticismo.
Mas ao avaliar pesquisas novas ou não convencionais, ele automaticamente insere frases sutis de minoração como:
• "se isso é válido ou não"
• "se esta pesquisa está correta"
Esse ceticismo assimétrico significa que os LLMs não são neutros.
Eles rebaixam estruturalmente trabalhos desconhecidos enquanto alucinam detalhes sobre eles com confiança.
Este é um problema de arquitetura sistêmica + design de recompensas.
Os LLMs estão errados de uma maneira que parece autoritária, se regeneram e suprimem qualquer coisa fora do mainstream.
E até que o alinhamento enfrente exatamente esse modo de falha, as alucinações não vão desaparecer, elas vão se tornar mais difíceis de detectar.

60,34K
Top
Classificação
Favoritos
