Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Estoy leyendo este informe de Anthropic sobre el uso real de Claude y los números caen como un ladrillo.
Tuvieron 100.000 conversaciones.
Aquí está la parte que me detuvo:
La mayoría de las tareas que la gente le lleva a Claude normalmente duran unos 90 minutos.
Con Claude, esas mismas tareas terminan un 80 % más rápido.
Eso es alguien que ahorra horas cada semana sin siquiera intentarlo.
Luego el informe se hace más grande.
Si aplicamos estas ganancias a toda la economía estadounidense, los modelos actuales por sí solos impulsan la productividad laboral un 1,8 % anual durante la próxima década.
Casi el doble del ritmo reciente.
Y nada de esto incluye modelos mejores.
Así es como la gente ya usa a Claude ahora mismo.
Puede que sea la primera vez que vemos pruebas sólidas de lo que la IA está haciendo dentro de los trabajos reales.
Turno tranquilo.
Impacto enorme.
Ya está pasando.

2.85K
Este trabajo del MIT me 🤯 dejó alucinado
El artículo trata sobre "ARC" y cambió completamente mi forma de ver el benchmark.
Los investigadores no trataron ARC como un rompecabezas lógico en absoluto. Trataban cada tarea como una transformación visual.
Cuadrícula dentro → cuadrícula hacia afuera. Nada más complicado que eso.
Construyeron un pequeño Transformador de Visión, lo entrenaron desde cero con el pequeño conjunto de datos de ARC y usaron un sencillo truco de lienzo para colocar cada ejemplo como una imagen.
Luego añadieron cambios de escala, traducciones y priors visuales básicos que verías en trabajos clásicos de visión por ordenador.
Eso es todo.
Sin cadena de pensamiento, sin indicaciones, sin trucos simbólicos ingeniosos.
Solo un modelo que observa píxeles y aprende cómo se mueven, se voltean, crecen, colapsan o se trasladan las formas.
¿La parte salvaje?
Este modelo diminuto alcanza el 54,5% por sí solo y el 60,4% cuando se combina con un U-Net.
Eso es justo el rendimiento humano medio con un modelo que encaja en el tamaño de una pequeña aplicación móvil.
Ver ARC resuelto de esta manera hace que todo el benchmark se sienta diferente.
Las tareas de repente parecen mapeados de imágenes en lugar de reglas ocultas. Las tareas de reflexión en realidad parecen reflejos.
Las tareas de simetría parecen simetría. Las tareas de gravedad parecen piezas que "caen" directamente por el lienzo.
Sinceramente, todavía lo estoy procesando.
Puede que este sea el resultado ARC más realista que he leído en años y vino de tratar el benchmark más literalmente que nadie lo ha hecho jamás.

3.6K
Populares
Ranking
Favoritas


