Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Matt Turck
¿No entender lo exponencial, otra vez?
Mi conversación con @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - sobre la jugada 37, Scaling RL, el Premio Nobel de IA y la frontera de la IA:
00:00 - Apertura en frío: "No estamos viendo ninguna desaceleración".
00:32 - Introducción - Conoce a Julian
01:09 - El "exponencial" desde el interior de los laboratorios fronterizos
04:46 - 2026-2027: agentes que trabajan un día completo; amplitud de nivel experto
08:58 - Puntos de referencia frente a realidad: trabajo a largo plazo, PIB-Val, valor para el usuario
10:26 - Jugada 37: qué sucedió realmente y por qué importaba
13:55 - Ciencia novedosa: AlphaCode/AlphaTensor → ¿cuándo gana la IA un Nobel?
16:25 - Discontinuidad vs progreso suave (y señales de advertencia)
19:08 - ¿El preentrenamiento + RL nos lleva allí? (Debates de AGI aparte)
20:55 - ¿"RL desde cero" de Sutton? La opinión de Julian
23:03 - El camino de Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (aprender + buscar) en inglés sencillo
30:16 - AlphaGo Zero (sin datos humanos)
31:00 - AlphaZero (un algoritmo: Go, ajedrez, shogi)
31:46 - MuZero (planificación con un modelo de mundo aprendido)
33:23 -Lecciones para los agentes de hoy: búsqueda + aprendizaje a escala
34:57 - ¿Los LLM ya tienen modelos de mundo implícitos?
39:02 - Por qué RL en LLM tomó tiempo (estabilidad, bucles de retroalimentación)
41:43 - Computación y escalado para RL: lo que vemos hasta ahora
42:35 - Frontera de recompensas: preferencias humanas, rúbricas, RLVR, recompensas de proceso
44:36 - Datos de entrenamiento de RL y el "volante" (y por qué es importante la calidad)
48:02 - RL y Agents 101: por qué RL desbloquea la robustez
50:51 - ¿Deberían los constructores usar RL como servicio? ¿O solo herramientas + indicaciones?
52:18 - Lo que falta para los agentes confiables (capacidad frente a ingeniería)
53:51 - Evals & Goodhart — puntos de referencia internos vs externos
57:35 - Interpretabilidad mecanicista y "Golden Gate Claude"
1:00:03 - Seguridad y alineación en Anthropic: cómo se muestra en la práctica
1:03:48 - Empleos: complementariedad entre humanos e IA (ventaja comparativa)
1:06:33 - Desigualdad, política y el caso del 10× productividad → abundancia
1:09:24 - Pensamientos finales
3.43K
¿Estamos malinterpretando la IA exponencial?
Conversación épica con @Mononofu (Julian Schrittwieser de @AnthropicAI) sobre la jugada 37, Scaling RL y la frontera de la IA
00:00 - Apertura en frío: "No estamos viendo ninguna desaceleración".
00:32 - Introducción: quién es Julian y qué cubrimos
01:09 - El "exponencial" desde el interior de los laboratorios fronterizos
04:46 - 2026-2027: agentes que trabajan un día completo; amplitud de nivel experto
08:58 - Puntos de referencia frente a realidad: trabajo a largo plazo, PIB-Val, valor para el usuario
10:26 - Jugada 37: qué sucedió realmente y por qué importaba
13:55 - Ciencia novedosa: AlphaCode/AlphaTensor → ¿cuándo gana la IA un Nobel?
16:25 - Discontinuidad vs progreso suave (y señales de advertencia)
19:08 - ¿El preentrenamiento + RL nos lleva allí? (Debates de AGI aparte)
20:55 - ¿"RL desde cero" de Sutton? La opinión de Julian
23:03 - El camino de Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (aprender + buscar) en inglés sencillo
30:16 - AlphaGo Zero (sin datos humanos)
31:00 - AlphaZero (un algoritmo: Go, ajedrez, shogi)
31:46 - MuZero (planificación con un modelo de mundo aprendido)
33:23 -Lecciones para los agentes de hoy: búsqueda + aprendizaje a escala
34:57 - ¿Los LLM ya tienen modelos de mundo implícitos?
39:02 - Por qué RL en LLM tomó tiempo (estabilidad, bucles de retroalimentación)
41:43 - Computación y escalado para RL: lo que vemos hasta ahora
42:35 - Frontera de recompensas: preferencias humanas, rúbricas, RLVR, recompensas de proceso
44:36 - Datos de entrenamiento de RL y el "volante" (y por qué es importante la calidad)
48:02 - RL y Agents 101: por qué RL desbloquea la robustez
50:51 - ¿Deberían los constructores usar RL como servicio? ¿O solo herramientas + indicaciones?
52:18 - Lo que falta para los agentes confiables (capacidad frente a ingeniería)
53:51 - Evals & Goodhart — puntos de referencia internos vs externos
57:35 - Interpretabilidad mecanicista y "Golden Gate Claude"
1:00:03 - Seguridad y alineación en Anthropic: cómo se muestra en la práctica
1:03:48 - Empleos: complementariedad entre humanos e IA (ventaja comparativa)
1:06:33 - Desigualdad, política y el caso del 10× productividad → abundancia
1:09:24 - Pensamientos finales
1.89K
Populares
Ranking
Favoritas

