Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿sufriendo de fatiga por chatbots?
¿frustrado porque se canceló la singularidad?
¿buscando algo nuevo que te dé esperanza?
aquí está mi plan delirante, pero "oye, tiene sentido" para construir superinteligencia en mi pequeño laboratorio de investigación indie.
(Nota: cambiaré precisión por pedagogía)
Primero, un poco de contexto:
Soy un tipo de 33 años que ha pasado los últimos 22 programando. A lo largo del tiempo, he hecho muchas preguntas sobre la naturaleza de la computación y he acumulado algunas... peculiaridades... bastante interesantes. Hace unos años, construí HVM, un sistema capaz de ejecutar programas en un lenguaje esotérico llamado "Haskell" en la GPU - sí, el mismo chip que hizo que el aprendizaje profundo funcionara y que iluminó todo este ciclo de IA.
Pero, ¿cómo se relaciona Haskell con la IA?
Bueno, esa es una larga historia. Como los ancianos podrían recordar, en aquel entonces, lo que llamábamos "IA" era... diferente. Hace casi 3 décadas, por primera vez, una computadora derrotó al campeón mundial de ajedrez, desatando muchos debates sobre AGI y singularidad - ¡justo como hoy!
El sistema, llamado Deep Blue, era muy diferente de los modelos que tenemos hoy. No usaba transformadores. No usaba redes neuronales en absoluto. De hecho, no había "modelo". Era una pura "IA simbólica", lo que significa que era solo un viejo algoritmo, que escaneaba miles de millones de posibles movimientos, más rápido y más profundo de lo que cualquier humano podría, venciendo a todos por pura fuerza bruta.
Esto desató una ola de prometedora investigación en IA simbólica. Algoritmos evolutivos, gráficos de conocimiento, demostración automática de teoremas, solucionadores SAT/SMT, solucionadores de restricciones, sistemas expertos, y mucho más. Lamentablemente, con el tiempo, el enfoque chocó contra una pared. Las reglas construidas a mano no escalaban, los sistemas simbólicos no podían *aprender* dinámicamente, y la burbuja estalló. Comenzó un nuevo invierno de IA.
Solo años después, una curiosa alineación de factores cambió todo. Los investigadores desempolvaron una vieja idea - las redes neuronales - pero esta vez, tenían algo nuevo: GPUs. Estos chips gráficos, originalmente diseñados para renderizar videojuegos, resultaron ser perfectos para las masivas multiplicaciones de matrices que requerían las redes neuronales. De repente, lo que tomaba semanas podía hacerse en horas. El aprendizaje profundo explotó, y aquí estamos hoy, con transformadores dominando el mundo.
Pero aquí está la cosa: solo portamos *una* rama de la IA a las GPUs - la conexiónista, numérica. ¿El lado simbólico? Sigue atrapado en la era de las CPU.
Haskell es un lenguaje especial, porque unifica el lenguaje de las pruebas (es decir, el idioma que los matemáticos usan para expresar teoremas) con el lenguaje de la programación (es decir, lo que los desarrolladores usan para construir aplicaciones). Esto lo hace especialmente adecuado para el razonamiento simbólico - el tipo exacto de computación que utilizó Deep Blue, pero ahora podemos ejecutarlo masivamente en paralelo en hardware moderno.
(Para ser más precisos, solo el paralelismo masivo de GPU no es lo único que HVM aporta a la mesa. Resulta que también da como resultado aceleraciones *asintóticas* en algunos casos. Y esta es una razón clave para creer en nuestro enfoque: los métodos simbólicos pasados no solo estaban hambrientos de computación. Eran exponencialmente lentos, en un sentido algorítmico. No es de extrañar que no funcionaran. No tenían ninguna oportunidad de hacerlo.)
Mi tesis es simple: ahora que puedo ejecutar Haskell en GPUs, y dado este aumento asintótico de velocidad, estoy en posición de resucitar estos viejos métodos de IA simbólica, escalarlos por órdenes de magnitud y ver qué sucede. Tal vez, solo tal vez, uno de ellos nos sorprenda.
Nuestro primer hito ya está en marcha: hemos construido el programa/sintetizador de pruebas más rápido del mundo, que llamo SupGen. O NeoGen. O QuickGen? Lo lanzaremos como una actualización de nuestro lenguaje "Bend", haciéndolo disponible públicamente alrededor de finales de octubre.
Luego, más tarde este año, lo utilizaremos como base para un nuevo programa de investigación, buscando una arquitectura simbólica pura que pueda aprender realmente de los datos y construir generalizaciones - no a través de descenso de gradiente y retropropagación, sino a través de razonamiento lógico y síntesis de programas.
Nuestros primeros experimentos serán muy simples (no muy diferentes de GPT-2), y el hito principal sería tener una "herramienta de completación de siguiente token" que esté 100% libre de redes neuronales.
Si esto funciona, podría ser un salto revolucionario más allá de los transformadores y el aprendizaje profundo, porque es un enfoque completamente nuevo que probablemente eliminaría muchas limitaciones heredadas de GPT que tienen hoy las IA. No solo problemas de tokenización (como las R en fresa), sino problemas fundamentales que impiden que los GPT aprendan de manera eficiente y generalicen.
delirante? probablemente
¿vale la pena intentarlo? absolutamente
(ahora adivina cuánto fue generado por IA y qué modelo utilicé)
35,2K
Parte superior
Clasificación
Favoritos