Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Investigación líder en @PrimeIntellect
La próxima generación de startups de productos valorados en más de 10B se construirá escalando el entrenamiento en un entorno de RL interno.
Vivimos en una abundancia de capacidades y, sin embargo, solo tenemos dos productos principales de IA, chatgpt y un agente de codificación, y eso me frustra profundamente.
La cadena de suministro actual de inteligencia artificial está estructuralmente rota, con un único proveedor de hardware, un par de gigantes de IA que poseen toda la refinería de inteligencia, y los desarrolladores se quedan con acceso a API con apenas control.
Como si la era de Internet se hubiera construido con Intel vendiendo CPU a 4 gigantes de la nube que poseen toda la infraestructura y la pila de software, con secretos y NDA por todas partes, y dando WordPress como un kit de desarrollo a las startups.
¿Por qué no inventó Perplexity la investigación profunda? Simplemente no pudieron porque se entrena con RL.
Mi predicción para los próximos años:
RL se convertirá en la herramienta más poderosa para que las startups construyan productos de IA. Veremos cientos de historias de éxito como Cursor y Lovable. El usuario final se beneficiará más de ello.
Los grandes laboratorios evolucionarán hacia empresas de productos, OAI se centrará en el mercado de consumo, Antropic en el agente de codificación, DeepMind integrará IA en todos los negocios de Google, y Meta y XAI pelearán por las redes sociales.
Veremos la aparición de un ecosistema de startups de infraestructura de IA, vendiendo computación, entrenando modelos fundamentales, curando datos, construyendo entornos de RL, ofreciendo inferencia y entrenamiento baratos, impulsados por la ciencia abierta y el software de código abierto.
@PrimeIntellect está liderando este ecosistema y la visión de AGI de código abierto, el hub de entornos de RL es una de las primeras piezas clave.

Prime IntellectHace 14 horas
Presentamos el Hub de Entornos
Los entornos de RL son el principal obstáculo para la próxima ola de progreso en IA, pero los grandes laboratorios los están cerrando
Hemos construido una plataforma comunitaria para la creación colectiva de entornos abiertos, para que cualquiera pueda contribuir al AGI de código abierto.
3,23K
samsja republicó
¡14 Días de Distribución, Día 7!
Conoce a Sami Jaghouar (@samsja19) de @PrimeIntellect:
Sami lidera su investigación y se centra en el preentrenamiento descentralizado y el aprendizaje por refuerzo distribuido como parte de su trabajo.
Sami dará una conferencia sobre cómo se implementa el entrenamiento descentralizado en Prime.

7,92K
El último hackathon de modo GPU fue el mejor hackathon al que he asistido en persona, estoy deseando que llegue el siguiente.

Mark Saroufim23 ago, 05:09
Es hora de nuestra última (ahora anual) extravagancia de celebración del año. GPU MODE se reunirá en persona nuevamente en el centro de San Francisco el viernes 24 de octubre de 10 a.m. a 10 p.m. para hackear todo el día.

3,66K
Parece que otras personas convergen en usar vllm v1 logprob para la relación de importancia para solucionar el problema de estabilidad.
Creo que tengo PTSD de este tipo de colapso de RL.

Zichen Liu22 ago, 23:35
Con solo unas pocas líneas de código, la solución sugerida por Feng (@fengyao1909)—aplicando muestreo de importancia en la política de comportamiento—resolvió la inestabilidad del entrenamiento en mi caso (oat). Creo que el resultado puede generalizarse a otros marcos de RL también. ¡Gran trabajo, Feng!

6,79K
Estoy contratando un ingeniero de investigación en @PrimeIntellect
Estamos construyendo laboratorios de AGI de código abierto y estamos buscando talento en bruto. No nos importa tu título de trabajo anterior.
Todos en el equipo de investigación son full stack, construimos infraestructura y también analizamos datos. Si tienes un punto fuerte en sistemas, aprendizaje por refuerzo, datos o leyes de escalado, te enfrentarás a un montón de desafíos por resolver.
83,28K
Parte superior
Clasificación
Favoritos