Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Investigación líder en @PrimeIntellect
La próxima generación de inicio de productos de valoración 10B + se construirá escalando la capacitación en el entorno interno de RL
Vivimos en una gran cantidad de capacidades y, sin embargo, solo tenemos dos productos principales de IA, chatgpt y agente de codificación, y me frustra profundamente
La cadena de suministro actual de inteligencia artificial está estructuralmente rota con un proveedor de hardware, un par de jugadores gigantes de IA que poseen toda la refinería de inteligencia, los desarrolladores se quedan con acceso a la API sin apenas control
Como si la era de Internet se hubiera construido con Intel vendiendo CPU a 4 nubes gigantes que poseen toda la infraestructura y la pila de software con secretos y nda por todas partes y dando wordpress como un kit de desarrollo para la startup
¿Por qué la perplejidad no inventó la investigación profunda? Simplemente no pudieron porque es entrenar con RL
Mi predicción para los próximos años:
RL se convertirá en el conjunto de herramientas más poderoso para la creación de productos de IA en startups. Veremos cientos de historias de éxito como cursor y adorables. El usuario final será el que más se beneficie de ello
Los grandes laboratorios evolucionarán hacia la empresa de productos, oai se centrará en el mercado de consumo, Antropic en el agente de codificación, deepmind integrará la IA en todos los negocios de Google, meta y XAI luchan por las redes sociales
Veremos el surgimiento de un ecosistema de puesta en marcha de infraestructura de IA, venta de computación, entrenamiento de modelos de base, curación de datos, construcción de entornos de RL, ofreciendo inferencia y entrenamiento baratos, impulsados por ciencia abierta y software de código abierto.
@PrimeIntellect es pionera en este ecosistema y la visión de agi de código abierto, el centro de entorno de RL es una de las primeras piezas clave

Prime Intellecthace 10 horas
Presentación del centro de entornos
Los entornos de RL son el cuello de botella clave para la próxima ola de progreso de la IA, pero los grandes laboratorios los están bloqueando
Construimos una plataforma comunitaria para entornos abiertos de crowdsourcing, para que cualquiera pueda contribuir a AGI de código abierto
3.2K
samsja reposteó
¡14 días de distribución, día 7!
Conozca a Sami Jaghouar (@samsja19) de @PrimeIntellect:
Sami dirige su investigación y se centra en el preentrenamiento descentralizado y el aprendizaje por refuerzo distribuido como parte de su trabajo.
Sami dará una conferencia sobre cómo se ve la implementación de la capacitación descentralizada en Prime.

7.91K
El último hackathon en modo GPU fue el mejor hackathon al que asistí en persona, esperando con ansias el próximo

Mark Saroufim23 ago, 05:09
Es hora de nuevo de nuestra última celebración (ahora anual) del año. GPU MODE se reunirá IRL nuevamente en el centro de San Francisco el viernes 24 de octubre de 10 a.m. a 10 p.m. para hackear todo el día

3.64K
Parece que otras personas convergen para usar vllm v1 logprob para la relación de importancia para solucionar el problema de estabilidad.
Creo que tengo trastorno de estrés postraumático por este tipo de accidente de rl

Zichen Liu22 ago, 23:35
Con solo unas pocas líneas de código, la solución sugerida por Feng (@fengyao1909), aplicando el muestreo de importancia en la política de comportamiento, resolvió la inestabilidad del entrenamiento en mi caso (avena). Creo que el resultado también puede generalizarse a otros marcos de RL. ¡Buen trabajo, Feng!

6.76K
Estoy contratando ingeniero de investigación en @PrimeIntellect
Estamos construyendo un laboratorio agi de código abierto y estamos buscando talento en bruto. No nos importa su título de trabajo anterior.
Todos en el equipo de investigación son completos, construimos infraestructura y también miramos datos. Si tiene un punto óptimo para el sistema, el aprendizaje por refuerzo, los datos o la ley de escalado, se le presentará un montón de desafíos para resolver
83.26K
Populares
Ranking
Favoritas