Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect reposteó
.@willccbb (Líder de investigación, Prime Intellect) sobre cómo funcionan realmente los entornos de RL:
"Un entorno es esencialmente una evaluación. Tienes tareas de entrada, un arnés y, al final, califica el rendimiento de tu modelo o agente. Esa es la configuración que usamos tanto para las evaluaciones como para el entrenamiento de RL".
Agrega que el futuro no se trata solo de "obtener 100,000 GPU en un clúster gigante".
11K
Prime Intellect reposteó
En la era del preentrenamiento, lo que importaba era el texto de Internet. Principalmente querrá una colección grande, diversa y de alta calidad de documentos de Internet para aprender.
En la era del ajuste supervisado, eran conversaciones. Los trabajadores contratados son contratados para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientado a casos de uso de LLM.
Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era de aprendizaje por refuerzo, ahora son los entornos. A diferencia de lo anterior, le dan al LLM la oportunidad de interactuar realmente: tomar medidas, ver resultados, etc. Esto significa que puede esperar hacerlo mucho mejor que la imitación de expertos estadísticos. Y se pueden utilizar tanto para el entrenamiento como para la evaluación de modelos. Pero al igual que antes, el problema central ahora es la necesidad de un conjunto de entornos grandes, diversos y de alta calidad, como ejercicios para que el LLM practique.
De alguna manera, me recuerda al primer proyecto de OpenAI (gimnasio), que era exactamente un marco con la esperanza de construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran simples tareas de control académico de la época, como cartpole, ATARI, etc. El centro de entornos @PrimeIntellect (y el repositorio de 'verificadores' en GitHub) crea la versión modernizada dirigida específicamente a los LLM, y es un gran esfuerzo / idea. Propuse que alguien construyera algo así a principios de este año:
Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio, la comunidad / industria puede paralelizar en muchos dominios diferentes, lo cual es emocionante.
Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agenciales, pero soy bajista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son súper sus, y creo que los humanos no usan RL para aprender (tal vez lo hacen para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos usan diferentes paradigmas de aprendizaje que son significativamente más poderosos y eficientes en el muestreo y que aún no se han inventado y escalado adecuadamente, aunque existen los primeros bocetos e ideas (como solo un ejemplo, la idea de "aprendizaje rápido del sistema", moviendo la actualización a tokens/contextos no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).
302.25K
Prime Intellect reposteó
La próxima generación de inicio de productos de valoración 10B + se construirá escalando la capacitación en el entorno interno de RL
Vivimos en una gran cantidad de capacidades y, sin embargo, solo tenemos dos productos principales de IA, chatgpt y agente de codificación, y me frustra profundamente
La cadena de suministro actual de inteligencia artificial está estructuralmente rota con un proveedor de hardware, un par de jugadores gigantes de IA que poseen toda la refinería de inteligencia, los desarrolladores se quedan con acceso a la API sin apenas control
Como si la era de Internet se hubiera construido con Intel vendiendo CPU a 4 nubes gigantes que poseen toda la infraestructura y la pila de software con secretos y nda por todas partes y dando wordpress como un kit de desarrollo para la startup
¿Por qué la perplejidad no inventó la investigación profunda? Simplemente no pudieron porque es entrenar con RL
Mi predicción para los próximos años:
RL se convertirá en el conjunto de herramientas más poderoso para la creación de productos de IA en startups. Veremos cientos de historias de éxito como cursor y adorables. El usuario final será el que más se beneficie de ello
Los grandes laboratorios evolucionarán hacia la empresa de productos, oai se centrará en el mercado de consumo, Antropic en el agente de codificación, deepmind integrará la IA en todos los negocios de Google, meta y XAI luchan por las redes sociales
Veremos el surgimiento de un ecosistema de puesta en marcha de infraestructura de IA, venta de computación, entrenamiento de modelos de base, curación de datos, construcción de entornos de RL, ofreciendo inferencia y entrenamiento baratos, impulsados por ciencia abierta y software de código abierto.
@PrimeIntellect es pionera en este ecosistema y la visión de agi de código abierto, el centro de entorno de RL es una de las primeras piezas clave
3.2K
Prime Intellect reposteó
Los entornos RL de código abierto pueden ser la pieza faltante más importante para escalar a AGI de código abierto.
Hemos creado un centro comunitario para colaborarlos de forma abierta
Agradecido a todos los increíbles colaboradores que ya han creado entornos en los últimos días

12.8K
Prime Intellect reposteó
La próxima generación de inicio de productos de valoración 10B + se construirá escalando la capacitación en el entorno interno de RL
Vivimos en una gran cantidad de capacidades y, sin embargo, solo tenemos dos productos principales de IA, chatgpt y agente de codificación, y me frustra profundamente
La cadena de suministro actual de inteligencia artificial está estructuralmente rota con un proveedor de hardware, un par de jugadores gigantes de IA que poseen toda la refinería de inteligencia, los desarrolladores se quedan con acceso a la API sin apenas control
Como si la era de Internet se hubiera construido con Intel vendiendo CPU a 4 nubes gigantes que poseen toda la infraestructura y la pila de software con secretos y nda por todas partes y dando wordpress como un kit de desarrollo para la startup
¿Por qué la perplejidad no inventó la investigación profunda? Simplemente no pudieron porque es entrenar con RL
**Mi predicción para los próximos años**:
RL se convertirá en el conjunto de herramientas más poderoso para la creación de productos de IA en startups. Veremos cientos de historias de éxito como cursor y adorables. El usuario final será el que más se beneficie de ello
Los grandes laboratorios evolucionarán hacia la empresa de productos, oai se centrará en el mercado de consumo, Antropic en el agente de codificación, deepmind integrará la IA en todos los negocios de Google, meta y XAI luchan por las redes sociales
Veremos el surgimiento de un ecosistema de puesta en marcha de infraestructura de IA, venta de computación, entrenamiento de modelos de base, curación de datos, construcción de entornos de RL, ofreciendo inferencia y entrenamiento baratos, impulsados por ciencia abierta y software de código abierto.
@PrimeIntellect es pionera en este ecosistema y la visión de agi de código abierto, el centro de entorno de RL es una de las primeras piezas clave
6.39K
Presentación del centro de entornos
Los entornos de RL son el cuello de botella clave para la próxima ola de progreso de la IA, pero los grandes laboratorios los están bloqueando
Construimos una plataforma comunitaria para entornos abiertos de crowdsourcing, para que cualquiera pueda contribuir a AGI de código abierto
5.63K
Ahora admitimos Slurm (y pronto Kubernetes) para nuestras configuraciones de varios nodos H100, H200 y B200:


Jannik27 ago, 00:15
El soporte de Slurm acaba de caer en Prime para nuestras configuraciones de nodos múltiples H100, H200 y B200

7.4K
Ahora admitimos Slurm (y pronto Kubernetes) para nuestras configuraciones de varios nodos H100, H200 y B200


Jannik27 ago, 00:15
El soporte de Slurm acaba de caer en Prime para nuestras configuraciones de nodos múltiples H100, H200 y B200

114
Prime Intellect reposteó
Anunciamos la 2ª cohorte de Inflection Grants – Compute Edition ☀️
En asociación con @PrimeIntellect, estamos dando a 5 jóvenes constructores $ 2,000 en créditos informáticos para impulsar proyectos fronterizos, que abarcan IA, salud, biotecnología y espacio.
Conozca a los 👇 beneficiarios

5.47K
Populares
Ranking
Favoritas