En la era del preentrenamiento, lo que importaba era el texto de Internet. Principalmente querrá una colección grande, diversa y de alta calidad de documentos de Internet para aprender. En la era del ajuste supervisado, eran conversaciones. Los trabajadores contratados son contratados para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientado a casos de uso de LLM. Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era de aprendizaje por refuerzo, ahora son los entornos. A diferencia de lo anterior, le dan al LLM la oportunidad de interactuar realmente: tomar medidas, ver resultados, etc. Esto significa que puede esperar hacerlo mucho mejor que la imitación de expertos estadísticos. Y se pueden utilizar tanto para el entrenamiento como para la evaluación de modelos. Pero al igual que antes, el problema central ahora es la necesidad de un conjunto de entornos grandes, diversos y de alta calidad, como ejercicios para que el LLM practique. De alguna manera, me recuerda al primer proyecto de OpenAI (gimnasio), que era exactamente un marco con la esperanza de construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran simples tareas de control académico de la época, como cartpole, ATARI, etc. El centro de entornos @PrimeIntellect (y el repositorio de 'verificadores' en GitHub) crea la versión modernizada dirigida específicamente a los LLM, y es un gran esfuerzo / idea. Propuse que alguien construyera algo así a principios de este año: Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio, la comunidad / industria puede paralelizar en muchos dominios diferentes, lo cual es emocionante. Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agenciales, pero soy bajista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son súper sus, y creo que los humanos no usan RL para aprender (tal vez lo hacen para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos usan diferentes paradigmas de aprendizaje que son significativamente más poderosos y eficientes en el muestreo y que aún no se han inventado y escalado adecuadamente, aunque existen los primeros bocetos e ideas (como solo un ejemplo, la idea de "aprendizaje rápido del sistema", moviendo la actualización a tokens/contextos no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).
Prime Intellect
Prime Intellecthace 20 horas
Presentación del centro de entornos Los entornos de RL son el cuello de botella clave para la próxima ola de progreso de la IA, pero los grandes laboratorios los están bloqueando Construimos una plataforma comunitaria para entornos abiertos de crowdsourcing, para que cualquiera pueda contribuir a AGI de código abierto
520.31K