Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect erneut gepostet
.@willccbb (Forschungsleiter, Prime Intellect) über die Funktionsweise von RL-Umgebungen:
„Eine Umgebung ist im Wesentlichen eine Evaluation. Du hast Eingabearbeiten, ein System und am Ende bewertet es, wie dein Modell oder Agent abschneidet. Das ist das Setup, das wir sowohl für Evaluierungen als auch für das RL-Training verwenden.“
Er fügt hinzu, dass die Zukunft nicht nur darin besteht, „100.000 GPUs in einem riesigen Cluster zu bekommen.“
12,29K
Prime Intellect erneut gepostet
In der Ära des Pretrainings war der Internettext entscheidend. Man wollte hauptsächlich eine große, vielfältige und qualitativ hochwertige Sammlung von Internetdokumenten, um daraus zu lernen.
In der Ära des überwachten Feintunings waren es Gespräche. Vertragsarbeiter werden eingestellt, um Antworten auf Fragen zu erstellen, ähnlich wie man es auf Stack Overflow / Quora usw. sehen würde, aber ausgerichtet auf LLM-Anwendungsfälle.
Keine der beiden oben genannten wird verschwinden (meiner Meinung nach), aber in dieser Ära des verstärkenden Lernens sind es jetzt die Umgebungen. Im Gegensatz zu den oben genannten geben sie dem LLM die Möglichkeit, tatsächlich zu interagieren - Aktionen zu ergreifen, Ergebnisse zu sehen usw. Das bedeutet, dass man hoffen kann, viel besser abzuschneiden als bei der statistischen Expertenimitation. Und sie können sowohl für das Training als auch für die Bewertung des Modells verwendet werden. Aber wie zuvor besteht das Kernproblem jetzt darin, eine große, vielfältige und qualitativ hochwertige Sammlung von Umgebungen zu benötigen, als Übungen, gegen die das LLM üben kann.
In gewisser Weise erinnert es mich an OpenAIs allererstes Projekt (Gym), das genau ein Framework war, das hoffte, eine große Sammlung von Umgebungen im gleichen Schema aufzubauen, aber das war lange bevor LLMs existierten. Die Umgebungen waren einfache akademische Kontrollaufgaben der damaligen Zeit, wie Cartpole, ATARI usw. Das @PrimeIntellect-Umgebungen-Hub (und das `verifiers`-Repo auf GitHub) baut die modernisierte Version, die speziell auf LLMs abzielt, und es ist eine großartige Anstrengung/Idee. Ich habe vorgeschlagen, dass jemand etwas Ähnliches wie das Anfang dieses Jahres aufbaut:
Umgebungen haben die Eigenschaft, dass, sobald das Grundgerüst des Frameworks vorhanden ist, die Gemeinschaft/Industrie prinzipiell über viele verschiedene Bereiche parallelisieren kann, was aufregend ist.
Letzter Gedanke - persönlich und langfristig bin ich optimistisch in Bezug auf Umgebungen und agentische Interaktionen, aber ich bin pessimistisch in Bezug auf verstärkendes Lernen speziell. Ich denke, dass Belohnungsfunktionen super sus sind, und ich denke, dass Menschen RL nicht zum Lernen verwenden (vielleicht tun sie das für einige motorische Aufgaben usw., aber nicht für intellektuelle Problemlösungsaufgaben). Menschen verwenden verschiedene Lernparadigmen, die erheblich leistungsfähiger und stichproben-effizienter sind und die noch nicht richtig erfunden und skaliert wurden, obwohl frühe Skizzen und Ideen existieren (als nur ein Beispiel die Idee des "System Prompt Learning", bei dem das Update auf Tokens/Contexts und nicht auf Gewichte verschoben wird und optional in Gewichte destilliert wird, als separater Prozess, ähnlich wie es der Schlaf tut).
372,57K
Prime Intellect erneut gepostet
Die nächste Generation von Startups mit einer Bewertung von über 10 Milliarden wird durch die Skalierung des Trainings in einer internen RL-Umgebung aufgebaut.
Wir leben in einem Überfluss an Fähigkeiten und dennoch haben wir nur zwei große KI-Produkte, ChatGPT und Coding-Agent, und das frustriert mich zutiefst.
Die aktuelle Lieferkette der künstlichen Intelligenz ist strukturell kaputt, mit einem Hardware-Anbieter und ein paar riesigen KI-Spielern, die alle Intelligenzraffinerien besitzen, während Entwickler mit API-Zugriff ohne nennenswerte Kontrolle zurückgelassen werden.
Als ob die Internet-Ära mit Intel, das CPUs an vier große Cloud-Anbieter verkauft, aufgebaut wurde, die die gesamte Infrastruktur und den Software-Stack mit Geheimnissen und NDAs überflutet haben und WordPress als Entwicklungskit an Startups geben.
Warum hat Perplexity nicht tiefgehende Forschung erfunden? Sie konnten einfach nicht, weil es mit RL trainiert wird.
Meine Vorhersage für die nächsten Jahre:
RL wird das leistungsstärkste Toolkit für den Aufbau von KI-Produkten in Startups werden. Wir werden Hunderte von Erfolgsgeschichten wie Cursor und Lovable sehen. Die Endbenutzer werden am meisten davon profitieren.
Große Labore werden sich in Produktunternehmen entwickeln, OAI wird sich auf den Verbrauchermarkt konzentrieren, Anthropic auf Coding-Agenten, DeepMind wird KI in alle Google-Geschäfte integrieren, Meta und XAI werden um soziale Medien kämpfen.
Wir werden das Entstehen eines Ökosystems von KI-Infrastruktur-Startups sehen, die Rechenleistung verkaufen, Grundmodelle trainieren, Daten kuratieren, RL-Umgebungen aufbauen und günstige Inferenz und Training anbieten, unterstützt von offener Wissenschaft und Open-Source-Software.
@PrimeIntellect ist Pionier in diesem Ökosystem, und die Vision eines Open-Source-AGI-RL-Umgebungs-Hubs ist eines der ersten Schlüsselstücke.
3,21K
Prime Intellect erneut gepostet
Open-Source-RL-Umgebungen könnten das wichtigste fehlende Puzzlestück für die Skalierung zu Open-Source-AGI sein.
Wir haben ein Community-Hub aufgebaut, um sie offen zu crowdsourcen.
Dankbar für all die großartigen Mitwirkenden, die in den letzten Tagen bereits Umgebungen erstellt haben.

12,8K
Prime Intellect erneut gepostet
Die nächste Generation von Startups mit einer Bewertung von über 10 Milliarden wird durch die Skalierung des Trainings in einer internen RL-Umgebung aufgebaut.
Wir leben in einem Überfluss an Fähigkeiten und dennoch haben wir nur zwei große KI-Produkte, ChatGPT und Coding-Agent, und das frustriert mich zutiefst.
Die aktuelle Lieferkette der künstlichen Intelligenz ist strukturell kaputt, mit einem Hardware-Anbieter und ein paar riesigen KI-Spielern, die alle Intelligenzraffinerien besitzen, während Entwickler mit API-Zugriff ohne nennenswerte Kontrolle zurückgelassen werden.
Als ob die Internet-Ära mit Intel, das CPUs an vier riesige Cloud-Anbieter verkauft, aufgebaut wurde, die die gesamte Infrastruktur und den Software-Stack mit Geheimnissen und NDAs überflutet haben und WordPress als Entwicklungskit an Startups geben.
Warum hat Perplexity nicht tiefgehende Forschung erfunden? Sie konnten einfach nicht, weil es mit RL trainiert wird.
**Meine Vorhersage für die nächsten Jahre**:
RL wird das leistungsstärkste Werkzeug für den Aufbau von KI-Produkten in Startups werden. Wir werden Hunderte von Erfolgsgeschichten wie Cursor und Lovable sehen. Die Endbenutzer werden am meisten davon profitieren.
Große Labore werden sich in Produktunternehmen entwickeln, OAI wird sich auf den Verbrauchermarkt konzentrieren, Anthropic auf den Coding-Agent, DeepMind wird KI in alle Google-Geschäfte integrieren, Meta und XAI werden um soziale Medien kämpfen.
Wir werden das Entstehen eines Ökosystems von KI-Infrastruktur-Startups sehen, die Rechenleistung verkaufen, Grundmodelle trainieren, Daten kuratieren, RL-Umgebungen aufbauen und günstige Inferenz und Training anbieten, unterstützt von offener Wissenschaft und Open-Source-Software.
@PrimeIntellect ist Pionier dieses Ökosystems und die Vision eines Open-Source-AGI, RL-Umgebungs-Hubs ist eines der ersten Schlüsselstücke.
6,4K
Wir unterstützen jetzt Slurm (und bald Kubernetes) für unsere H100-, H200- und B200-Multi-Node-Setups:


Jannik27. Aug., 00:15
Der Slurm-Support wurde gerade für unsere H100, H200 und B200 Multi-Node-Setups eingestellt.

7,41K
Wir unterstützen jetzt Slurm (und bald Kubernetes) für unsere H100-, H200- und B200-Multi-Node-Setups.


Jannik27. Aug., 00:15
Der Slurm-Support wurde gerade für unsere H100, H200 und B200 Multi-Node-Setups eingestellt.

125
Top
Ranking
Favoriten