Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Forschung @allen_ai, Argumentation, offene Modelle, RL(VR/HF)...
Kontaktaufnahme per E-Mail.
Schreibt @interconnectsai,
schrieb das RLHF-Buch,
Bergläufer.
Ich bin fest davon überzeugt, dass, obwohl ich die Herausforderungen verstehe, die sie haben, um dies zu betreiben, dies die falsche Entscheidung ist. Was Arxiv in der Praxis ist, unterscheidet sich sehr von dem, was es in der Realität ist.
In der Praxis gibt es bereits Moderationsregeln, aber sie werden so minimal durchgesetzt (aufgrund der Überlastung), dass sie effektiv nicht vorhanden sind. Siehe Dinge wie Schaeffer, Rylan. "Pretraining on the test set is all you need." arXiv Preprint arXiv:2309.08632 (2023). Viele weitere Fälle. Die Moderation von Arxiv ist bereits eine unvorhersehbare Black Box, die die Verbreitung von Forschung und die Vorhersehbarkeit des Forschungssystems behindert.
Es ist wichtig zu beachten, dass Arxiv Richtlinien hat, die dies, Studentenprojekte, vielleicht das RLHF-Buch und andere häufig veröffentlichte Dinge "nicht erlaubt" machen.
Tatsächlich sollte Arxiv in die andere Richtung gehen. Sei die Plattform, auf der jeder akzeptiert, dass JEDER CS-Forschung ist, und finde später heraus, ob sie gut ist.
Das fühlt sich an wie die frühen Phasen eines langsamen Todes von Arxiv. Wo sie in 2-3 Jahren dasselbe für "technische" Forschung sagen werden und dann Peer-Review dort verlangen. All dies wird nur die Veröffentlichung von Forschung verzögern, da Peer-Review Zeit braucht. Gleichzeitig wird das Peer-Review im Zeitalter der KI komplett neu aufgebaut und es wird noch länger dauern, es zu reparieren.
Das Peer-Review wird als KI-gestützt mit menschlicher Aufsicht umgestaltet. Es wird derzeit angenommen, dass es alles menschlich ist. Es wird in 20 Jahren ein ganz anderer Prozess sein.
Nachdem Arxiv eine Peer-Review-Anforderung für technische Arbeiten eingeführt hat, wird es der langsame Tod der Plattform sein. Ein Konkurrent wird auftauchen. Eine schlüpfrige Abwärtsspirale hat begonnen, und ich bin gerne bereit, mit dem Team darüber zu beraten, da es sich um einen Verlust für beide Seiten handelt.
Zum Beispiel könnte ich mit diesem, mein RLHF-Buch-PDF niemals auf Arxiv veröffentlichen, obwohl es extrem nachgefragt wurde und wahrscheinlich ein sehr gut gelesenes PDF ist (mehr als ein Großteil meiner Forschungsarbeit).
Behalte Arxiv als Standard. Wir wollen nicht, dass dies von einem gewinnorientierten Unternehmen betrieben wird. Hosting und Open Access zu Forschung ist ein grundlegender Gewinn für die Menschheit. Herauszufinden, wie man es kuratiert, ist ein neues Problem für das KI-Zeitalter, bitte überlasst es nicht unseren etwas defekten Peer-Review-Institutionen. Macht es zu etwas Neuem, das KI-nativ ist. Lean in die Zukunft.
Aktualisiere die Richtlinien von Arxiv, um die Realität widerzuspiegeln, nicht ein schlüpfriges Ziel, das wahrscheinlich unmöglich zu erreichen ist.

Thomas G. Dietterich31. Okt. 2025
Der Bereich Informatik von @arxiv verlangt jetzt eine vorherige Peer-Review für Literaturübersichten und Positionspapiere. Einzelheiten in einem neuen Blogbeitrag.
190
Ich bin überzeugt, es so schnell wie möglich auszuprobieren, wir sollten alle FP16 ausprobieren, schau dir dieses Diagramm an, Mann. FP16 ist perfekt in der Fehlerreduzierung.
"Genau aus diesem Grund bietet der Wechsel zu FP16 eine grundlegende Lösung. Mit seinen 10 Mantissenbits bietet FP16 8-mal mehr Präzision (2^10 Werte gegenüber 2^7 Werten) als BF16. Diese höhere Genauigkeit bedeutet, dass die Ausgaben der Trainings- und Inferenz-Engines viel wahrscheinlicher numerisch identisch sind. Die erhöhte Präzision schafft einen Puffer, der die geringfügigen Implementierungsunterschiede zwischen den beiden Engines absorbiert, wodurch verhindert wird, dass Rundungsfehler sich ansammeln und eine Politikabweichung verursachen.
Für das Feintuning von RL wurde der dynamische Bereich der Gewichte und Aktivierungen des Modells bereits während des Vortrainings festgelegt. Daher ist der extreme Bereich von BF16 weniger kritisch, während die Präzision, die es opfert, zu einem dominierenden Nachteil wird. Indem wir zu FP16 zurückkehren, tauschen wir den unnötigen Bereich von BF16 gegen die kritische Präzision ein und schließen effektiv die Lücke zwischen Training und Inferenz, ohne komplexe algorithmische oder ingenieurtechnische Umgehungen."

53
Top
Ranking
Favoriten


