Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gokul Rajaram
@MarathonMP
Kudos an @mwwhite und das Team von @Multiply Mortgage, dass sie den Erwerb von Wohneigentum mit ihrer KI-gesteuerten Hypothekenplattform erschwinglicher und zugänglicher machen. PS: Großartiges Profil in Forbes!

Michael WhiteVor 18 Stunden
Toller Beitrag von @Forbes über @WithMultiply und wie unser agentischer Ansatz zur Erfüllung in Kombination mit Expertenberatern und Arbeitgeberverteilung die Erschwinglichkeit von Wohnraum wieder in Reichweite bringt. Link im Thread
5,41K
Ich liebe es, wie @DeepCogito seine Modelle mit Selbstspiel aufbaut - es stellt sich heraus, dass dies die Modelle sowohl im Denk- als auch im Nicht-Denk-Modus verbessert.
Hut ab @drishanarora und dem @DeepCogito-Team!

Drishan Arora22. Okt., 02:37
Es ist intuitiv leicht zu verstehen, warum Selbstspiel *funktionieren kann* für LLMs, wenn wir in der Lage sind, eine Wertfunktion in den Zwischenschritten bereitzustellen (obwohl nicht so klar garantiert wie in Zwei-Spieler Nullsummenspielen).
Im Schach / Go / Poker haben wir eine Belohnung, die mit jedem nächsten Zug verbunden ist, aber wie Noam anmerkt, ist natürliche Sprache unordentlich. Es ist schwierig, eine Wertfunktion in Zwischenschritten wie Tokens zu definieren. Infolgedessen erhalten LLMs im üblichen Reinforcement Learning (wie RLVR) eine Belohnung am Ende. Sie lernen, für schwierige Probleme mehr zu 'meandern'. In gewisser Weise belohnen wir das brutale Durchforsten mit mehr Tokens, um schließlich zur richtigen Antwort zu gelangen, als den richtigen Ansatz.
Bei @DeepCogito bieten wir jedoch ein Signal für den Denkprozess selbst. Konzeptuell kann man sich das als nachträgliche Zuweisung einer Belohnung für bessere Suchtrajektorien vorstellen. Dies lehrt das Modell, ein stärkeres Gespür dafür zu entwickeln, 'wie man sucht', während es schlussfolgert.
In der Praxis hat das Modell deutlich kürzere Denkketten für schwierigere Probleme im Denkmodus. Überraschenderweise ist es auch im Nicht-Denkmodus besser. Eine Möglichkeit, darüber nachzudenken, ist, dass das Modell, da es besser suchen kann, die wahrscheinlichste Trajektorie im Nicht-Denkmodus besser 'wählt'.
5,08K
Ja. Es liegt daran, dass man nicht die volle Kontrolle über das Endergebnis hat. Man kann und sollte nicht Preise für Ergebnisse festlegen, die man nicht vollständig kontrollieren kann.

Brian Halligan17. Okt., 09:00
Ich war wirklich begeistert von dem ergebnisbasierten Preismodell à la dem, was Sierra, Fin usw. machen, aber je mehr ich darüber nachdenke, desto mehr denke ich, dass es nicht zur Norm werden wird. Zu schwer anzuwenden in 99 % der Unternehmen.
Liege ich falsch?
25,94K
Top
Ranking
Favoriten

