Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Gokul Rajaram
@MarathonMP
Gratulacje dla @mwwhite i zespołu w @Multiply Mortgage za uczynienie posiadania domu bardziej przystępnym i dostępnym dzięki ich platformie hipotecznej opartej na AI. PS: Świetny profil w Forbes!

Michael White24 paź, 04:22
Świetny profil od @Forbes na temat @WithMultiply i jak nasze agentowe podejście do realizacji w połączeniu z ekspertami doradztwa i dystrybucją pracodawców przywraca dostępność mieszkań w zasięgu ręki. Link w wątku
6,08K
Uwielbiam, jak @DeepCogito buduje swoje modele przy użyciu samodzielnej gry - okazuje się, że to sprawia, że modele są lepsze zarówno w trybie rozumowania, jak i w trybie nie-myślenia.
Brawo @drishanarora i zespół @DeepCogito!

Drishan Arora22 paź, 02:37
Intuicyjnie łatwo zrozumieć, dlaczego samodzielna gra *może* działać w przypadku LLM, jeśli jesteśmy w stanie zapewnić funkcję wartości na etapach pośrednich (chociaż nie jest to tak jasno gwarantowane jak w grach dwuosobowych o sumie zerowej).
W szachach / go / pokerze mamy nagrodę związaną z każdym kolejnym ruchem, ale jak zauważa Noam, język naturalny jest chaotyczny. Trudno jest zdefiniować funkcję wartości na etapach pośrednich, takich jak tokeny. W rezultacie, w zwykłym uczeniu przez wzmocnienie (jak RLVR), LLM otrzymują nagrodę na końcu. Kończą na tym, że uczą się 'błądzić' bardziej w trudnych problemach. W pewnym sensie nagradzamy brutalne forsowanie z większą liczbą tokenów, aby dojść do właściwej odpowiedzi jako właściwego podejścia.
Jednak w @DeepCogito dostarczamy sygnał dla samego procesu myślenia. Koncepcyjnie można to sobie wyobrazić jako przyznawanie nagrody po fakcie lepszym trajektoriom wyszukiwania. Uczy to model rozwijać silniejszą intuicję na temat 'jak wyszukiwać' podczas rozumowania.
W praktyce model kończy z znacząco krótszymi łańcuchami rozumowania w przypadku trudniejszych problemów w trybie rozumowania. Nieco zaskakująco, kończy się również lepiej w trybie nie-myślenia. Jednym ze sposobów myślenia o tym jest to, że ponieważ model wie, jak lepiej wyszukiwać, 'wybiera' najbardziej prawdopodobną trajektorię lepiej w trybie nie-myślenia.
5,25K
Najlepsze
Ranking
Ulubione


