Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Vi råkade bygga självförbättrande AI-system. Denna artikel från University of Oxford bevisar det.
De flesta antar att modellförbättringar kommer från större arkitekturer eller noggrant utformade förstärkningsinlärningspipelines.
Detta verk visar något mer subtilt och mer oroande.
Om du distribuerar en modell, låter användare interagera med den, filtrerar bort misslyckanden och finjusterar endast på de framgångsrika spåren, börjar modellen förbättra sina planeringsförmågor på egen hand.
Inga explicita belöningar, handgjord läroplan och ingen extern planerare.
Bara iteration.
Författarna kallar detta iterativ utplacering, och de testar det i kontrollerade planeringsmiljöer som Blocksworld, Rovers och Sokoban.
Upplägget är enkelt:
1. Implementera en LLM för planeringsuppgifter
2. Behåll bara de planer som faktiskt fungerar
3. Finjustera nästa version på dessa giltiga spår
Upprepa
Efter bara fem generationer mer än fördubblas planeringsprestandan över alla domäner. I vissa fall förbättras det med 4 till 5 gånger. Ännu mer intressant är att senare generationer upptäcker mycket längre planer än basmodellen, vilket visar verklig generalisering utanför distributionen, inte bara formateringstrick eller snabb efterlevnad.
Här är den viktigaste insikten.
Artikeln bevisar att denna process är matematiskt ekvivalent med förstärkningsinlärning med en binär belöningssignal.
Men belöningsfunktionen skrivs aldrig ner.
Det definieras implicit av användarbeteende och kurering.
Övervakad finjustering av "endast de bra utgångarna" visar sig vara FÖRSTÄRK i förklädnad.
Det har två stora konsekvenser.
För det första är iterativ implementering ett kraftfullt alternativ till explicit RL för att förbättra resonemang och planering. Det fungerar även när belöningar är svåra att definiera, så länge du kan validera utfall.
För det andra, och ännu mer oroande, är belöningsfunktionen som formar framtida modeller ogenomskinlig. Användarpreferenser, plattformsincitament och valideringsbias blir tyst träningssignaler. Med tiden kan dessa signaler åsidosätta eller strida mot alignment-mål som satts under förträningen.
Med andra ord lär sig modeller inte bara under träningen.
De fortsätter att lära sig efter släppet.
Och de lär sig vad världen än belönar dem för.
Denna artikel omformulerar sig själv som en träningsloop. När du väl har sett det, kan du inte sluta se det.
Läs hela artikeln:

Denna Stanford-artikel sätter hål i en av finansvärldens favoritursäkter: "datan är för brusiga."
I årtionden har quants hävdat att råpriser är värdelösa utan handgjorda indikatorer ovanpå. Denna artikel ställer en renare fråga. Tänk om signalen redan finns där, och vi bara har sett på den på fel sätt?
Författaren bygger en modell som förutspår positiva kontra nedåtgående rörelser för S&P 500-aktier enbart med hjälp av råa prisdata. Inga indikatorer. Bibliotek utan faktor. Bara daglig OHLCV plus justerade priser som uttryckligen speglar utdelningar och splits.
Tricket är inte mer data. Det är representation.
Istället för att behandla tidsserier som sekvenser behandlar artikeln rullande prisfönster som rumsliga objekt. Varje fönster blir en strukturerad matris, närmare en bild än ett diagram. Det gör att konvolutionella filter kan upptäcka lokala mönster som rörelsemängdsskiften, volatilitetsklustering och strukturella avbrott från företagsaktiviteter.
Detta lånar intuition från datorseende, inte klassisk ekonometri.
Datasetet sträcker sig över upp till tjugo år per aktie med institutionell prissättning. Tio kanaler matar modellen, och skjutfönstren skapar täta träningsprover utan syntetiska trick. Normalisering håller allt skalningsinvariant mellan funktioner.
Arkitektoniskt är det en djup 1D-CNN. Tidiga lager fokuserar på kortsiktig struktur. Djupare lager plockar upp längre trender. Jämfört med återkommande modeller hanterar CNN volatilitetsspikar och händelsedrivna hopp med större stabilitet.
Uppgiften är enkel men strikt: förutse riktning, inte återvändningar, över horisonter från några dagar till en månad. Träningen är noggrant justerad och konvergens ser ren ut snarare än misstänkt.
Resultatet är det som gör människor obekväma.
Flera storbolagsaktier når valideringsnoggrannheter i höga 80- och låga 90-tal. JP Morgan når runt 91 procent på längre sikter. Kurvorna tyder på verkligt lärande, inte en snabb överanpassning.
Författaren är försiktig. Detta modellerar inte kostnader, genomförande eller fördröjning. Men det visar något viktigt. Djupa modeller kan internalisera marknadsmekanik direkt från råpristensorer, inklusive distorsioner som de flesta pipelines jämnar ut.
Den större implikationen går djupt.
Feature engineering kan spela mindre roll än hur du ramar in datan. Genom att välja rätt induktiv bias lär sig modellen struktur som människor vanligtvis försöker hårdkoda.
Att behandla finansiella tidsserier som bildliknande objekt är inget trick. Det är ett seriöst alternativ till årtionden av handgjorda antaganden, och det utmanar idén att marknader är oläsliga utan tung mänsklig inblandning.
Läs hela artikeln:

1
Herregud... denna artikel kan vara den viktigaste förändringen i hur vi använder LLM:er under hela året.
"Stora kausala modeller från stora språkmodeller."
Det visar att man kan utveckla fullständiga kausala modeller direkt ur en LLM, inte approximationer, inte vibbar – faktiska kausala grafer, kontrafaktuala exempel, interventioner och begränsningskontrollerade strukturer.
Och sättet de gör det på är galet:
Istället för att träna en specialiserad kausal modell ifrågasätter de LLM som en vetenskapsman:
→ extrahera en kandidatkausal graf från text
→ be modellen kontrollera villkorliga independencies
→ upptäcker motsägelser
→ revidera strukturen
→ testar kontrafaktiska och interventionella förutsägelser
→ iterera tills den kausala modellen stabiliseras
Resultatet är något vi aldrig haft förut:
ett kausalt system byggt inom LLM med sin egen latenta världskunskap.
Över benchmarks syntetiska, verkliga, röriga domäner slår dessa LCM:er klassiska metoder för kausala upptäckter eftersom de hämtar från LLM:ns massiva förkunskap istället för bara lokala korrelationer.
Och den kontrafaktiska motiveringen?
Chockerande stark.
Modellen kan svara på "tänk om"-frågor som standardalgoritmer helt misslyckas med, helt enkelt för att den redan "vet" saker om världen som dessa algoritmer inte kan dra slutsatser om enbart data.
Denna artikel antyder en framtid där LLM:er inte bara är mönstermaskiner.
De blir kausala motorsystem som bildar, testar och förfinar strukturella förklaringar av verkligheten.
Om detta skalar upp kommer alla områden som bygger på kausal inferensekonomi, medicin, politik och vetenskap att skrivas om.
LLM:er berättar inte bara vad som händer.
De kommer att berätta varför.

63
Topp
Rankning
Favoriter
