DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Connor Davis

Vi råkade bygga självförbättrande AI-system. Denna artikel från University of Oxford bevisar det. De flesta antar att modellförbättringar kommer från större arkitekturer eller noggrant utformade förstärkningsinlärningspipelines. Detta verk visar något mer subtilt och mer oroande. Om du distribuerar en modell, låter användare interagera med den, filtrerar bort misslyckanden och finjusterar endast på de framgångsrika spåren, börjar modellen förbättra sina planeringsförmågor på egen hand. Inga explicita belöningar, handgjord läroplan och ingen extern planerare. Bara iteration. Författarna kallar detta iterativ utplacering, och de testar det i kontrollerade planeringsmiljöer som Blocksworld, Rovers och Sokoban. Upplägget är enkelt: 1. Implementera en LLM för planeringsuppgifter 2. Behåll bara de planer som faktiskt fungerar 3. Finjustera nästa version på dessa giltiga spår Upprepa Efter bara fem generationer mer än fördubblas planeringsprestandan över alla domäner. I vissa fall förbättras det med 4 till 5 gånger. Ännu mer intressant är att senare generationer upptäcker mycket längre planer än basmodellen, vilket visar verklig generalisering utanför distributionen, inte bara formateringstrick eller snabb efterlevnad. Här är den viktigaste insikten. Artikeln bevisar att denna process är matematiskt ekvivalent med förstärkningsinlärning med en binär belöningssignal. Men belöningsfunktionen skrivs aldrig ner. Det definieras implicit av användarbeteende och kurering. Övervakad finjustering av "endast de bra utgångarna" visar sig vara FÖRSTÄRK i förklädnad. Det har två stora konsekvenser. För det första är iterativ implementering ett kraftfullt alternativ till explicit RL för att förbättra resonemang och planering. Det fungerar även när belöningar är svåra att definiera, så länge du kan validera utfall. För det andra, och ännu mer oroande, är belöningsfunktionen som formar framtida modeller ogenomskinlig. Användarpreferenser, plattformsincitament och valideringsbias blir tyst träningssignaler. Med tiden kan dessa signaler åsidosätta eller strida mot alignment-mål som satts under förträningen. Med andra ord lär sig modeller inte bara under träningen. De fortsätter att lära sig efter släppet. Och de lär sig vad världen än belönar dem för. Denna artikel omformulerar sig själv som en träningsloop. När du väl har sett det, kan du inte sluta se det. Läs hela artikeln:

Denna Stanford-artikel sätter hål i en av finansvärldens favoritursäkter: "datan är för brusiga." I årtionden har quants hävdat att råpriser är värdelösa utan handgjorda indikatorer ovanpå. Denna artikel ställer en renare fråga. Tänk om signalen redan finns där, och vi bara har sett på den på fel sätt? Författaren bygger en modell som förutspår positiva kontra nedåtgående rörelser för S&P 500-aktier enbart med hjälp av råa prisdata. Inga indikatorer. Bibliotek utan faktor. Bara daglig OHLCV plus justerade priser som uttryckligen speglar utdelningar och splits. Tricket är inte mer data. Det är representation. Istället för att behandla tidsserier som sekvenser behandlar artikeln rullande prisfönster som rumsliga objekt. Varje fönster blir en strukturerad matris, närmare en bild än ett diagram. Det gör att konvolutionella filter kan upptäcka lokala mönster som rörelsemängdsskiften, volatilitetsklustering och strukturella avbrott från företagsaktiviteter. Detta lånar intuition från datorseende, inte klassisk ekonometri. Datasetet sträcker sig över upp till tjugo år per aktie med institutionell prissättning. Tio kanaler matar modellen, och skjutfönstren skapar täta träningsprover utan syntetiska trick. Normalisering håller allt skalningsinvariant mellan funktioner. Arkitektoniskt är det en djup 1D-CNN. Tidiga lager fokuserar på kortsiktig struktur. Djupare lager plockar upp längre trender. Jämfört med återkommande modeller hanterar CNN volatilitetsspikar och händelsedrivna hopp med större stabilitet. Uppgiften är enkel men strikt: förutse riktning, inte återvändningar, över horisonter från några dagar till en månad. Träningen är noggrant justerad och konvergens ser ren ut snarare än misstänkt. Resultatet är det som gör människor obekväma. Flera storbolagsaktier når valideringsnoggrannheter i höga 80- och låga 90-tal. JP Morgan når runt 91 procent på längre sikter. Kurvorna tyder på verkligt lärande, inte en snabb överanpassning. Författaren är försiktig. Detta modellerar inte kostnader, genomförande eller fördröjning. Men det visar något viktigt. Djupa modeller kan internalisera marknadsmekanik direkt från råpristensorer, inklusive distorsioner som de flesta pipelines jämnar ut. Den större implikationen går djupt. Feature engineering kan spela mindre roll än hur du ramar in datan. Genom att välja rätt induktiv bias lär sig modellen struktur som människor vanligtvis försöker hårdkoda. Att behandla finansiella tidsserier som bildliknande objekt är inget trick. Det är ett seriöst alternativ till årtionden av handgjorda antaganden, och det utmanar idén att marknader är oläsliga utan tung mänsklig inblandning. Läs hela artikeln:

Topp

Rankning

Favoriter