Her er denne ukens Ritual Research Digest, et nyhetsbrev som dekker det siste arbeidet i verden av LLM-er og skjæringspunktet mellom personvern, AI og desentraliserte protokoller. Denne uken presenterer vi en ICML-utgave, som dekker noen av de mange artiklene vi likte på konferansen.
Kast terningene og se før du hopper: Gå utover de kreative grensene for prediksjon av neste token. I denne artikkelen utforsker de de kreative grensene for prediksjon av neste token i store språkmodeller ved å bruke "minimale" åpne grafalgoritmiske oppgaver.
De ser på det gjennom to kreative linser: kombinasjons- og utforskende. Next-token-trente modeller er stort sett mindre kreative og husker mye mer enn multi-token-modeller. De utforsker også frøkondisjonering som en metode for å produsere meningsfullt mangfold i LLM-generasjoner.
rStar-Math: Små LLM-er kan mestre matematisk resonnement med selvutviklet dyp tenkning Denne artikkelen bruker selvutviklende finjustering for å forbedre datakvaliteten og gradvis avgrense prosessbelønningsmodellen ved hjelp av MCTS og små LM-er.
Den bruker en selvevolusjonsprosess som starter i det små med genererte verifiserte løsninger og trener iterativt bedre modeller. Datasyntesen gjøres med kodeforsterket tankekjede. Det forbedrer Qwen2.5-Math-7B fra 58.8 % til 90.0 % og Phi3-mini-3.8B fra 41.4 % til 86.4 %.
Opplæring av en generelt nysgjerrig agent Denne artikkelen introduserer Paprika, en metode for å trene LLM-er til å bli generelle beslutningstakere som kan løse nye oppgaver uten skudd. De trener på ulike arbeidsgrupper for å undervise i informasjonsinnhenting og beslutningstaking.
RL for LLM-er fokuserer på enkeltsvingsinteraksjoner, så de fungerer ofte suboptimalt på sekvensiell beslutningstaking med flersvingsinteraksjoner over forskjellige tidshorisonter. Paprika genererer forskjellige baner med prøvetaking ved høy temperatur og lærer av vellykkede.
Hvordan får store språkaper sin makt (lover) Denne artikkelen undersøker begrepet potenslover i LLM-er og gir et matematisk rammeverk for å forstå hvordan og hvorfor språkmodellytelse forbedres med økt inferensberegning.
CVE-Bench: En målestokk for AI-agenters evne til å utnytte Dette arbeidet introduserer en reell cybersikkerhetsreferanse ved først å lage en systematisk sandkasse. For hvert sikkerhetsproblem oppretter de beholdere som er utformet for å være vert for en app med eksponerte sårbarheter.
Deretter introduserer de CVE-Bench, den første virkelige cybersikkerhetsreferansen for LLM-agenter. I CVE-Bench samler de 40 vanlige sårbarheter og eksponeringer (CVE-er) i National Vulnerability Database.
Noen andre artikler vi likte: - AI-agenter trenger autentisert delegering - LLM-SRBench: Benchmark for vitenskapelig ligningsoppdagelse med LLM-er - Maskinlæring møter algebraisk kombinatorikk - Skalering av testtidsberegning uten verifisering eller RL er suboptimalt
Følg oss @ritualdigest for mer om alt som har med krypto x AI-forskning å gjøre, og @ritualnet for å lære mer om hva Ritual bygger.
5,26K