har precis tryckt på min första RL-miljö med flera varv för att @PrimeIntellect upplägget: modellen får berättelsens titel + fråga från QuALITY (långa berättelser, flervalsfrågor). Endast tts-verktyg: agentic RAG-sökning över berättelsen.
14,68K