Lek med att träna en liten 11M parameter teckennivå textdiffusionsmodell! Det är en WIP, men koden är för närvarande en kraftigt modifierad nanochat gpt-implementering (för att ändra från autoregressiv avkodning till diffusion) och tränad på Tiny Shakespeare-datasetet. Den naiva implementeringen av ett maskeringsschema har en enhetlig maskeringssannolikhet för varje token för varje iteration. Nyare metoder maskerar i blockbitar från vänster till höger, vilket förbättrar utskriftskvaliteten och tillåter viss återanvändning av KVCache. Jag insåg att man faktiskt kan använda maskering på vilket godtyckligt sätt som helst under genereringsprocessen. Nedan kan du se att jag tillämpade maskering baserat på reglerna i Conway's Game of Life. Jag undrar om det finns några ovanliga maskeringsstrategier som denna som ger fördelar. Oavsett vilket är detta ett mycket intressant och fascinerande sätt att korrumpera och deformera text.