Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg lurer på om denne "piksler vs. tokens" også kan utvides til "lyd vs. tekst".
De fleste språk som noen gang er snakket har aldri en skriftlig form. Så mye rik informasjon (tone, undertekst, prosodi) går tapt når vi flater ut talte ord til en transkripsjon.
Det kan være et morsomt eksperiment å sammenligne "litterære" LLM-er (trent på bilder av tekst) med "muntlige" LLM-er (trent på rå lyd), og trekke en parallell til menneskelige samfunn: den ene tenker i symboler og rom, den andre i rytme og tid.

21. okt. 2025
Jeg liker den nye DeepSeek-OCR-artikkelen ganske godt. Det er en god OCR-modell (kanskje litt verre enn prikker), og ja datainnsamling osv., men uansett spiller det ingen rolle.
Den mer interessante delen for meg (spesielt som et datasyn i hjertet som midlertidig maskerer seg som en naturlig språkperson) er om piksler er bedre innganger til LLM-er enn tekst. Om teksttokens er bortkastet og bare forferdelig, ved inngangen.
Kanskje det gir mer mening at alle inndata til LLM-er bare skal være bilder. Selv om du tilfeldigvis har ren tekstinndata, foretrekker du kanskje å gjengi den og deretter mate den inn:
- mer informasjonskomprimering (se artikkelen) => kortere kontekstvinduer, mer effektivitet
- betydelig mer generell informasjonsstrøm => ikke bare tekst, men f.eks. fet tekst, farget tekst, vilkårlige bilder. 
- Inndata kan nå behandles med toveis oppmerksomhet enkelt og som standard, ikke autoregressiv oppmerksomhet - mye kraftigere.
- slett tokenizeren (ved inngangen)!! Jeg har allerede raljert om hvor mye jeg misliker tokenizeren. Tokenizere er stygge, separate, ikke ende-til-ende-stadiet. Den "importerer" all styggheten til Unicode, byte-kodinger, den arver mye historisk bagasje, sikkerhets-/jailbreak-risiko (f.eks. fortsettelsesbyte). Det får to tegn som ser identiske ut for øyet til å se ut som to helt forskjellige tokens internt i nettverket. En smilende emoji ser ut som et merkelig token, ikke en... Faktisk smilende ansikt, piksler og alt, og all overføringslæringen som følger med. Tokenizeren må bort.
OCR er bare en av mange nyttige syns- > tekstoppgaver. Og tekst- > tekstoppgaver kan gjøres til visjons- >tekstoppgaver. Ikke omvendt.
Så mange brukermeldingen er bilder, men dekoderen (assistentens svar) forblir tekst. Det er mye mindre åpenbart hvordan man sender ut piksler realistisk ... eller hvis du vil.
Nå må jeg også kjempe mot trangen til å sidesøke en versjon av nanochat med kun bildeinndata...
Det vil være et spill mellom en sivilisasjon som bygger monumenter av stein kontra en som bygger monumenter i sang
En annen ting jeg tenker på er Shelleys Ozymandias, de kolossale relikviene begravd i sand, og likevel leveres dette billedspråket ikke gjennom dikterens egne øyne, men en muntlig historie om en reisende.
8,08K
Topp
Rangering
Favoritter

