Pidän uudesta DeepSeek-OCR-paperista. Se on hyvä OCR-malli (ehkä hieman huonompi kuin pisteet), ja kyllä tiedonkeruu jne., mutta joka tapauksessa sillä ei ole väliä. Mielenkiintoisempaa minulle (erityisesti sydämeltään tietokonenäkönä, joka naamioituu väliaikaisesti luonnollisen kielen ihmiseksi) on se, ovatko pikselit parempia syötteitä LLM:iin kuin teksti. Ovatko tekstimerkit tuhlaavia ja vain kauheita, syötteessä. Ehkä on järkevämpää, että kaikki LLM:ien syötteet ovat aina vain kuvia. Vaikka sinulla sattuisi olemaan puhdas tekstinsyöttö, ehkä haluat mieluummin renderöidä sen ja syöttää sen sitten: - Enemmän tietojen pakkausta (katso paperi) = > lyhyemmät kontekstiikkunat, enemmän tehokkuutta - huomattavasti yleisempi tietovirta => ei pelkkää tekstiä, vaan esim. lihavoitua tekstiä, värillistä tekstiä, mielivaltaisia kuvia. - syöte voidaan nyt käsitellä kaksisuuntaisella huomiolla helposti ja oletuksena, ei autoregressiivisellä huomiolla - paljon tehokkaammin. - Poista Tokenizer (syötteestä)!! Olen jo raivonnut siitä, kuinka paljon en pidä tokenizerista. Tokenisaattorit ovat rumia, erillisiä, eivät päästä päähän -vaiheita. Se "tuo" kaiken Unicoden rumuuden, tavukoodaukset, se perii paljon historiallista taakkaa, turvallisuus-/jailbreak-riskiä (esim. jatkotavuja). Se saa kaksi silmälle identtiseltä näyttävää hahmoa näyttämään kahdelta täysin erilaiselta tokenilta verkon sisällä. Hymyilevä emoji näyttää oudolta merkiltä, ei... todelliset hymyilevät kasvot, pikselit ja kaikki, ja kaikki siirto-oppiminen, joka tuo mukanaan. Tokenizerin on mentävä. OCR on vain yksi monista hyödyllisistä näkö-> tekstitehtävistä. Ja teksti-> tekstitehtävät voidaan tehdä visio->tekstitehtäviksi. Ei päinvastoin. Niin monet Käyttäjän viesti on kuvia, mutta dekooderi (Assistantin vastaus) pysyy tekstinä. On paljon vähemmän selvää, kuinka pikseleitä tulostetaan realistisesti... tai jos haluaisit. Nyt minun on myös taisteltava halua taistella nanochatin vain kuvasyötteellä varustettua versiota...