Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zajímalo by mě, zda lze toto "pixely vs. tokeny" rozšířit také na "zvuk vs. text".
Většina jazyků, kterými se kdy mluvilo, nikdy neměla psanou formu. Tolik bohatých informací (tón, podtext, prozódie) se ztratí, když mluvená slova zploštíme do přepisu.
Může to být zábavný experiment porovnat "gramotné" LLM (trénované na obrazech textu) a "orální" LLM (trénované na surovém zvuku), čímž se vytvoří paralela s lidskými společnostmi: jedna myslí v symbolech a prostoru, druhá v rytmu a čase.

21. 10. 06:13
Docela se mi líbí nový článek DeepSeek-OCR. Je to dobrý OCR model (možná o něco horší než tečky) a ano, sběr dat atd., ale stejně na tom nezáleží.
Zajímavější částí pro mě (zejména jako počítačový vision v srdci, který se dočasně maskuje jako osoba v přirozeném jazyce) je, zda jsou pixely lepšími vstupy do LLM než text. Zda jsou textové tokeny nehospodárné a prostě hrozné, na vstupu.
Možná by dávalo větší smysl, aby všechny vstupy do LLM byly vždy pouze obrázky. I když máte náhodou čistě textový vstup, možná byste ho raději vykreslili a pak ho vložili:
- více informací komprese (viz článek) = > kratší kontextová okna, větší efektivita
- výrazně obecnější informační tok = > nejen text, ale např. tučný text, barevný text, libovolné obrázky.
- vstup lze nyní snadno a standardně zpracovávat obousměrnou pozorností, nikoli autoregresivní pozorností - mnohem výkonnější.
- smazat tokenizer (na vstupu)!! Už jsem se rozplýval nad tím, jak moc se mi tokenizér nelíbí. Tokenizátory jsou ošklivé, oddělené, ne end-to-end fáze. "Importuje" veškerou ošklivost Unicode, bajtové kódování, dědí spoustu historického balastu, rizika bezpečnosti/jailbreaku (např. pokračovací bajty). Díky tomu vypadají dva znaky, které vypadají stejně jako oko a interně v síti jako dva zcela odlišné tokeny. Usmívající se emotikon vypadá jako podivný token, ne jako ... skutečný usměvavý obličej, pixely a tak dále, a všechno to přenosové učení, které to přináší. Tokenizátor musí jít.
OCR je jen jednou z mnoha užitečných textových úloh zaměřených na zrakové >. A textové > textové úlohy lze změnit na úlohy s vizí >textem. Ne naopak.
Mnoho zpráv uživatele jsou obrázky, ale dekodér (odpověď asistenta) zůstává textem. Je mnohem méně zřejmé, jak realisticky vystupovat pixely... nebo jestli byste chtěli.
Teď musím také bojovat s nutkáním vedlejší úkol vytvořit verzi nanochatu, která obsahuje pouze obrazový vstup...
Bude to hra mezi civilizací, která staví monumenty z kamene, a tou, která staví monumenty v písni
Další věcí, která mě napadá, je Shelleyho Ozymandias, kolosální relikvie pohřbené v písku, a přesto tato metafora není podána básníkovýma vlastníma očima, ale ústním příběhem cestovatele.
8,03K
Top
Hodnocení
Oblíbené

