Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Vietin 25 vuotta puolustusteollisuudessa (8+ univormussa, 2+ sota-alueilla).
En rakasta KKP:tä, mutta riippumatta siitä, miten suhtaudun Kiinan hallitukseen, heidän tekoälytutkimusyrityksensä tekee paljon hyvää ja ansaitsee tunnustusta.
Jokaiselle, joka pitää Deepseekiä jonkinlaisena "huonona toimijana", muistakaa, että jos he pitäisivät tämäntyyppiset innovaatiot salassa, he todennäköisesti vetäisivät yhdysvaltalaisten yritysten edelle ja häviäisimme tekoälykilpailun. Yritykset, kuten @deepseek_ai ja @Alibaba_Qwen, auttavat aktiivisesti edistämään SOTA AI:ta Yhdysvalloissa ja ympäri maailmaa eivätkä pyydä mitään vastineeksi.
Eivätkä he tee niin ylivoimaisen paineen vuoksi<cough><cough>, vaan siksi, että he haluavat jakaa tutkimuksensa ja mallinsa ihmisten kanssa, jotka käyttävät niitä yksityisillä tiedoillaan, ilman huolta siitä, että kolmannet osapuolet keräävät niitä, käyttävät niitä mainoksiin tai jakavat.
Vaikka Anthropicin kaltaiset yritykset yrittävät aktiivisesti ajaa lisää sääntelyä ja OpenAI pitää innovaationsa, testinsä ja järjestelmänsä salassa, nämä kiinalaiset laboratoriot vievät alaa eteenpäin samalla kun länsimainen media ja NIST(?) lyövät niitä.
Kunnia sinulle. Jatka sen tuomista.

Andrej Karpathy21.10. klo 06.13
Pidän uudesta DeepSeek-OCR-paperista. Se on hyvä OCR-malli (ehkä hieman huonompi kuin pisteet), ja kyllä tiedonkeruu jne., mutta joka tapauksessa sillä ei ole väliä.
Mielenkiintoisempaa minulle (erityisesti sydämeltään tietokonenäkönä, joka naamioituu väliaikaisesti luonnollisen kielen ihmiseksi) on se, ovatko pikselit parempia syötteitä LLM:iin kuin teksti. Ovatko tekstimerkit tuhlaavia ja vain kauheita, syötteessä.
Ehkä on järkevämpää, että kaikki LLM:ien syötteet ovat aina vain kuvia. Vaikka sinulla sattuisi olemaan puhdas tekstinsyöttö, ehkä haluat mieluummin renderöidä sen ja syöttää sen sitten:
- Enemmän tietojen pakkausta (katso paperi) = > lyhyemmät kontekstiikkunat, enemmän tehokkuutta
- huomattavasti yleisempi tietovirta => ei pelkkää tekstiä, vaan esim. lihavoitua tekstiä, värillistä tekstiä, mielivaltaisia kuvia.
- syöte voidaan nyt käsitellä kaksisuuntaisella huomiolla helposti ja oletuksena, ei autoregressiivisellä huomiolla - paljon tehokkaammin.
- Poista Tokenizer (syötteestä)!! Olen jo raivonnut siitä, kuinka paljon en pidä tokenizerista. Tokenisaattorit ovat rumia, erillisiä, eivät päästä päähän -vaiheita. Se "tuo" kaiken Unicoden rumuuden, tavukoodaukset, se perii paljon historiallista taakkaa, turvallisuus-/jailbreak-riskiä (esim. jatkotavuja). Se saa kaksi silmälle identtiseltä näyttävää hahmoa näyttämään kahdelta täysin erilaiselta tokenilta verkon sisällä. Hymyilevä emoji näyttää oudolta merkiltä, ei... todelliset hymyilevät kasvot, pikselit ja kaikki, ja kaikki siirto-oppiminen, joka tuo mukanaan. Tokenizerin on mentävä.
OCR on vain yksi monista hyödyllisistä näkö-> tekstitehtävistä. Ja teksti-> tekstitehtävät voidaan tehdä visio->tekstitehtäviksi. Ei päinvastoin.
Niin monet Käyttäjän viesti on kuvia, mutta dekooderi (Assistantin vastaus) pysyy tekstinä. On paljon vähemmän selvää, kuinka pikseleitä tulostetaan realistisesti... tai jos haluaisit.
Nyt minun on myös taisteltava halua taistella nanochatin vain kuvasyötteellä varustettua versiota...
392,33K
Voimmeko koota "America's Got Talent - AI Editionin", jossa tuomarit ovat @karpathy, @drfeifei ja @ClementDelangue?
Minusta tuntuu, että se olisi hitti...
Katso, kuka rakentaa hulluimman asian. Tuomarit etenevät 3 parhaan joukkoon asti, minkä jälkeen yleisö äänestää voittajan 1 miljoonan dollarin palkinnon.
11,1K
Johtavat
Rankkaus
Suosikit