Monet ihmiset haluavat vertailla eri malliluokkia, kuten "päättelyä" tai "ei-päättelyä", joissa todellisuudessa he kaikki on koulutettu suurella määrällä samoja vahvistusoppimistekniikoita (ja muita juttuja). Oikea näkemys on nähdä jokainen mallijulkaisu päättelyn kirjolla. Monet sanovat, että Claude on ei-järkeilevä malli, mutta he olivat ensimmäisiä, joilla oli erityisiä tokeneita ja käyttökokemus "syvään ajattelemiseen, seisomiseen" (paljon ennen laajennettua ajattelutilaa). Sama voi päteä DeepSeek v3.1:een, joka on julkaistu, mutta ei vielä helppokäyttöinen. Meillä ei ole aavistustakaan siitä, kuinka monta merkkiä vastausta kohden käytetään oletusarvoisesti näiden mallien chat-versioissa. API:t, joilla on tarkka token-määrä, ovat ainoa totuuden lähde, ja niistä tulisi tiedottaa paljon useammin. Sitten päättelymalleissa käytettyjen tokenien määrässä on valtava vaihtelu. Mallien hinnan tulisi olla lopullinen ponnistelu, aktiivisten kokonaisparametrien ja käytettyjen tokenien määrän yhdistelmä. Kuunnellessani Dylan Patelia a16z-podcastissa näyttää siltä, että yksi GPT-5:n suurimmista voitoista ajattelutilassa, jota rakastan (samanlainen kuin o3), oli saada hieman parempia tuloksia lähes 50 % pienemmällä tokenilla. Olen tuntenut tämän hieman, se on vain enemmän tehtävää kuin o3. Toinen seikka on, että R1:n toinen sukupolvi, R1-0528 paransi pisteitä käyttämällä paljon enemmän päättelyä. Qwen on ollut samanlainen. Tämä ei ole aina erittäin arvokasta käyttäjälle. Teknisellä tasolla ratkaisemme tämän raportoimalla arviointituloksissa mallia kohden käytettyjen tokenien määrän (erityisesti suhteessa vertaisiin). Ongelmana on, että tekoälyn lanseeraukset ovat nyt melko valtavirtaa, ja viestiminen on vivahteikasta teknistä yksityiskohtaa. Esimerkiksi tutkimuspuolella voit merkittävästi nostaa arviointipisteitäsi arvioimalla päättelymalliasi pidemmässä kontekstissa kuin kollegasi. Tokenien ja joskus järjestelmäkehotteen päättely on nyt monimutkainen muuttuja, mutta ei yksinkertainen kyllä/ei kaikissa näissä julkaisuissa. Alla on kuvakaappaus postauksesta, jossa käsitellään tätä ennen o1:n julkaisua (12. syyskuuta viime vuonna) ja kuvakaappaus reddit-käyttäjästä, joka paljasti Clauden ajattelukäyttäytymisen. Säästän tämän paasauksen myöhempää käyttöä varten, koska minun on toistettava sitä koko ajan.
25,62K