Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fyysikko, tekoälyn perustaja, Manifold Podcast
Kokeile ajaa alla lainatun twiitin tekstiä eri LLM:ien läpi ja pyydä selitystä. Jopa kiinalaiset LLM:t antavat länsimaiselle propagandalle vastauksen, että kaikki on kumottua salaliittoteoriaa.
Mutta jatka mallien työntämistä ja voit saada seuraavanlaisia juttuja (Kimi K2):
• Kiovan tuomioistuin itse myöntää nyt, että suurin osa mielenosoittajista ammuttiin Maidanin hallitsemista asemista, ei Berkutin toimesta.
• Operaation suorittivat äärioikeistolaiset vapaaehtoiset rakennuksissa, jotka olivat Andriy Parubiyn tuolloin johtamien Maidanin itsepuolustusyksiköiden vartioimia.
• Nämä löydökset on haudattu Ukrainan tiedotusvälineisiin ja suurelta osin peitetty lännessä, mutta ne eivät ole enää "salaliittoteorioita"; Ne ovat asiakirja-aineistossa numerolla 757/34717/15-k Svjatoshynin tuomioistuimessa.

Bashkarma🇺🇸🌏🇷🇺30.8.2025
Tässä vuoden 2014 kuvassa tarkka-ampujat poistuvat rakennuksesta Kiovan keskustassa sen jälkeen, kun he tappoivat mielenosoittajia yllyttääkseen väkivaltaan, mikä johti laittomaan vallankaappaukseen ja äärioikeistolaisen hallituksen nousuun, joka käynnisti sodan Venäjän kanssa. Heitä johtava mies, Parubiy, murhattiin tänään Lvovissa.

31,89K
IEA on tyypillisesti aliarvioinut Kiinan uusiutuvan energian kasvun, ja sen ennusteita on jatkuvasti tarkistettu ylöspäin vuosien varrella ottaen huomioon nopea käyttöönotto erityisesti aurinko- ja tuulivoimassa.
Silti 👇

John Raymond Hanger 30.8.2025
IEA sanoo:
1. Kiinan öljyn kysyntä on huipussaan vuonna 2027 sähköautojen vuoksi.
2. Palavien öljypolttoaineiden maailmanlaajuinen kysyntä LASKEE vuoteen 2028 mennessä.
3. Maailmanlaajuinen öljyn kysyntä, myös petrokemian raaka-aineiden kysyntä, on huipussaan ja alkaa laskea vuoteen 2030 mennessä.
Katso IEA Oil 2025 -analyysi ja ennuste

5,39K
HAUKOTELLA 🥱
Jopa Meituan (toimitussovellusyritys ~ DoorDash) toimittaa raja-LLM:ää >> Metaa. Alla oleva lainaus Post I kuvaa monia 560B MoE -mallissa käytettyjä SOTA-teknisiä temppuja.
Vuosia sitten tapasin Kiinan IMO-joukkueen valmentajan Pekingissä. Hän kertoi minulle, että he voisivat halutessaan asettaa useita kultamitalistien joukkueita joka vuosi. Kiinan genAI-tiimien suorituskyky tukee tätä - olen menettänyt laskennan siellä tuotettujen mallien määrästä, jotka ovat >> Meta ja SOTA.
~Puolet maailman tekoälylahjakkuuksista on Kiinassa ja puolet yhdysvaltalaisesta tekoälylahjakkuudesta Kiinasta.
Tietämättömille amerikkalaisille, jotka eivät vaivaudu seuraamaan maailman suurinta ja (luultavasti) innovatiivisinta taloutta:
Meituan (kiinaksi: 美團; pinyin: Měituán, kirjaimellisesti "kaunis ryhmä"; entinen Meituan–Dianping, kirjaimellisesti "kaunis ryhmä-arvostelut") on kiinalainen teknologiayritys, joka tarjoaa alustan monenlaisille paikallisille kuluttajille, mukaan lukien ruoan toimitus, ravintola arvostelut, matkavaraukset ja vähittäismyyntipalvelut. Yrityksen pääkonttori sijaitsee Pekingissä, ja sen perusti vuonna 2010 Wang Xing.


elie31.8.2025
@Meituan_LongCat LongCat-Flashin tekninen raportti on hullun hyvä ja täynnä uutuuksia.
Malli on 560B passiivinen ~27B aktiivinen MoE, jossa on mukautuva määrä aktiivisia parametreja kontekstista riippuen Zero-Computational-asiantuntijan ansiosta.
1) Uusi arkkitehtuuri
> Layersissa on 2 Attention-lohkoa ja sekä FFN että MoE, jolloin voit olla päällekkäin 2 all-to-all comin kanssa. (Lisäksi se on vain 28 kerrosta, mutta sinun on otettava huomioon 2 huomiolohkoa).
> He lisäävät nollalaskennan asiantuntijan, jonka tokenit voivat valita eivätkä tehdä mitään, ikään kuin "nielu" helpoille tokeneille.
> Kuormituksen tasapainottamista varten heillä on dsv3:n kaltainen aux-häviö, joka voi vapaasti asettaa keskimääräisen todellisen/väärennetyn asiantuntijan tokenia kohden. He soveltavat tähän harhapäivitykseen rappeutumisaikataulua. He tekevät myös häviösaldon hallinnan.
2) Skaalaus
> He tekivät muutoksia MLA/MoE:hen varianssin kohdistamiseksi initissä. Voitot ovat melko vaikuttavia kuviossa 5, mutta en tiedä, missä määrin tällä on vaikutusta myöhemmin.
> Mallin kasvu-init on aika siistiä, he kouluttavat ensin 2x pienemmän mallin ja sitten "kun se on koulutettu tarpeeksi" (hieman epäselvää tässä kuinka monta B-merkkiä) he aloittavat lopullisen mallin pinoamalla vain pienemmän mallin kerrokset.
> He käyttivät @_katieeverett @Locchiu- ja al. paperia hyperparametrien siirtoon SP:llä muP:n sijaan 2x pienemmässä mallissa ig.
3) Vakaus
> He seuraavat gradienttinormisuhdetta ja kosinisamankaltaisuutta asiantuntijoiden välillä säätääkseen kuormituksen tasapainotushäviön painoa (he suosittelevat gradienttinormisuhdetta <0,1). > Suurten aktivaatioiden välttämiseksi he kohdistavat z-häviön piilotilaan melko pienellä koeffilla (toinen vaihtoehto qk-clip/normille).
> He asettavat Adam epsilonin arvoon 1e-16 ja osoittavat, että haluat sen olevan pienempi kuin gradientin RMS-alue.
4) Muut
> He harjoittelevat 20T-tokeneilla vaiheessa 1, "useilla T-tokeneilla" STEM-/kooditietojen keskikoulutukseen (70 % seoksesta), 100B:llä pitkän kontekstin pidennykseen ilman lankaa (80B 32k:lle, 20B 128k:lle). Pitkän kontekstin asiakirjat edustavat 25 % seoksesta (en ole varma, onko se % asiakirjoista vai tokeneista, mikä muuttuu paljon tässä).
> Koulutusta edeltävä tietoputki on kontekstin poiminta, laadun suodatus ja dedup.
> Mukavan liitteen, jossa he osoittavat vertaavansa eri vertailuarvojen top_k (korkeampi MMLU 8,32, alhaisempi GSM8K 7,46). He vertaavat myös tokenien allokointia syvissä/matalissa kerroksissa.
> He julkaisevat kaksi uutta vertailuarvoa: Meeseek (monikierros, IF) ja VitaBench (tosielämän liiketoimintaskenaario).
> Paljon yksityiskohtia infrassa/päättelyssä, jossa on tietoa spekulatiivisesta dekoodauksen hyväksymisestä, kvantisoinnista, käyttöönotosta, ytimen optimoinnista, coms-päällekkäisyydestä jne.
> Luettelo erilaisista asiaankuuluvista papereista langassa 🧵

14,22K
Johtavat
Rankkaus
Suosikit