Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
M-am pierdut puțin în toate acronimele și jargonul de aici, așa că l-am pus pe Claude să explice fără a folosi acronime și acum totul are sens (tldr; lățime de bandă ⟹ simplitate):
Aceasta este o discuție tehnică fascinantă despre antrenarea modelelor lingvistice mari la scară.
Conversația de bază
Jingyuan Liu își exprimă surprinderea când descoperă că nu aveți nevoie de anumite tehnici complexe de optimizare atunci când utilizați TPU-uri (Tensor Processing Units - cipurile AI specializate de Google) versus GPU-uri (Graphics Processing Units - de obicei cipurile NVIDIA).
Concepte tehnice cheie explicate:
Tipuri hardware:
• GPU (Graphics Processing Unit): Proiectat inițial pentru grafică, acum utilizat intens pentru AI. NVIDIA domină această piață.
• TPU (Tensor Processing Unit): cipurile personalizate de la Google special pentru învățarea automată.
Strategii de paralelism:
Când antrenați modele masive de inteligență artificială, trebuie să împărțiți munca între mai multe cipuri. Există mai multe moduri de a face acest lucru:
1) Paralelismul datelor (DP): Fiecare cip procesează diferite loturi de date cu aceeași copie a modelului
2) Paralelismul tensorial (TP): Operațiile matematice ale modelului sunt împărțite între cipuri
3) Paralelismul conductei (PP): Diferite straturi ale modelului sunt plasate pe cipuri diferite, creând o conductă
Provocarea tehnică discutată:
Problema pierderilor auxiliare: Când antrenați modele foarte mari, adăugați adesea "pierderi auxiliare" (obiective de antrenament suplimentare) la straturile intermediare pentru a ajuta gradientele să curgă mai bine prin rețea. În cadrul constrângerilor PPVP (Pipeline Parallelism with Variable Partitioning), acest lucru devine complex deoarece:
•Trebuie să faceți "toate toate pasele b" (toate pasele înainte, apoi toate pasele înapoi)
•Acest lucru este o provocare pentru utilizarea maximă a memoriei, deoarece trebuie să stocați rezultate intermediare
Inovația DeepSeek: Au dezvoltat un design "auxfree bias" care aparent evită să aibă nevoie de aceste pierderi auxiliare în timp ce se antrenează eficient.
Revelația surprinzătoare:
Expertul senior i-a spus lui Jingyuan că cu TPU-uri la scară K2 sau DSV3 (acestea sunt configurații de cluster cu sute sau mii de cipuri), puteți obține MFU (Model FLOPs Utilization - practic cât de eficient utilizați hardware-ul) FĂRĂ a utiliza Pipeline Parallelism.
De ce este surprinzător?
•Paralelismul conductelor este de obicei considerat esențial pentru instruirea la scară largă
• Este o tehnică complexă care necesită o optimizare atentă
• Posibilitatea de a-l evita simplifică totul semnificativ
Explicația lui Horace He:
El explică de ce acest lucru este posibil cu TPU-urile:
Avantajul lățimii de bandă: TPU-urile și clusterele NVIDIA de ultimă generație (cum ar fi NVL72 - cea mai recentă configurație NVIDIA cu 72 de GPU-uri cu interconexiuni NVLink) au o lățime de bandă atât de mare între cipuri încât pot face față cerințelor de comunicare fără paralelism de conductă.
Ideea cheie:
• Paralelismul conductei este necesar în primul rând atunci când sunteți "blocat în comunicațiile DP" (limitat de cât de repede puteți comunica în timpul antrenamentului paralel al datelor)
•Dacă aveți suficientă lățime de bandă într-un domeniu suficient de mare (cluster interconectat), puteți utiliza strategii de paralelism mai simple
• Acest lucru funcționează "pentru o perioadă foarte lungă de timp" - ceea ce înseamnă că puteți antrena chiar și modele foarte mari fără a atinge limitele
Intuiția:
Gândiți-vă la asta ca la un sistem de autostrăzi:
• Clusterele GPU tradiționale sunt ca și cum ai avea drumuri înguste între orașe, așa că ai nevoie de rutare complexă (Pipeline Parallelism) pentru a evita ambuteiajele
• Clusterele TPU sau GPU-urile conectate NVLink sunt ca și cum ai avea autostrăzi masive - poți trimite totul direct fără rutare fantezistă
Aceasta este o mare problemă, deoarece paralelismul conductei este complex de implementat, depanat și optimizat. Posibilitatea de a o evita în timp ce obține o eficiență ridicată face ca întregul proces de instruire să fie mult mai simplu și mai fiabil.
Discuția evidențiază modul în care progresele în tehnologia de interconectare hardware ("drumurile" dintre cipuri) pot schimba fundamental strategiile software necesare pentru un antrenament eficient AI.

16,74K
M-am pierdut puțin în toate acronimele și jargonul de aici, așa că l-am pus pe Claude să explice fără a folosi acronime și acum totul are sens (tldr; lățime de bandă ⟹ simplitate):
Aceasta este o discuție tehnică fascinantă despre antrenarea modelelor lingvistice mari la scară.
Conversația de bază
Jingyuan Liu își exprimă surprinderea când descoperă că nu aveți nevoie de anumite tehnici complexe de optimizare atunci când utilizați TPU-uri (Tensor Processing Units - cipurile AI specializate de Google) versus GPU-uri (Graphics Processing Units - de obicei cipurile NVIDIA).
Concepte tehnice cheie explicate:
Tipuri hardware:
• GPU (Graphics Processing Unit): Proiectat inițial pentru grafică, acum utilizat intens pentru AI. NVIDIA domină această piață.
• TPU (Tensor Processing Unit): cipurile personalizate de la Google special pentru învățarea automată.
Strategii de paralelism:
Când antrenați modele masive de inteligență artificială, trebuie să împărțiți munca între mai multe cipuri. Există mai multe moduri de a face acest lucru:
1Paralelism de date (DP): Fiecare cip procesează loturi diferite de date cu aceeași copie a modelului
2Paralelismul tensorial (TP): Operațiile matematice ale modelului sunt împărțite între cipuri
3Paralelismul conductei (PP): Diferite straturi ale modelului sunt plasate pe cipuri diferite, creând o conductă
Provocarea tehnică discutată:
Problema pierderilor auxiliare: Când antrenați modele foarte mari, adăugați adesea "pierderi auxiliare" (obiective de antrenament suplimentare) la straturile intermediare pentru a ajuta gradientele să curgă mai bine prin rețea. În cadrul constrângerilor PPVP (Pipeline Parallelism with Variable Partitioning), acest lucru devine complex deoarece:
•Trebuie să faceți "toate toate pasele b" (toate pasele înainte, apoi toate pasele înapoi)
•Acest lucru este o provocare pentru utilizarea maximă a memoriei, deoarece trebuie să stocați rezultate intermediare
Inovația DeepSeek: Au dezvoltat un design "auxfree bias" care aparent evită să aibă nevoie de aceste pierderi auxiliare în timp ce se antrenează eficient.
Revelația surprinzătoare:
Expertul senior i-a spus lui Jingyuan că cu TPU-uri la scară K2 sau DSV3 (acestea sunt configurații de cluster cu sute sau mii de cipuri), puteți obține MFU (Model FLOPs Utilization - practic cât de eficient utilizați hardware-ul) FĂRĂ a utiliza Pipeline Parallelism.
De ce este surprinzător?
•Paralelismul conductelor este de obicei considerat esențial pentru instruirea la scară largă
• Este o tehnică complexă care necesită o optimizare atentă
• Posibilitatea de a-l evita simplifică totul semnificativ
Explicația lui Horace He:
El explică de ce acest lucru este posibil cu TPU-urile:
Avantajul lățimii de bandă: TPU-urile și clusterele NVIDIA de ultimă generație (cum ar fi NVL72 - cea mai recentă configurație NVIDIA cu 72 de GPU-uri cu interconexiuni NVLink) au o lățime de bandă atât de mare între cipuri încât pot face față cerințelor de comunicare fără paralelism de conductă.
Ideea cheie:
• Paralelismul conductei este necesar în primul rând atunci când sunteți "blocat în comunicațiile DP" (limitat de cât de repede puteți comunica în timpul antrenamentului paralel al datelor)
•Dacă aveți suficientă lățime de bandă într-un domeniu suficient de mare (cluster interconectat), puteți utiliza strategii de paralelism mai simple
• Acest lucru funcționează "pentru o perioadă foarte lungă de timp" - ceea ce înseamnă că puteți antrena chiar și modele foarte mari fără a atinge limitele
Intuiția:
Gândiți-vă la asta ca la un sistem de autostrăzi:
• Clusterele GPU tradiționale sunt ca și cum ai avea drumuri înguste între orașe, așa că ai nevoie de rutare complexă (Pipeline Parallelism) pentru a evita ambuteiajele
• Clusterele TPU sau GPU-urile conectate NVLink sunt ca și cum ai avea autostrăzi masive - poți trimite totul direct fără rutare fantezistă
Aceasta este o mare problemă, deoarece paralelismul conductei este complex de implementat, depanat și optimizat. Posibilitatea de a o evita în timp ce obține o eficiență ridicată face ca întregul proces de instruire să fie mult mai simplu și mai fiabil.
Discuția evidențiază modul în care progresele în tehnologia de interconectare hardware ("drumurile" dintre cipuri) pot schimba fundamental strategiile software necesare pentru un antrenament eficient AI.

3,47K
Sunt oarecum surprins că nimeni nu a făcut încă un server MCP Dwarf Fortress care ar putea permite unui agent precum Codex sau Claude Code să controleze eficient jocul și să monitorizeze starea și progresul.
Nu l-am jucat niciodată, doar l-am descărcat și l-am verificat scurt acum aproximativ 10 ani, dar mi-a plăcut să citesc despre el.
Se pare că ar fi un test foarte bun pentru un LLM pentru a vedea cât timp ar putea menține piticii în viață și înfloritori.
Deoarece fiecare joc duce în cele din urmă la o catastrofă în cascadă care provoacă moartea tuturor piticilor, ar trebui să existe un punct de oprire natural, ceea ce îl face un bun candidat de referință. Cel puțin așa înțeleg eu (motto-ul jucătorilor este "A pierde este distractiv").
A face o treabă bună cu aceste jocuri s-ar baza pe acuratețea instrumentelor și pe coerența susținută a sarcinilor de lungă durată, plus capacitatea de a monitoriza și înțelege dinamica unui sistem complex și de a face intervenții în timp util care anticipează și contracarează problemele.
Și pentru că este nativ terminal, ar putea fi transmis și procesat eficient folosind jetoane obișnuite fără a fi nevoie de procesare multimodală a imaginii, ceea ce l-ar face mult mai eficient decât alte jocuri.
În plus, știți că niciun laborator AI nu s-a antrenat pentru asta (încă!), așa că nu este afectat de "benchmaxxing".

4,06K
Un lucru distractiv de făcut atunci când trebuie să aștepți câteva minute este să-ți folosești telefonul pentru a-i pune lui Claude Opus următoarea întrebare despre o disciplină sau un domeniu aleatoriu:
"Care ați spune că este intuiția de bază sau trucul analitic al cristalografiei?"
Înlocuiți cristalografia cu orice vă puteți gândi. Până acum, am încercat:
QED; modelul standard; Biochimie; Probabilitate; Teoria evoluționistă; și multe altele.
Există ceva în a forța modelul să facă imposibilul, să condenseze un câmp vast și complex într-un "truc ciudat", care îl face să caute cu adevărat cel mai bun principiu profund și unificator din domeniu și apoi să-l articuleze succint.
Acest lucru tinde să fie ceva evident pentru practicieni, dar foarte probabil să fie necunoscut de majoritatea oamenilor cu doar un interes trecător pentru subiect.
Interesant este că puteți apăsa în mod repetat butonul "reîncercare" cu același prompt și uneori puteți obține explicații foarte diferite, dar de obicei foarte fascinante.
Am învățat deja MULTE din asta și ar putea fi cea mai mare "înțelegere pe minut" pe care am întâlnit-o în orice învățare auto-dirijată.
Pentru că nu sunt doar fapte amuzante sau bucăți interesante. Ele sunt, prin construcție, idei pătrunzătoare și unificatoare care leagă împreună o cantitate vastă de teorie și fenomene observate în lume.
Cu siguranță este mult mai mare lățime de bandă decât vizionarea unui alt videoclip explicativ YouTube cu animații și reclame pentru Brilliant/KiwiCo! Nu că ar fi ceva în neregulă cu acestea.




8,01K
Ideea că a existat recent un astfel de "exod de talente" de la OpenAI încât nu mai sunt poziționați pentru a fi un lider în spațiu este la fel de greșită și greșită ca ideea că GPT-5 "a fost un mare eșec și modelul nu este atât de grozav și este foarte incremental".
Nu numai că GPT-5 Pro este cel mai inteligent model din lume acum într-o măsură foarte mare pentru cele mai dificile sarcini din lumea reală (în special sarcinile de codare, care au cea mai mare importanță economică acum), dar noul instrument codex cli de la OpenAI este incredibil de bine executat.
Au trecut de la un îndepărtat loc 3 în instrumente cli de codare la ceea ce este, fără îndoială, cel mai bun acum (rețineți că încă îmi place și folosesc Claude Code, nu este ori/sau!), cu de departe cea mai bună performanță, cea mai mică latență etc. pentru că este programat în rugină.
Și acum acest instrument cli este combinat cu cel mai bun model de codare care are cea mai bună fiabilitate și cea mai bună coerență a sarcinilor lungi, cu cea mai mică halucinații.
Și inutil să spun că aplicația lor iOS este, de asemenea, dramatic mai bună decât toate celelalte aplicații AI în ceea ce privește lustruirea și caracteristicile. Aplicația Claude este doar aplicația web într-un sandbox Safari! Și aplicația lor web este, de asemenea, cea mai bună. Lucruri precum căutarea funcționează mai bine decât în alte aplicații. Blocare și placaj de bază.
Deci, da. Unii oameni foarte inteligenți precum Ilya și John Schulman au plecat la alte companii. Dar au totuși o echipă tehnică absolut minunată, cu oameni de produs incredibil de buni și abilități inginerești minunate.
Nu lăsați dezgustul pentru Altman să vă orbească la ceea ce este evident. Ori de câte ori văd încă o persoană vorbind despre cât de rău este GPT-5, mă înfior, pentru că persoana arată că nu poate gândi singură pe baza dovezilor și a rațiunii și m-a făcut să gândească o opinie (și să o spună online) pentru că crede că o face să pară deșteaptă.
34,04K
Cât de tare este că fiecare dintre aceste mici cipuri are 8 terabytes de stocare super rapidă? Și le puteți conecta pe amândouă în acea carcasă albastră și puteți obține 20 Gbps prin USB 3.3 (nu am porturi USB 4 și toate sloturile mele pci-e sunt ocupate de GPU-uri)
Trăim într-o epocă a abundenței.

3,21K
Ca o actualizare a celor două subiecte recente despre utilizarea GPT-5 Pro pentru a iniția un proces de descoperire a teoriilor revoluționare care combină aplicații noi ale matematicii avansate și cazurile de utilizare AI, am pus modelul să creeze implementări demo în Python folosind Jax și Numpy pentru fiecare dintre cele 11 idei.
Apoi le-am pus împreună într-un proiect și am adăugat un CLI frumos pentru a le rula și o serie de teste end-to-end care au măsurat dacă codul este corect din punct de vedere matematic, verifică dacă codul are proprietățile matematice pe care le dorim și, în cele din urmă, dacă face ceva util față de abordările standard actuale.
Am folosit codex CLI cu GPT-5 pentru a integra totul și a remedia erorile. Voi face un link către depozit, care conține documentație detaliată pentru întregul proiect și apoi scrieri pentru fiecare dintre cele 11 demonstrații care conțin toate rezultatele generate de model în timpul procesului.
3,82K
Uau, am reușit în sfârșit să încerc noua versiune a codex CLI de la OpenAI (răspunsul lor la Claude Code).
Ultima dată am încercat să folosesc codex (rețineți că acesta este diferit de agentul lor de codare găzduit, numit și codex, care este extrem de confuz; Vorbesc acum despre instrumentul pe care îl rulați local pe mașina dvs. în terminal), a fost scris ca o aplicație Nodejs/Typescript și chiar a fost cam nasol:
- Ar putea accesa doar modele mai slabe precum O4-Mini sau varianta lor pentru Codex, numit confuz și Codex (serios?)
- UI/UX mult mai rău decât Claude Code
- mult mai prost la codare ca urmare a unui model mai prost, a uneltelor mai proaste, a unui flux de agent mai slab.
- te-a forțat enervant să dai permisiunea pentru orice, așa că a trebuit să ai grijă de ele tot timpul, făcându-l mult mai puțin util pentru că nu puteai rula în mod activ o grămadă de ele în paralel cu ușurință.
- Poate că a fost un lucru bun, pentru că de departe cea mai mare problemă a fost că a făcut lucruri super nesăbuite și distructive; a fost mult mai cavaler decât CC.
Acesta este motivul pentru care am încetat imediat să-l folosesc, deoarece a decis să facă un "git reset --hard HEAD" fără a ascunde mai întâi și am pierdut ceva lucru. Niciodată, m-am gândit.
Ei bine, în sfârșit am reușit să încerc noua versiune rust care folosește GPT-5 și care poate folosi abonamentul GPT Pro existent în loc de o cheie API, iar acest lucru este mult mai bun încât este șocant.
În primul rând, pur și simplu nu există înlocuitor pentru codul compilat rapid atunci când vine vorba de instrumente interactive ca acesta.
Faptul că este scris în rugină înseamnă că nu există deloc întârziere la intrarea de la tastatură și, de asemenea, nu există artefacte ciudate ca cele pe care le aveți în CC, unde backspace nu funcționează corect și intrarea este neplăcută și întârziată, deoarece este scrisă într-un limbaj interpretat care este de o sută de ori mai lent pentru astfel de lucruri.
A face față întârzierilor constante nu este doar mai lent, este obositor și obositor din punct de vedere mental și poate chiar emoțional, cel puțin pentru mine când folosesc aceste lucruri ore în șir. Este un sentiment oribil să urăști și să resimți uneltele tale, chiar dacă depinzi de ele pentru a-ți face treaba.
Sper cu adevărat că acest lucru ridică ștacheta pentru toate aceste instrumente și va convinge Anthropic și Google și alții să folosească și rust (sau C++, Zig, orice).
Dar îmbunătățirea cu adevărat mare este, evident, modelul; cu un model mai rău, care nu este de încredere la apelarea instrumentelor și care își pierde coerența în sarcinile mai lungi, nimic din rapiditatea lui Rust nu ar merita nimic.
Dar dacă mă urmăriți aici, atunci veți ști că am fost uimit de abilitățile de codare și priceperea de chemare a instrumentelor GPT-5 Thinking de aproximativ 15 minute după ce a apărut, deși l-am folosit în principal din fila agentului Cursor.
Concluzia este că acest nou codex rust a devenit brusc un concurent cu adevărat formidabil pentru CC și ar trebui neapărat să-l încercați.
Va trebui să văd cât de multă utilizare mă lasă să scap cu abonamentul meu GPT Pro de 200 USD/lună, dar dacă trebuie să mai iau câteva, va merita din plin.
Rețineți că nu am încetat să folosesc CC. Îmi place să le folosesc pe amândouă împreună. Și credeți sau nu, încă folosesc și Cursor.
Oamenii ar trebui să înceteze să mai caute un singur instrument care să le înlocuiască pe toate celelalte și să accepte că diferite instrumente au puncte forte și puncte slabe diferite și obții cele mai bune rezultate învățând toate acestea intuitiv din utilizarea constantă.
Oricum, fă-ți o favoare și ia-o acum. Cel mai simplu mod este să faceți această comandă (rețineți că aceasta vă va aduce versiunea rust, în ciuda cât de confuz este să utilizați bun/npm pentru asta):
bun i -g @openai/codex
8,61K
Uau, am reușit în sfârșit să încerc noua versiune a codex CLI de la OpenAI (răspunsul lor la Claude Code).
Ultima dată am încercat să folosesc codex (rețineți că acesta este diferit de agentul lor de codare găzduit, numit și codex, care este extrem de confuz; Vorbesc acum despre instrumentul pe care îl rulați local pe mașina dvs. în terminal), a fost scris ca o aplicație Nodejs/Typescript și chiar a fost cam nasol:
- Ar putea accesa doar modele mai slabe precum O4-Mini sau varianta lor pentru Codex, numit confuz și Codex (serios?)
- UI/UX mult mai rău decât Claude Code
- mult mai prost la codare ca urmare a unui model mai prost, a uneltelor mai proaste, a unui flux de agent mai slab.
- te-a forțat enervant să dai permisiunea pentru orice, așa că a trebuit să ai grijă de ele tot timpul, făcându-l mult mai puțin util pentru că nu puteai rula în mod activ o grămadă de ele în paralel cu ușurință.
- Poate că a fost un lucru bun, pentru că de departe cea mai mare problemă a fost că a făcut lucruri super nesăbuite și distructive; a fost mult mai cavaler decât CC. Acesta este motivul pentru care am încetat imediat să-l folosesc, deoarece a decis să facă un "reset --hard HEAD" fără a depozita mai întâi și am pierdut ceva lucru. Niciodată, m-am gândit.
Ei bine, în sfârșit am reușit să încerc noua versiune rust care folosește GPT-5 și care poate folosi abonamentul GPT Pro existent în loc de o cheie API, iar acest lucru este mult mai bun încât este șocant.
În primul rând, pur și simplu nu există înlocuitor pentru codul compilat rapid atunci când vine vorba de instrumente interactive ca acesta.
Faptul că este scris în rugină înseamnă că nu există deloc întârziere la intrarea de la tastatură și, de asemenea, nu există artefacte ciudate ca cele pe care le aveți în CC, unde backspace nu funcționează corect și intrarea este neplăcută și întârziată, deoarece este scrisă într-un limbaj interpretat care este de o sută de ori mai lent pentru astfel de lucruri.
A face față întârzierilor constante nu este doar mai lent, este obositor și obositor din punct de vedere mental și poate chiar emoțional, cel puțin pentru mine când folosesc aceste lucruri ore în șir. Este un sentiment oribil să urăști și să resimți uneltele tale, chiar dacă depinzi de ele pentru a-ți face treaba.
Sper cu adevărat că acest lucru ridică ștacheta pentru toate aceste instrumente și va convinge Anthropic și Google și alții să folosească și rust (sau C++, Zig, orice).
Dar îmbunătățirea cu adevărat mare este, evident, modelul; cu un model mai rău, care nu este de încredere la apelarea instrumentelor și care își pierde coerența în sarcinile mai lungi, nimic din rapiditatea lui Rust nu ar merita nimic.
Dar dacă mă urmăriți aici, atunci veți ști că am fost uimit de abilitățile de codare și priceperea de chemare a instrumentelor GPT-5 Thinking de aproximativ 15 minute după ce a apărut, deși l-am folosit în principal din fila agentului Cursor.
Concluzia este că acest nou codex rust a devenit brusc un concurent cu adevărat formidabil pentru CC și ar trebui neapărat să-l încercați.
Va trebui să văd cât de multă utilizare mă lasă să scap cu abonamentul meu GPT Pro de 200 USD/lună, dar dacă trebuie să mai iau câteva, va merita din plin.
Rețineți că nu am încetat să folosesc CC. Îmi place să le folosesc pe amândouă împreună. Și credeți sau nu, încă folosesc și Cursor.
Oamenii ar trebui să înceteze să mai caute un singur instrument care să le înlocuiască pe toate celelalte și să accepte că diferite instrumente au puncte forte și puncte slabe diferite și obții cele mai bune rezultate învățând toate acestea intuitiv din utilizarea constantă.
Oricum, fă-ți o favoare și ia-o acum. Cel mai simplu mod este să faceți această comandă (rețineți că aceasta vă va aduce versiunea rust, în ciuda cât de confuz este să utilizați bun/npm pentru asta):
bun i -g @openai/codex
719
Sunt absolut convins că cele mai inteligente modele AI de acum, GPT-5 Pro și Grok4 Heavy, sunt deja suficient de inteligente și cu siguranță suficient de informate despre matematică și AI, pentru a concepe și dezvolta descoperiri teoretice și practice importante, având în vedere tipul potrivit de îndemnuri inteligente.
48K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante