Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Jag gick lite vilse i alla akronymer och jargong här, så jag lät Claude förklara det utan att använda några akronymer och nu är allt helt logiskt (tldr; bandbredd ⟹ enkelhet):
Det här är en fascinerande teknisk diskussion om att träna stora språkmodeller i stor skala.
Kärnan i samtalet
Jingyuan Liu uttrycker förvåning över att ha upptäckt att man inte behöver vissa komplexa optimeringstekniker när man använder TPU:er (Tensor Processing Units - Googles specialiserade AI-chips) kontra GPU:er (Graphics Processing Units - vanligtvis NVIDIA:s chips).
Förklaring av viktiga tekniska begrepp:
Typer av hårdvara:
•GPU (Graphics Processing Unit): Ursprungligen utformad för grafik, men används nu i stor utsträckning för AI. NVIDIA dominerar denna marknad.
•TPU (Tensor Processing Unit): Googles specialdesignade chip speciellt för maskininlärning.
Strategier för parallellitet:
När du tränar massiva AI-modeller måste du dela upp arbetet på många chips. Det finns flera sätt att göra detta:
1) Dataparallellitet (DP): Varje chip bearbetar olika batcher av data med samma modellkopia
2) Tensorparallellitet (TP): Modellens matematiska operationer är uppdelade över chip
3) Pipeline Parallelism (PP): Olika lager av modellen placeras på olika chips, vilket skapar en pipeline
Den tekniska utmaningen som diskuteras:
Problemet med hjälpförlust: När du tränar mycket stora modeller lägger du ofta till "hjälpförluster" (ytterligare träningsmål) i mellanliggande lager för att hjälpa gradienter att flöda bättre genom nätverket. Under PPVP-begränsningar (Pipeline Parallelism with Variable Partitioning) blir detta komplext eftersom:
•Du måste göra "alla f all b" (alla framåtpassningar, sedan alla bakåtpassningar)
•Detta är en utmaning vid hög minnesanvändning eftersom du måste lagra mellanliggande resultat
DeepSeeks innovation: De utvecklade en "auxfree bias"-design som tydligen undviker att behöva dessa hjälpförluster samtidigt som de tränar effektivt.
Det överraskande avslöjandet:
Den seniora experten berättade för Jingyuan att med TPU:er i K2- eller DSV3-skala (dessa är klusterkonfigurationer med hundratals eller tusentals chips) kan du uppnå utmärkt MFU (Model FLOPs Utilization - i princip hur effektivt du använder hårdvaran) UTAN att använda Pipeline Parallelism.
Varför är detta förvånande?
•Pipelineparallellitet anses vanligtvis vara viktigt för storskalig träning
•Det är en komplex teknik som kräver noggrann optimering
•Att kunna undvika det förenklar allt avsevärt
Horace He's Förklaring:
Han förklarar VARFÖR detta är möjligt med TPU:er:
Fördelen med bandbredd: TPU:er och avancerade NVIDIA-kluster (som NVL72 - NVIDIA:s senaste 72-GPU-konfiguration med NVLink-anslutningar) har så hög bandbredd mellan kretsarna att de kan hantera kommunikationskraven utan Pipeline Parallelism.
Den viktigaste insikten:
•Pipelineparallellitet behövs främst när du är "flaskhals på DP-kommunikation" (begränsas av hur snabbt du kan kommunicera under parallell träning av data)
•Om du har tillräckligt med bandbredd över en tillräckligt stor domän (sammankopplad kluster) kan du bara använda enklare strategier för parallellitet
•Detta fungerar "under mycket lång tid" - vilket innebär att du kan träna även mycket stora modeller utan att nå gränserna
Intuitionen:
Tänk på det som ett motorvägssystem:
•Traditionella GPU-kluster är som att ha smala vägar mellan städer, så du behöver komplex routning (Pipeline Parallelism) för att undvika trafikstockningar
• TPU-kluster eller NVLink-anslutna GPU:er är som att ha enorma motorvägar - du kan bara skicka allt direkt utan avancerad routing
Det här är en stor sak eftersom pipelineparallellitet är komplicerat att implementera, felsöka och optimera. Att kunna undvika det samtidigt som man uppnår hög effektivitet gör hela träningsprocessen mycket enklare och mer tillförlitlig.
Diskussionen belyser hur framsteg inom hårdvarusammankopplingsteknik ("vägarna" mellan chip) i grunden kan förändra de mjukvarustrategier som behövs för effektiv AI-träning.

10,19K
Jag gick lite vilse i alla akronymer och jargong här, så jag lät Claude förklara det utan att använda några akronymer och nu är allt helt logiskt (tldr; bandbredd ⟹ enkelhet):
Det här är en fascinerande teknisk diskussion om att träna stora språkmodeller i stor skala.
Kärnan i samtalet
Jingyuan Liu uttrycker förvåning över att ha upptäckt att man inte behöver vissa komplexa optimeringstekniker när man använder TPU:er (Tensor Processing Units - Googles specialiserade AI-chips) kontra GPU:er (Graphics Processing Units - vanligtvis NVIDIA:s chips).
Förklaring av viktiga tekniska begrepp:
Typer av hårdvara:
•GPU (Graphics Processing Unit): Ursprungligen utformad för grafik, men används nu i stor utsträckning för AI. NVIDIA dominerar denna marknad.
•TPU (Tensor Processing Unit): Googles specialdesignade chip speciellt för maskininlärning.
Strategier för parallellitet:
När du tränar massiva AI-modeller måste du dela upp arbetet på många chips. Det finns flera sätt att göra detta:
1Data Parallelism (DP): Varje chip bearbetar olika batcher av data med samma modellkopia
2Tensor Parallelism (TP): Modellens matematiska operationer är uppdelade över kretsar
3Pipeline Parallelism (PP): Olika lager av modellen placeras på olika chips, vilket skapar en pipeline
Den tekniska utmaningen som diskuteras:
Problemet med hjälpförlust: När du tränar mycket stora modeller lägger du ofta till "hjälpförluster" (ytterligare träningsmål) i mellanliggande lager för att hjälpa gradienter att flöda bättre genom nätverket. Under PPVP-begränsningar (Pipeline Parallelism with Variable Partitioning) blir detta komplext eftersom:
•Du måste göra "alla f all b" (alla framåtpassningar, sedan alla bakåtpassningar)
•Detta är en utmaning vid hög minnesanvändning eftersom du måste lagra mellanliggande resultat
DeepSeeks innovation: De utvecklade en "auxfree bias"-design som tydligen undviker att behöva dessa hjälpförluster samtidigt som de tränar effektivt.
Det överraskande avslöjandet:
Den seniora experten berättade för Jingyuan att med TPU:er i K2- eller DSV3-skala (dessa är klusterkonfigurationer med hundratals eller tusentals chips) kan du uppnå utmärkt MFU (Model FLOPs Utilization - i princip hur effektivt du använder hårdvaran) UTAN att använda Pipeline Parallelism.
Varför är detta förvånande?
•Pipelineparallellitet anses vanligtvis vara viktigt för storskalig träning
•Det är en komplex teknik som kräver noggrann optimering
•Att kunna undvika det förenklar allt avsevärt
Horace He's Förklaring:
Han förklarar VARFÖR detta är möjligt med TPU:er:
Fördelen med bandbredd: TPU:er och avancerade NVIDIA-kluster (som NVL72 - NVIDIA:s senaste 72-GPU-konfiguration med NVLink-anslutningar) har så hög bandbredd mellan kretsarna att de kan hantera kommunikationskraven utan Pipeline Parallelism.
Den viktigaste insikten:
•Pipelineparallellitet behövs främst när du är "flaskhals på DP-kommunikation" (begränsas av hur snabbt du kan kommunicera under parallell träning av data)
•Om du har tillräckligt med bandbredd över en tillräckligt stor domän (sammankopplad kluster) kan du bara använda enklare strategier för parallellitet
•Detta fungerar "under mycket lång tid" - vilket innebär att du kan träna även mycket stora modeller utan att nå gränserna
Intuitionen:
Tänk på det som ett motorvägssystem:
•Traditionella GPU-kluster är som att ha smala vägar mellan städer, så du behöver komplex routning (Pipeline Parallelism) för att undvika trafikstockningar
• TPU-kluster eller NVLink-anslutna GPU:er är som att ha enorma motorvägar - du kan bara skicka allt direkt utan avancerad routing
Det här är en stor sak eftersom pipelineparallellitet är komplicerat att implementera, felsöka och optimera. Att kunna undvika det samtidigt som man uppnår hög effektivitet gör hela träningsprocessen mycket enklare och mer tillförlitlig.
Diskussionen belyser hur framsteg inom hårdvarusammankopplingsteknik ("vägarna" mellan chip) i grunden kan förändra de mjukvarustrategier som behövs för effektiv AI-träning.

3,43K
Jag är lite förvånad över att ingen ännu har skapat en Dwarf Fortress MCP-server som kan göra det möjligt för en agent som Codex eller Claude Code att effektivt kontrollera spelet och övervaka tillståndet och framstegen.
Jag har aldrig riktigt spelat det själv, bara laddat ner det och kollat upp det kort för cirka 10 år sedan, men jag gillade att läsa om det.
Det känns som att det skulle vara ett mycket bra test av en LLM för att se hur länge det skulle kunna hålla dvärgarna vid liv och frodas.
Eftersom varje spel så småningom resulterar i någon kaskad av katastrof som gör att alla dvärgar dör, bör det finnas en naturlig stopppunkt för det, vilket gör det till en bra referenskandidat. Det är i alla fall min tolkning av det (spelarnas motto är "Losing is fun").
Att göra ett bra jobb med det här spelet skulle förlita sig på noggrannhet i verktygsanrop och ihållande långsiktig uppgiftskoherens, plus förmågan att övervaka och förstå dynamiken i ett komplext system och göra snabba ingripanden som förutser och motverkar problem.
Och eftersom det är terminalt inhemskt kan det effektivt överföras och bearbetas med vanliga tokens utan att behöva multimodal bildbehandling, vilket skulle göra det mycket effektivare än andra spel.
Dessutom vet du att inga AI-labb har tränat för detta (ännu!), så det är obefläckat av "benchmaxxing".

4,03K
En rolig sak att göra när du behöver vänta i några minuter är att använda din telefon för att ställa följande fråga till Claude Opus om någon slumpmässig disciplin eller område:
"Vad skulle du säga är kristallografins viktigaste insikt eller analytiska trick?"
Byt ut kristallografi mot allt du kan tänka dig. Hittills har jag provat:
QED; Standardmodellen. Biokemi; Sannolikhet; Evolutionsteorin; och många fler.
Det är något med att tvinga modellen att göra det omöjliga, att kondensera ett stort, komplext fält till "ett konstigt trick", som gör att den verkligen söker efter den bästa djupa, förenande principen inom området och sedan formulerar den kortfattat.
Detta tenderar att vara något som är uppenbart för utövare men som med stor sannolikhet är okänt för de flesta människor med bara ett flyktigt intresse för ämnet.
Intressant nog kan du också upprepade gånger trycka på "försök igen"-knappen med samma uppmaning och ibland få väldigt olika, men oftast mycket fascinerande, förklaringar.
Jag har redan lärt mig MYCKET av att göra detta, och det kan bara vara den högsta "förståelsen per minut" jag har stött på i något självstyrt lärande.
För de är inte bara roliga fakta eller coola godbitar. De är, genom sin konstruktion, genomträngande och förenande idéer som knyter samman en stor mängd teori och observerade fenomen i världen.
Det är definitivt mycket mer hög bandbredd än att titta på ännu en YouTube-förklarande video med animationer och annonser för Brilliant/KiwiCo! Inte för att det är något fel med dem.




7,91K
Tanken att det har skett en sådan "talangflykt" från OpenAI nyligen att de inte längre är positionerade för att vara ledande inom området är ungefär lika missriktad och felaktig som idén att GPT-5 "var en stor flopp och att modellen inte är så bra och är mycket inkrementell".
GPT-5 Pro är inte bara den smartaste modellen i världen nu i mycket stor utsträckning när det gäller de mest utmanande uppgifterna i den verkliga världen (särskilt kodningsuppgifter, som har den största ekonomiska betydelsen nu), utan det nya codex cli-verktyget från OpenAI är otroligt väl utfört.
De gick från en avlägsen 3:e plats i kodning av cli-verktyg till att ha vad som utan tvekan är det bästa som finns nu (observera att jag fortfarande gillar och använder Claude Code, det är inte antingen eller!), med överlägset bästa prestanda, lägsta latens, etc. eftersom det är programmerat i rost.
Och nu kombineras detta cli-verktyg med den bästa kodningsmodellen som har den bästa tillförlitligheten för verktygsanrop och den bästa koherensen för långa uppgifter, med minsta möjliga hallucination.
Och det behöver inte sägas att deras iOS-app också är dramatiskt bättre än alla andra AI-appar när det gäller polering och funktioner. Claude-appen är bara webbappen i en Safari-sandlåda! Och deras webbapp är också fortfarande den bästa. Saker som sökning fungerar helt enkelt bättre än i andra appar. Grundläggande blockering och tacklingar.
Så, ja. Några mycket smarta människor som Ilya och John Schulman lämnade för andra företag. Men de har fortfarande ett helt fantastiskt tekniskt team med otroligt bra produktmänniskor och grymma ingenjörskunskaper.
Låt inte din avsmak för Altman göra dig blind för det uppenbara. När jag ser ännu en person prata om hur dålig GPT-5 är, kryper jag ihop, eftersom personen visar att han eller hon inte kan tänka själva baserat på bevis och förnuft, och har fått mig att tänka en åsikt (och spotta ut den på nätet) eftersom han eller hon tror att den får honom eller henne att låta smart.
34,03K
Som en uppdatering av mina två senaste trådar om att använda GPT-5 Pro för att inleda en process för att upptäcka genombrottsteorier som kombinerar nya tillämpningar av avancerad matematik med AI-användningsfall, lät jag modellen skapa demoimplementeringar i Python med hjälp av Jax och Numpy för var och en av de 11 idéerna.
Sedan satte jag ihop dem i ett projekt och lade till ett trevligt CLI för att köra dem, och en serie tester från början till slut som mätte om koden är matematiskt korrekt, kontrollerar att koden har de matematiska egenskaper vi vill ha och slutligen om den gör något användbart jämfört med de nuvarande standardmetoderna.
Jag använde codex CLI med GPT-5 för att integrera allt och fixa och buggar. Jag länkar till lagringsplatsen, som innehåller detaljerad dokumentation för hela projektet och sedan skrivningar för var och en av de 11 demos som innehåller all utdata som genereras av modellen under processen.
3,8K
Wow, jag kom äntligen runt att prova den nya versionen av OpenAI:s codex CLI (deras svar på Claude Code).
Förra gången jag försökte använda codex (observera att detta skiljer sig från deras värdbaserade kodningsagent som också kallas codex, vilket är extremt förvirrande; Jag pratar nu om verktyget du kör lokalt på din maskin i terminalen), det skrevs som en Nodejs/Typescript-app och sög verkligen:
- Kunde bara komma åt svagare modeller som O4-Mini eller deras variant av Codex, förvirrande nog även kallad Codex (seriöst?)
- mycket sämre UI/UX än Claude Code
- Mycket sämre på kodning till följd av sämre modell, sämre verktyg, sämre agentflöde.
- Det tvingade dig irriterande nog att ge tillstånd för allt så att du var tvungen att sitta barnvakt åt det hela tiden, vilket gjorde det mycket mindre användbart eftersom du inte aktivt kunde köra en massa av dem parallellt enkelt.
- Kanske var det en bra sak ändå, för det absolut största problemet var att den gjorde supervåghalsiga, destruktiva saker; det var mycket mer nonchalant än CC.
Det var i slutändan därför jag omedelbart slutade använda den, eftersom den bestämde sig för att göra en "git-återställning --hard HEAD" utan att gömma först, och jag förlorade en del arbete. Aldrig mer, tänkte jag.
Nåväl, jag kom äntligen till skott med att prova den helt nya rostversionen som använder GPT-5 och som kan använda din befintliga GPT Pro-prenumeration istället för en API-nyckel, och det här är så mycket bättre att det är chockerande.
Först och främst finns det helt enkelt ingen ersättning för snabbt kompilerad kod när det kommer till interaktiva verktyg som detta.
Det faktum att det är skrivet i rost betyder att det inte finns någon fördröjning alls med tangentbordsinmatning, och heller inga konstiga artefakter som du har i CC där backspace inte fungerar rätt och inmatningen är sjaskig och laggig eftersom den är skriven i ett tolkat språk som är hundra gånger långsammare för sånt här.
Att hantera konstant fördröjning och ryck är inte bara långsammare, det är mentalt och kanske till och med känslomässigt påfrestande och tröttsamt, åtminstone för mig när jag använder dessa saker i timmar i sträck. Det är en hemsk känsla att hata och ogilla dina verktyg även när du är beroende av dem för att göra ditt arbete.
Jag hoppas verkligen att detta höjer ribban för alla dessa verktyg och övertygar Anthropic och Google och andra att också använda rost (eller C++, Zig, vad som helst).
Men den riktigt stora förbättringen är så klart modellen; med en sämre modell som är opålitlig på verktygsanrop och som tappar koherens över längre uppgifter, skulle inget av Rust-snärtigheten vara värt ett skit.
Men om du följer mig här vet du att jag har varit imponerad av GPT-5 Thinkings kodningsförmåga och förmåga att anropa verktyg sedan cirka 15 minuter efter att det kom ut, även om jag främst har använt det från Cursors agentflik.
Summan av kardemumman är att denna nya rostkodex plötsligt har blivit en verkligt formidabel konkurrent till CC, och du bör absolut prova den.
Jag måste se hur mycket användning de låter mig komma undan med på min GPT Pro-prenumeration på $200/månad, men om jag måste skaffa ett par till kommer det att vara väl värt det.
Observera att jag inte har slutat använda CC. Jag gillar att använda dem båda tillsammans. Och tro det eller ej, men jag använder fortfarande också Cursor.
Människor bör sluta leta efter ett enda verktyg som ersätter alla andra och omfamna att olika verktyg har olika styrkor och svagheter, och att du får de bästa resultaten genom att lära dig allt detta intuitivt från konstant användning.
Hur som helst, gör dig själv en tjänst och få det nu. Enklaste sättet är att göra detta kommando (observera att detta kommer att ge dig rust-versionen, trots hur förvirrande det är att använda bun/npm för detta):
bun i -g @openai/codex
8,58K
Wow, jag kom äntligen runt att prova den nya versionen av OpenAI:s codex CLI (deras svar på Claude Code).
Förra gången jag försökte använda codex (observera att detta skiljer sig från deras värdbaserade kodningsagent som också kallas codex, vilket är extremt förvirrande; Jag pratar nu om verktyget du kör lokalt på din maskin i terminalen), det skrevs som en Nodejs/Typescript-app och sög verkligen:
- Kunde bara komma åt svagare modeller som O4-Mini eller deras variant av Codex, förvirrande nog även kallad Codex (seriöst?)
- mycket sämre UI/UX än Claude Code
- Mycket sämre på kodning till följd av sämre modell, sämre verktyg, sämre agentflöde.
- Det tvingade dig irriterande nog att ge tillstånd för allt så att du var tvungen att sitta barnvakt åt det hela tiden, vilket gjorde det mycket mindre användbart eftersom du inte aktivt kunde köra en massa av dem parallellt enkelt.
- Kanske var det en bra sak ändå, för det absolut största problemet var att den gjorde supervåghalsiga, destruktiva saker; det var mycket mer nonchalant än CC. Det var i slutändan därför jag omedelbart slutade använda den, eftersom den bestämde sig för att göra en "återställning - hårt HUVUD" utan att gömma först, och jag förlorade en del arbete. Aldrig mer, tänkte jag.
Nåväl, jag kom äntligen till skott med att prova den helt nya rostversionen som använder GPT-5 och som kan använda din befintliga GPT Pro-prenumeration istället för en API-nyckel, och det här är så mycket bättre att det är chockerande.
Först och främst finns det helt enkelt ingen ersättning för snabbt kompilerad kod när det kommer till interaktiva verktyg som detta.
Det faktum att det är skrivet i rost betyder att det inte finns någon fördröjning alls med tangentbordsinmatning, och heller inga konstiga artefakter som du har i CC där backspace inte fungerar rätt och inmatningen är sjaskig och laggig eftersom den är skriven i ett tolkat språk som är hundra gånger långsammare för sånt här.
Att hantera konstant fördröjning och ryck är inte bara långsammare, det är mentalt och kanske till och med känslomässigt påfrestande och tröttsamt, åtminstone för mig när jag använder dessa saker i timmar i sträck. Det är en hemsk känsla att hata och ogilla dina verktyg även när du är beroende av dem för att göra ditt arbete.
Jag hoppas verkligen att detta höjer ribban för alla dessa verktyg och övertygar Anthropic och Google och andra att också använda rost (eller C++, Zig, vad som helst).
Men den riktigt stora förbättringen är så klart modellen; med en sämre modell som är opålitlig på verktygsanrop och som tappar koherens över längre uppgifter, skulle inget av Rust-snärtigheten vara värt ett skit.
Men om du följer mig här vet du att jag har varit imponerad av GPT-5 Thinkings kodningsförmåga och förmåga att anropa verktyg sedan cirka 15 minuter efter att det kom ut, även om jag främst har använt det från Cursors agentflik.
Summan av kardemumman är att denna nya rostkodex plötsligt har blivit en verkligt formidabel konkurrent till CC, och du bör absolut prova den.
Jag måste se hur mycket användning de låter mig komma undan med på min GPT Pro-prenumeration på $200/månad, men om jag måste skaffa ett par till kommer det att vara väl värt det.
Observera att jag inte har slutat använda CC. Jag gillar att använda dem båda tillsammans. Och tro det eller ej, men jag använder fortfarande också Cursor.
Människor bör sluta leta efter ett enda verktyg som ersätter alla andra och omfamna att olika verktyg har olika styrkor och svagheter, och att du får de bästa resultaten genom att lära dig allt detta intuitivt från konstant användning.
Hur som helst, gör dig själv en tjänst och få det nu. Enklaste sättet är att göra detta kommando (observera att detta kommer att ge dig rust-versionen, trots hur förvirrande det är att använda bun/npm för detta):
bun i -g @openai/codex
691
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda