Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Albert
Claude Relationer @AnthropicAI. Åsikterna är mina egna!
Vi var tvungna att ta bort τ2-bänks flygbolagsutvärdering från vår benchmarktabell eftersom Opus 4.5 bröt den genom att vara för smart.
Benchmarken simulerar en flygbolagets kundtjänstagent. I ett testfall ringer en stressad kund in och vill ändra sitt flyg, men de har en enkel ekonomiklassbiljett. Det simulerade flygbolagets policy säger att grundläggande ekonomiklassbiljetter inte får ändras.
Det "korrekta" svaret är att modellen vägrar begäran.
Istället fann Opus 4.5 en kryphål i policyn.
Den uppgraderade kabinen och modifierade sedan flygningarna. Hjälper kunden och följer policyn men misslyckas tekniskt sett med testfallet.
Modellutskrift:

61,72K
>Opus 4.5 "verkar kunna vibe kod för alltid"
Jag har funnit att detta stämmer väldigt bra. Det finns mycket mer att komma här, men i princip kan du ställa in och glömma denna modell medan den arbetar med kodningsuppgifter åt dig i bakgrunden.
Det känns som att vi har nått ett steg tillbaka.

Dan Shipper 📧7 timmar sedan
SENASTE NYTT:
@AnthropicAI släppte precis Claude Ops 4.5!! Det är utan tvekan den bästa kodningsmodellen jag någonsin använt.
Vi har testat det internt @every de senaste dagarna, och det är ett absolut paradigmskifte för alla slags kodningsuppgifter.
Det utvidgar horisonten för vad du kan vibe kod
Den nuvarande generationen av nya modeller—Anthropic's Sonnet 4.5, Googles Gemini 3 eller OpenAIs Codex Max 5.1—kan alla kompetent bygga en minsta livskraftig produkt på en gång, eller åtgärda en mycket teknisk bugg på egen hand.
Men till slut, om du fortsatte pressa dem att vibe-koda mer, skulle de börja snubbla över sina egna fötter: Koden skulle bli invecklad och motsägelsefull, och du skulle fastna i oändliga buggar. Vi har inte hittat den gränsen än med Opus 4.5 – det verkar kunna vibrera kod för alltid.
Det tar parallellarbete till en helt ny nivå
Eftersom det är mycket bättre på planering och kodning kan det fungera med mer självständighet – vilket betyder att du kan göra mer parallellt utan att förstöra något.
@kieranklaassen arbetade med 11 olika projekt på sex timmar – och hade goda resultat på alla.
Bra på designiteration
Opus 4.5 är otroligt skicklig på att iterera en design autonomt med en MCP som Playwright. Tidigare modeller tappade tråden efter några cykler, eller sa att en design var klar när den inte var det.
Opus 4.5 är otrolig på att autonomt iterera tills en design är pixelperfekt.
Vi har en fullständig 4 000-ords vibekontroll på @every just nu med allt vi testat:
64,37K
Topp
Rankning
Favoriter

