Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Albert
Claude Relations @AnthropicAI. Părerile sunt ale mele!
A trebuit să eliminăm evaluarea τ2-bench a companiilor aeriene din tabelul de benchmark-uri pentru că Opus 4.5 a încălcat-o fiind prea isteață.
Reperul simulează un agent de servicii pentru clienți al unei companii aeriene. Într-un caz de testare, un client aflat în dificultate sună dorind să-și schimbe zborul, dar are un bilet economic de bază. Politica companiei aeriene simulate prevede că biletele de bază economy nu pot fi modificate.
Răspunsul "corect" este că modelul refuză cererea.
În schimb, Opus 4.5 a găsit o portiță în politică.
A modernizat cabina, apoi a modificat zborurile. Ajutând clientul și respectând politica, dar tehnic eșuând cazul de testare.
Transcriere a modelului:

18,41K
>Opus 4.5 "pare să poată vibra cod la nesfârșit"
Am constatat că acest lucru este foarte adevărat. Urmează mult mai multe aici, dar practic poți seta și uita acest model, deoarece lucrează la sarcinile de codare pentru tine în fundal.
Se simte ca și cum am făcut o schimbare de pași.

Dan Shipper 📧Cu 4 ore în urmă
ȘTIRI DE ULTIMĂ ORĂ:
@AnthropicAI renunțat la Claude Ops 4.5!! Este de departe cel mai bun model de codare pe care l-am folosit vreodată.
L-am testat intern @every în ultimele zile și reprezintă o schimbare absolută de paradigmă pentru orice tip de sarcină de programare.
Extinde orizontul a ceea ce poți să faci în vibe code
Generația actuală de modele noi — Sonnet 4.5 de la Anthropic, Gemini 3 de la Google sau Codex Max 5.1 de la OpenAI — poate construi competent un produs minim viabil dintr-o singură încercare sau poate corecta autonom un bug foarte tehnic.
Dar, în cele din urmă, dacă îi împingeai să se integreze mai mult în cod, începeau să se împiedice singuri: codul era complicat și contradictoriu, iar tu rămâi blocat în bug-uri nesfârșite. Nu am găsit încă această limită cu Opus 4.5 — pare să poată vibra codul la nesfârșit.
Lucrul în paralel duce la un cu totul alt nivel
Pentru că este mult mai bun la planificare și programare, poate funcționa cu mai multă autonomie — ceea ce înseamnă că poți face mai multe în paralel fără să strici nimic.
@kieranklaassen lucrat la 11 proiecte diferite în șase ore — și am avut rezultate bune la toate.
Excelent la iterații de design
Opus 4.5 este incredibil de priceput în a itera un design autonom, folosind un MCP precum Playwright. Modelele anterioare pierdeau firul după câteva cicluri sau, de exemplu, un design era gata când nu era.
Opus 4.5 este incredibil la iterarea autonomă până când designul devine perfect ca un pixel.
Avem o verificare completă de 4.000 de cuvinte pe @every cu tot ce am testat:
50,27K
Limită superioară
Clasament
Favorite

