Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Construirea LMArena.
Statistici cutie neagră, evaluarea modelului.
@Berkeley_EECS Ph.D., fost cercetător student @GoogleDeepMind și absolvent @stanford_ee.
Această lansare este al naibii de uriașă. Este una dintre cele mai mari actualizări ale LMArena din acest an!
Code Arena este următoarea noastră generație de evaluări de codare, începând cu sarcinile de dezvoltare web.
Aici puteți folosi modele pentru a construi site-uri web interactive și pentru a le partaja cu prietenii dvs. Link-urile sunt persistente, așa că puteți, de exemplu, să construiți un joc și să-l jucați oricând doriți.
Aici urmăriți două modele - @claudeai Haiku și @grok-Code-Fast - concurând pentru a construi o galaxie. În acest caz, mi-a plăcut efectul "războiul stelelor" al lui Grok!

lmarena.ai13 nov. 2025
🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step.
Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!
137
🏆NOI CLASAMENTE🏆 LMARENA
🤓Experţi
💻 Software și servicii IT
✍️ Scriere, literatură și limbă
🔬 Științe ale vieții, fizice și sociale
🎭 Divertisment, sport și media
📈 Afaceri, management și operațiuni financiare
🧮 Matematic
⚖️ Juridic și guvernamental
🩺 Medicină și asistență medicală
Evaluările utilității economice a IA (cum ar fi GDPval) sunt din ce în ce mai relevante, dar costisitoare de colectat. Am lucrat cu comunitatea LMArena de milioane de contribuitori lunari pentru a obține date ocupaționale și de experți în mod organic, rezolvând problema scalabilității.
>5% dintre utilizatorii LMArena sunt experți, iar o mare parte din solicitările LMArena sunt în industrii valoroase din punct de vedere economic: SWE, studenți/cercetători, marketeri/designeri, medici, avocați și multe altele. Acest lucru ne permite să construim clasamente online în aceste categorii construite pe feedback proaspăt în fiecare zi. Vorbește despre puterea sistemului de feedback din lumea reală pe care l-am creat la @arena!


lmarena.ai6 nov. 2025
🚀 Introducing Arena Expert: a new LMArena evaluation framework to identify the toughest, most expert-level prompts from real users, powering a new Expert leaderboard.
We also introduce Occupational Categories that underlie eight new leaderboards:
💻 Software & IT Services
✍️ Writing, Literature, & Language
🔬 Life, Physical, & Social Science
🎭 Entertainment, Sports, & Media
📈 Business, Management, & Financial Ops
🧮 Mathematical
⚖️ Legal & Government
🩺 Medicine & Healthcare
Explore how models perform across fields in thread 🧵 👇

950
Biroul LMArena este plin de energie astăzi. Mediul este superliniar. Intervenim constructiv, ne împingem mereu unii pe alții să învățăm și să depășim ceea ce credeam că sunt limitele noastre.
Trăsătura #1 pe care o căutăm atunci când angajăm este "Excelență". Producem în fiecare zi lucrări care îndeplinesc cele mai înalte standarde tehnice în ceea ce privește măiestria, performanța și fiabilitatea. Există și alți factori, dar niciodată să nu faceți compromisuri în ceea ce privește excelența. În consecință, toți membrii echipei noastre sunt experți profundi. Acest lucru este necesar pentru a construi evaluări de calitate cu încredere.
Excelența naște excelență. Nimeni nu vrea să lucreze într-un mediu cu o grămadă de pături umede - asta ucide impulsul. Ridicăm în mod constant ștacheta, iar asta duce la senzația de energie. Este rar.
Dacă sunteți interesat să lucrați în acest tip de mediu, trimiteți-mi un DM. Căutăm mereu oameni care pot ridica ștacheta cu o treaptă mai sus.
117
Limită superioară
Clasament
Favorite
