Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Edificio LMArena.
Statistica black-box, valutazione del modello.
@Berkeley_EECS Ph.D., ex studente di ricerca @GoogleDeepMind e alunno @stanford_ee.
Questa release è fottutamente enorme. È uno dei più grandi aggiornamenti di LMArena di quest'anno!
Code Arena è la nostra prossima generazione di valutazioni di coding, a partire dai compiti di sviluppo web.
Qui puoi utilizzare modelli per costruire siti web interattivi e condividerli con i tuoi amici. I link sono persistenti, quindi puoi ad esempio costruire un gioco e giocarci ogni volta che vuoi.
Qui guarda due modelli -- @claudeai Haiku e @grok-Code-Fast -- competere per costruire una galassia. In questo caso, mi è piaciuto l'effetto "star-wars" di Grok!

lmarena.ai13 nov 2025
🚀Presentiamo Code Arena: la prossima generazione di valutazioni di coding dal vivo per modelli AI all'avanguardia. Progettato per testare come i modelli pianificano, strutturano, eseguono il debug e costruiscono applicazioni web reali passo dopo passo.
Prova Claude, GPT-5, GLM-4.6 e Gemini in Code Arena oggi!
37,09K
🏆NUOVE CLASSIFICHE LMARENA🏆
🤓Esperti
💻 Software e Servizi IT
✍️ Scrittura, Letteratura e Lingua
🔬 Scienze della Vita, Fisica e Sociale
🎭 Intrattenimento, Sport e Media
📈 Business, Management e Operazioni Finanziarie
🧮 Matematica
⚖️ Legale e Governo
🩺 Medicina e Sanità
Le valutazioni dell'utilità economica dell'AI (come GDPval) sono sempre più rilevanti, ma costose da raccogliere. Abbiamo lavorato con la comunità di LMArena composta da milioni di contributori mensili per raccogliere dati occupazionali ed esperti in modo organico, risolvendo il problema della scalabilità.
>Il 5% degli utenti di LMArena sono esperti, e una grande frazione dei prompt di LMArena è in settori economicamente preziosi: SWE, studenti/ricercatori, marketer/designer, medici, avvocati e altro ancora. Questo ci consente di costruire classifiche online in queste categorie basate su feedback freschi ogni giorno. Parla del potere del sistema di feedback del mondo reale che abbiamo creato su @arena!


lmarena.ai6 nov 2025
🚀 Introducendo Arena Expert: un nuovo framework di valutazione LMArena per identificare i prompt più difficili e di livello esperto da utenti reali, alimentando una nuova classifica degli Esperti.
Introduciamo anche le Categorie Occupazionali che sottendono otto nuove classifiche:
💻 Software e Servizi IT
✍️ Scrittura, Letteratura e Lingua
🔬 Scienze della Vita, Fisiche e Sociali
🎭 Intrattenimento, Sport e Media
📈 Business, Management e Operazioni Finanziarie
🧮 Matematica
⚖️ Legale e Governativo
🩺 Medicina e Sanità
Esplora come i modelli si comportano in vari campi nel thread 🧵 👇

12,6K
L'ufficio di LMArena è in fermento oggi. L'ambiente è superlineare. Ci stiamo interferendo in modo costruttivo, spingendoci sempre l'uno con l'altro a imparare e superare quelli che pensavamo fossero i nostri limiti.
Il tratto #1 che cerchiamo quando assumiamo è "Eccellenza." Produrre lavoro ogni giorno che soddisfi il più alto standard tecnico in termini di artigianato, prestazioni e affidabilità. Ci sono altri fattori, ma non compromettere mai l'eccellenza. Di conseguenza, tutti nel nostro team sono esperti profondi. Questo è necessario per costruire valutazioni di qualità con fiducia.
L'eccellenza genera eccellenza. Nessuno vuole lavorare in un ambiente con un gruppo di freni -- uccide il slancio. Stiamo costantemente alzando l'asticella, e questo è ciò che porta alla sensazione di energia. È raro.
Se sei interessato a lavorare in questo tipo di ambiente, mandami un DM. Stiamo sempre cercando persone che possano alzare l'asticella di un gradino in più.
6,6K
Principali
Ranking
Preferiti

