Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Edifício LMArena.
Estatísticas de caixa-preta, avaliação de modelos.
@Berkeley_EECS Ph.D., ex-aluno pesquisador @GoogleDeepMind e @stanford_ee alum.
Esta atualização é incrivelmente grande. É uma das maiores atualizações do LMArena este ano!
O Code Arena é a nossa próxima geração de avaliações de programação, começando com tarefas de desenvolvimento web.
Aqui você pode usar modelos para construir websites interativos e compartilhá-los com seus amigos. Os links são persistentes, então você pode, por exemplo, construir um jogo e jogá-lo sempre que quiser.
Aqui, assista a dois modelos -- @claudeai Haiku e @grok-Code-Fast -- competirem para construir uma galáxia. Neste caso, eu gostei do efeito "star-wars" do Grok!

lmarena.ai13/11/2025
🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step.
Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!
145
🏆NOVAS CLASSIFICAÇÕES LMARENA🏆
🤓Especialistas
💻 Serviços de Software e TI
✍️ Escrita, Literatura e Línguas
🔬 Ciências da Vida, Física e Sociais
🎭 Entretenimento, Desporto e Media
📈 Negócios, Gestão e Operações Financeiras
🧮 Matemática
⚖️ Legal e Governamental
🩺 Medicina e Saúde
As avaliações da utilidade económica da IA (como o GDPval) são cada vez mais relevantes, mas caras de coletar. Trabalhámos com a comunidade de milhões de contribuintes mensais da LMArena para obter dados ocupacionais e de especialistas de forma orgânica, resolvendo o problema da escalabilidade.
>5% dos utilizadores da LMArena são especialistas, e uma grande fração dos prompts da LMArena está em indústrias economicamente valiosas: SWE, estudantes/pesquisadores, profissionais de marketing/designers, médicos, advogados e mais. Isso permite-nos construir classificações online nessas categorias baseadas em feedback fresco todos os dias. Isso demonstra o poder do sistema de feedback do mundo real que criámos na @arena!


lmarena.ai6/11/2025
🚀 Introducing Arena Expert: a new LMArena evaluation framework to identify the toughest, most expert-level prompts from real users, powering a new Expert leaderboard.
We also introduce Occupational Categories that underlie eight new leaderboards:
💻 Software & IT Services
✍️ Writing, Literature, & Language
🔬 Life, Physical, & Social Science
🎭 Entertainment, Sports, & Media
📈 Business, Management, & Financial Ops
🧮 Mathematical
⚖️ Legal & Government
🩺 Medicine & Healthcare
Explore how models perform across fields in thread 🧵 👇

958
O escritório da LMArena está agitado hoje. O ambiente é superlinear. Estamos a interferir de forma construtiva, sempre a empurrar uns aos outros para aprender e ultrapassar o que pensávamos serem os nossos limites.
A característica #1 que procuramos ao contratar é "Excelência." Produzir trabalho todos os dias que atenda ao mais alto padrão técnico em termos de artesanato, desempenho e fiabilidade. Existem outros fatores também, mas nunca comprometer a excelência. Como consequência, todos na nossa equipe são especialistas profundos. Isso é necessário para construir avaliações de qualidade com confiança.
A excelência gera excelência. Ninguém quer trabalhar em um ambiente com um monte de pessoas desmotivadas -- isso mata o ímpeto. Estamos constantemente a elevar o padrão, e isso é o que leva à sensação de energia. É raro.
Se você está interessado em trabalhar neste tipo de ambiente, envie-me uma DM. Estamos sempre à procura de pessoas que possam elevar o padrão um nível mais alto.
126
Top
Classificação
Favoritos
