Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
LMArenan rakentaminen.
Mustan laatikon tilastot, mallien arviointi.
@Berkeley_EECS Ph.D., entinen opiskelijatutkija @GoogleDeepMind ja @stanford_ee aluna.
Tämä julkaisu on vitun valtava. Se on yksi suurimmista päivityksistä LMArenaan tänä vuonna!
Code Arena on seuraavan sukupolven koodausarviointimme, joka alkaa web-kehitystehtävistä.
Täällä voit käyttää malleja interaktiivisten verkkosivustojen rakentamiseen ja niiden jakamiseen ystäviesi kanssa. Linkit ovat pysyviä, joten voit esimerkiksi rakentaa pelin ja pelata sitä milloin haluat.
Katso, kuinka kaksi mallia - @claudeai Haiku ja @grok-Code-Fast - kilpailevat galaksin rakentamisesta. Tässä tapauksessa pidin Grokin "tähtisota"-efektistä!

lmarena.ai13.11.2025
🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step.
Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!
147
🏆UUDET LMARENA-TULOSTAULUKOT🏆
🤓Asiantuntijat
💻 Ohjelmisto- ja IT-palvelut
✍️ Kirjoittaminen, kirjallisuus ja kieli
🔬 Elämä, fysiikka ja yhteiskuntatieteet
🎭 Viihde, urheilu ja media
📈 Liiketoiminta, johtaminen ja talous
🧮 Matemaattinen
⚖️ Lakiasiat ja hallinto
🩺 Lääketiede ja terveydenhuolto
Arviot tekoälyn taloudellisesta hyödyllisyydestä (kuten GDPval) ovat yhä merkityksellisempiä, mutta kalliita kerätä. Teimme yhteistyötä LMArenan miljoonien kuukausittaisten avustajien yhteisön kanssa hankkiaksemme ammatillisia ja asiantuntijatietoja orgaanisesti ja ratkaistaksemme skaalautuvuusongelman.
>5 % LMArena-käyttäjistä on asiantuntijoita, ja valtava osa LMArena-kehotteista on taloudellisesti arvokkailla toimialoilla: SWE, opiskelijat/tutkijat, markkinoijat/suunnittelijat, lääkärit, lakimiehet ja muut. Näin voimme rakentaa online-tulostaulukoita näissä kategorioissa tuoreen palautteen pohjalta joka päivä. Se kertoo @arena:ssä luomamme todellisen palautejärjestelmän tehosta!


lmarena.ai6.11.2025
🚀 Introducing Arena Expert: a new LMArena evaluation framework to identify the toughest, most expert-level prompts from real users, powering a new Expert leaderboard.
We also introduce Occupational Categories that underlie eight new leaderboards:
💻 Software & IT Services
✍️ Writing, Literature, & Language
🔬 Life, Physical, & Social Science
🎭 Entertainment, Sports, & Media
📈 Business, Management, & Financial Ops
🧮 Mathematical
⚖️ Legal & Government
🩺 Medicine & Healthcare
Explore how models perform across fields in thread 🧵 👇

960
LMArenan toimisto on tänään vilkas. Ympäristö on superlineaarinen. Puutumme rakentavasti asiaan, painostamme aina toisiamme oppimaan ja ylittämään sen, mitä luulimme olevan rajamme.
#1 piirre, jota etsimme palkkaaessamme, on "erinomaisuus". Tuottaa joka päivä työtä, joka täyttää korkeimman teknisen riman käsityötaidon, suorituskyvyn ja luotettavuuden suhteen. On muitakin tekijöitä, mutta älä koskaan tingi erinomaisuudesta. Tämän seurauksena jokainen tiimimme jäsen on syvällinen asiantuntija. Tätä tarvitaan, jotta laatuarviointeja voidaan rakentaa luottavaisin mielin.
Erinomaisuus synnyttää erinomaisuutta. Kukaan ei halua työskennellä ympäristössä, jossa on kasa märkiä peittoja - se tappaa vauhdin. Nostamme rimaa jatkuvasti, ja tämä johtaa energian tunteeseen. Se on harvinaista.
Jos olet kiinnostunut työskentelemään tällaisessa ympäristössä, lähetä minulle DM. Etsimme aina ihmisiä, jotka voivat nostaa rimaa pykälän korkeammalle.
129
Johtavat
Rankkaus
Suosikit
