Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Budování LMArena.
Black-box statistika, vyhodnocení modelu.
@Berkeley_EECS Ph.D., bývalý studentský výzkumný @GoogleDeepMind a absolvent @stanford_ee.
Tohle vydání je kurevsky obrovské. Jedná se o jednu z největších aktualizací LMArena v tomto roce!
Code Arena je naše nová generace hodnocení kódování, počínaje úkoly vývoje webu.
Zde můžete pomocí modelů vytvářet interaktivní webové stránky a sdílet je se svými přáteli. Odkazy jsou trvalé, takže si můžete např. vytvořit hru a zahrát si ji, kdykoli budete chtít.
Zde se podívejte na dva modely – @claudeai Haiku a @grok-Code-Fast – které soutěží o postavení galaxie. V tomto případě se mi líbil efekt "hvězdných válek" filmu Grok!

lmarena.ai13. 11. 2025
🚀Představujeme Code Arena: novou generaci hodnocení živého kódování pro hraniční modely umělé inteligence. Vytvořeno pro testování toho, jak modely krok za krokem plánují, generují, ladí a vytvářejí skutečné webové aplikace.
Vyzkoušejte Claude, GPT-5, GLM-4.6 a Gemini v Code Arena ještě dnes!
37,07K
🏆NOVÉ ŽEBŘÍČKY🏆 LMARENA
🤓Experti
💻 Software & IT služby
✍️ Psaní, literatura a jazyk
🔬 Život, fyzika a společenské vědy
🎭 Zábava, sport a média
📈 Obchod, management a finanční operace
🧮 Matematický
⚖️ Právní a státní správa
🩺 Medicína a zdravotnictví
Hodnocení ekonomické užitečnosti umělé inteligence (jako je GDPval) jsou stále relevantnější, ale jejich shromažďování je nákladné. Spolupracovali jsme s komunitou LMArena čítající miliony přispěvatelů měsíčně, abychom organicky získávali profesní a odborná data, čímž jsme vyřešili problém škálovatelnosti.
>5 % uživatelů LMArena jsou odborníci a velká část výzev LMArena je v ekonomicky hodnotných odvětvích: SWE, studenti/výzkumníci, marketéři/designéři, lékaři, právníci a další. To nám umožňuje vytvářet online žebříčky v těchto kategoriích na základě čerstvé zpětné vazby každý den. Vypovídá to o síle systému zpětné vazby v reálném světě, který jsme ve společnosti @arena vytvořili!


lmarena.ai6. 11. 2025
🚀 Představujeme Arena Expert: nový vyhodnocovací rámec LMArena pro identifikaci nejnáročnějších výzev na expertní úrovni od skutečných uživatelů, který pohání nový žebříček Expert.
Představujeme také profesní kategorie, které jsou základem osmi nových žebříčků:
💻 Software & IT služby
✍️ Psaní, literatura a jazyk
🔬 Život, fyzika a společenské vědy
🎭 Zábava, sport a média
📈 Obchod, management a finanční operace
🧮 Matematický
⚖️ Právní a státní správa
🩺 Medicína a zdravotnictví
Prozkoumání výkonu modelů napříč poli ve vlákně 🧵 👇

12,6K
V kanceláři LMArena dnes panuje čilý ruch. Prostředí je superlineární. Konstruktivně zasahujeme, vždy se navzájem tlačíme k učení a překračování toho, co jsme považovali za naše limity.
Vlastností #1, kterou při náboru hledáme, je "Excellence". Každý den odvádíme práci, která splňuje nejvyšší technickou laťku z hlediska řemeslného zpracování, výkonu a spolehlivosti. Existují i další faktory, ale nikdy nekompromisujte v oblasti dokonalosti. V důsledku toho je každý v našem týmu hlubokým odborníkem. To je nutné pro vytváření hodnocení kvality s jistotou.
Dokonalost plodí dokonalost. Nikdo nechce pracovat v prostředí s hromadou mokrých přikrývek – zabíjí to dynamiku. Neustále zvyšujeme laťku a to je to, co vede k pocitu energie. Je to vzácné.
Pokud máte zájem pracovat v takovém prostředí, pošlete mi zprávu. Neustále hledáme lidi, kteří dokážou posunout laťku o stupínek výše.
6,6K
Top
Hodnocení
Oblíbené

