Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Nu am citit lucrarea completă, care încă nu a apărut, așa că nu pot vorbi despre detalii, dar mă bucur să văd că se aplică mai multă rigoare metodologică la LLM ca judecător. Ratingurile LLM sunt în centrul unui număr mare de repere și sunt adesea folosite fără o validare statistică clară.

Kangwook LeeCu 8 ore în urmă
LLM ca judecător a devenit o metodă dominantă de a evalua cât de bun este un model la rezolvarea unei sarcini, deoarece funcționează fără set de teste și gestionează cazuri în care răspunsurile nu sunt unice.
Dar, în ciuda cât de larg este folosită acest lucru, aproape toate rezultatele raportate sunt extrem de părtinitoare.
Sunt entuziasmat să împărtășesc preprintul nostru despre cum să folosești corect LLM ca judecător.
🧵
===
Deci, cum folosesc oamenii de fapt LLM ca judecător?
Majoritatea oamenilor folosesc LLM-ul ca evaluator și raportează probabilitatea empirică ca LLM-ul să spună că răspunsul pare corect.
Când LLM-ul este perfect, funcționează bine și oferă un estimator nepărtinit.
Dacă LLM-ul nu este perfect, aceasta se strică.
Să luăm în considerare un caz în care LLM-ul evaluează corect 80% din cazuri.
Mai exact, dacă răspunsul este corect, LLM-ul spune "asta pare corect" cu o probabilitate de 80%, iar aceleași 80% se aplică când răspunsul este de fapt greșit.
În această situație, nu ar trebui să raportați probabilitatea empirică, deoarece este părtinitoare. De ce?
Fie probabilitatea reală ca modelul testat să fie corect p.
Atunci probabilitatea empirică ca LLM-ul să spună "corect" (= q) este
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
Deci estimarea imparțială ar trebui să fie
(q - 0.2) / 0.6
Lucrurile devin și mai interesante dacă tiparul de eroare este asimetric sau dacă nu cunoști aceste rate de eroare a priori.
===
Deci ce înseamnă asta?
În primul rând, urmează ghidul sugerat din preprintul nostru.
Nu există prânz gratuit. Nu poți evalua cât de bun este modelul tău decât dacă LLM-ul tău ca judecător este cunoscut ca fiind perfect în a-l evalua.
În funcție de cât de aproape este de un evaluator perfect, ai nevoie de o dimensiune suficientă a setului de testare (= set de calibrare) pentru a estima ratele de eroare ale evaluatorului, iar apoi trebuie să le corectezi.
În al doilea rând, din păcate, multe dintre concluziile pe care le-am văzut în lucrări din ultimii ani trebuie revizuite.
Cu excepția cazului în care două lucrări au folosit exact același LLM ca un judecător, compararea rezultatelor între ele ar fi putut genera afirmații false. Îmbunătățirea ar putea veni pur și simplu din modificarea ușoară a fluxului de evaluare. Este urgent nevoie de un meta-studiu riguros.
===
Pe scurt:
(1) Aproape toate evaluările LLM ca judecător din ultimii ani au fost raportate cu un estimator părtinit.
(2) Este ușor de reparat, așa că așteaptă preprintul complet.
(3) Multe rezultate de tip LLM ca judecător trebuie privite cu rezerve.
Preprintul complet va apărea în câteva zile, așa că rămâneți pe aproape!
Lucrări uimitoare din partea studenților și colaboratorilor mei.
@chungpa_lee @tomzeng200 @jongwonjeong123 și @jysohn1108



10,01K
Prima mea lucrare academică publicată a fost despre Legea lui Moore, iar în prezent dezvoltarea AI arată similar: exponențialitatea Legii lui Moore nu a fost rezultatul unei singure tehnologii, ci mai degrabă a multor tehnologii diferite de-a lungul multor decenii, care erau pregătite când o abordare de fabricare a cipurilor a eșuat. Ritmul regulat al Legii servea ca o funcție de coordonare, astfel încât un grup mereu schimbător de concurenți era presat să creeze o profeție autoîmplinită de creștere continuă a capacităților.
În mod similar, dezvoltarea AI a întâmpinat deja o serie de obstacole care au trebuit depășite prin noi tehnici și cercetări (abordări de date sintetice, raționament, noi utilizări pentru RL). Dar, dacă nu ești un insider (sau nu urmărești AI îndeaproape pe X), nu vezi acele obstacole: doar progres constant și exponențial.
Având în vedere cantitatea de bani și talente din domeniu, mă aștept ca, chiar dacă pre-training sau orice altceva se lovește de un obstacol, vom vedea o tranziție rapidă a întregii industrii către una sau mai multe dintre multele alte abordări pe care oamenii le dezvoltă. Poți vedea deja asta: lucrează la modele de lume, alternative la LLM-uri, noi metode de antrenament etc. Chiar și ecosisteme alternative care pariază pe apariția unor modele mici, bine ajustate, etc. Unele dintre aceste tehnici provin de la startup-uri, altele sunt dezvoltate chiar în laboratoarele AI.
Oamenii de pe X tind să intre în detalii, tratând AI-ul ca pe un sport, susținând sau contraatacând echipele și abordările. Dar, pe o perioadă rezonabilă de timp, este posibil ca dezvoltarea AI să pară o exponențială fluidă pe multe metrici pentru toți ceilalți.


15,68K
"Alinierea pentru cine" va fi o mare întrebare în cadrul organizațiilor pe măsură ce implementează soluții AI orientate spre exterior...

Alex Albert25 nov., 05:24
A trebuit să eliminăm evaluarea τ2-bench a companiilor aeriene din tabelul de benchmark-uri pentru că Opus 4.5 a încălcat-o fiind prea isteață.
Reperul simulează un agent de servicii pentru clienți al unei companii aeriene. Într-un caz de testare, un client aflat în dificultate sună dorind să-și schimbe zborul, dar are un bilet economic de bază. Politica companiei aeriene simulate prevede că biletele de bază economy nu pot fi modificate.
Răspunsul "corect" este că modelul refuză cererea.
În schimb, Opus 4.5 a găsit o portiță în politică.
A modernizat cabina, apoi a modificat zborurile. Ajutând clientul și respectând politica, dar tehnic eșuând cazul de testare.
Transcriere a modelului:

42,22K
Limită superioară
Clasament
Favorite

