Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Xây dựng LMArena.
Thống kê hộp đen, đánh giá mô hình.
@Berkeley_EECS Tiến sĩ, cựu nghiên cứu sinh viên @GoogleDeepMind và cựu sinh viên @stanford_ee.
Bản phát hành này thật sự rất lớn. Đây là một trong những bản cập nhật lớn nhất của LMArena trong năm nay!
Code Arena là thế hệ tiếp theo của các đánh giá lập trình, bắt đầu với các nhiệm vụ phát triển web.
Tại đây, bạn có thể sử dụng các mô hình để xây dựng các trang web tương tác và chia sẻ chúng với bạn bè. Các liên kết là vĩnh viễn, vì vậy bạn có thể ví dụ như xây dựng một trò chơi và chơi nó bất cứ khi nào bạn muốn.
Hãy xem hai mô hình -- @claudeai Haiku và @grok-Code-Fast -- cạnh tranh để xây dựng một thiên hà. Trong trường hợp này, tôi thích hiệu ứng "star-wars" của Grok!

lmarena.ai13 thg 11, 2025
🚀Giới thiệu Code Arena: thế hệ tiếp theo của các bài đánh giá lập trình trực tiếp cho các mô hình AI tiên tiến. Được xây dựng để kiểm tra cách các mô hình lập kế hoạch, cấu trúc, gỡ lỗi và xây dựng các ứng dụng web thực tế từng bước.
Hãy thử Claude, GPT-5, GLM-4.6 và Gemini trong Code Arena hôm nay!
288
🏆BẢNG XẾP HẠNG MỚI CỦA LMARENA🏆
🤓Chuyên gia
💻 Dịch vụ Phần mềm & CNTT
✍️ Viết, Văn học, & Ngôn ngữ
🔬 Khoa học Đời sống, Vật lý, & Xã hội
🎭 Giải trí, Thể thao, & Truyền thông
📈 Kinh doanh, Quản lý, & Hoạt động Tài chính
🧮 Toán học
⚖️ Pháp lý & Chính phủ
🩺 Y tế & Chăm sóc sức khỏe
Các đánh giá về tính hữu ích kinh tế của AI (như GDPval) ngày càng trở nên quan trọng, nhưng tốn kém để thu thập. Chúng tôi đã làm việc với cộng đồng LMArena gồm hàng triệu người đóng góp hàng tháng để thu thập dữ liệu nghề nghiệp và chuyên gia một cách tự nhiên, giải quyết vấn đề khả năng mở rộng.
>5% người dùng LMArena là chuyên gia, và một tỷ lệ lớn các yêu cầu của LMArena nằm trong các ngành có giá trị kinh tế: Kỹ sư phần mềm, sinh viên/nghiên cứu viên, nhà tiếp thị/nhà thiết kế, bác sĩ, luật sư, và nhiều hơn nữa. Điều này cho phép chúng tôi xây dựng các bảng xếp hạng trực tuyến trong các danh mục này dựa trên phản hồi mới mỗi ngày. Nó thể hiện sức mạnh của hệ thống phản hồi từ thế giới thực mà chúng tôi đã tạo ra tại @arena!


lmarena.ai6 thg 11, 2025
🚀 Giới thiệu Arena Expert: một khung đánh giá LMArena mới để xác định các prompt khó nhất, ở cấp độ chuyên gia từ người dùng thực, tạo ra bảng xếp hạng Chuyên gia mới.
Chúng tôi cũng giới thiệu các Danh mục Nghề nghiệp nằm dưới tám bảng xếp hạng mới:
💻 Dịch vụ Phần mềm & CNTT
✍️ Viết, Văn học, & Ngôn ngữ
🔬 Khoa học Đời sống, Vật lý, & Xã hội
🎭 Giải trí, Thể thao, & Truyền thông
📈 Kinh doanh, Quản lý, & Hoạt động Tài chính
🧮 Toán học
⚖️ Pháp lý & Chính phủ
🩺 Y tế & Chăm sóc sức khỏe
Khám phá cách các mô hình hoạt động trong các lĩnh vực qua chủ đề 🧵 👇

1,12K
Văn phòng LMArena hôm nay đang sôi động. Môi trường ở đây rất siêu tuyến tính. Chúng tôi đang tương tác một cách xây dựng, luôn thúc đẩy nhau học hỏi và vượt qua những gì chúng tôi nghĩ là giới hạn của mình.
Đặc điểm số 1 mà chúng tôi tìm kiếm khi tuyển dụng là "Sự Xuất Sắc." Sản xuất công việc mỗi ngày đáp ứng tiêu chuẩn kỹ thuật cao nhất về tay nghề, hiệu suất và độ tin cậy. Còn nhiều yếu tố khác nữa, nhưng không bao giờ thỏa hiệp về sự xuất sắc. Kết quả là, mọi người trong đội ngũ của chúng tôi đều là những chuyên gia sâu sắc. Điều này là cần thiết để xây dựng các đánh giá chất lượng với sự tự tin.
Sự xuất sắc sinh ra sự xuất sắc. Không ai muốn làm việc trong một môi trường có nhiều người chán nản -- điều đó giết chết động lực. Chúng tôi luôn nâng cao tiêu chuẩn, và đây là điều dẫn đến cảm giác năng lượng. Điều này rất hiếm.
Nếu bạn quan tâm đến việc làm việc trong môi trường như thế này, hãy gửi cho tôi một tin nhắn. Chúng tôi luôn tìm kiếm những người có thể nâng cao tiêu chuẩn lên một bậc cao hơn.
320
Hàng đầu
Thứ hạng
Yêu thích
