Hãy so sánh OpenAI gpt-oss và Qwen-3 về toán học & lý luận:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Dưới đây là quy trình làm việc: - Người dùng gửi truy vấn - Cả hai mô hình tạo ra các token lý luận cùng với phản hồi cuối cùng - Truy vấn, phản hồi và logic lý luận được gửi đi để đánh giá - Đánh giá chi tiết được thực hiện bằng cách sử dụng G-Eval của Opik trên bốn chỉ số. Hãy triển khai điều này!
1️⃣ Tải khóa API Trong bản demo này, chúng tôi sẽ sử dụng OpenRouter để truy cập các mô hình gpt-oss và Qwen3. Khóa OpenAI là cần thiết cho LLM thẩm phán trong G-Eval. Lưu trữ khóa API OpenRouter và OpenAI trong tệp .env để tải vào môi trường. Kiểm tra điều này 👇
2️⃣ Chỉ số Lập luận Logic Chúng ta sẽ tạo ra các chỉ số đánh giá cho nhiệm vụ của mình bằng cách sử dụng G-Eval của Opik. Chỉ số này đánh giá tính nhất quán và tính hợp lệ của các bước và kết luận logic. Xem cái này 👇
3️⃣ Chỉ số Độ chính xác Thực tế Chỉ số này đánh giá độ chính xác của các tuyên bố và thông tin thực tế. Xem cái này 👇
4️⃣ Chỉ số tính nhất quán Chỉ số này đánh giá sự rõ ràng và tổ chức của phản hồi. Xem cái này 👇
5️⃣ Chỉ số Độ Sâu Phân Tích Chỉ số này đánh giá độ sâu và sự sâu sắc của lý luận. Xem cái này 👇
6️⃣ Tạo phản hồi mô hình Bây giờ chúng ta đã sẵn sàng để tạo phản hồi từ cả hai mô hình. Chúng ta nhập truy vấn vào ô nhắc và phát trực tiếp phản hồi từ cả hai mô hình cùng một lúc. Kiểm tra điều này 👇
7️⃣ Đánh giá lý luận được tạo ra Cuối cùng, chúng tôi sử dụng GPT-4o làm LLM thẩm phán. Nó đánh giá cả hai phản hồi lý luận, tạo ra các chỉ số đã đề cập ở trên và cung cấp chi tiết cho từng chỉ số. Xem cái này 👇
Đến lúc thử nghiệm.. (1/2) Truy vấn 1: Xây dựng một máy chủ MCP theo dõi một kho GitHub để phát hiện các vấn đề mới và gửi chúng đến một nhóm Telegram. Dưới đây là kết quả chi tiết:
Đến lúc thử nghiệm.. (2/2) Truy vấn 2: Xây dựng một máy chủ MCP tạo một trang Notion mới khi ai đó thả một tệp vào một thư mục Google Drive cụ thể. Dưới đây là kết quả chi tiết:
Cả hai mô hình đều rất mạnh mẽ: Qwen 3 cung cấp lý luận chi tiết và dài dòng, trong khi GPT-oss thì ngắn gọn và chính xác. Hãy thoải mái thử nghiệm với những câu hỏi khó hơn. Đây là toàn bộ mã nguồn:
Nếu bạn thấy nó hữu ích, hãy chia sẻ lại với mạng lưới của bạn. Tìm tôi → @akshay_pachaar✔️ Để biết thêm thông tin và hướng dẫn về LLMs, AI Agents và Machine Learning!
Akshay 🚀
Akshay 🚀21:29 6 thg 8
Hãy so sánh OpenAI gpt-oss và Qwen-3 về toán học & lý luận:
Đến lúc thử nghiệm rồi.. (1/2) Câu hỏi 1: Một con ốc sên leo lên một bức tường cao 10 feet. Mỗi ngày nó leo lên 3 feet, nhưng mỗi đêm nó trượt xuống 2 feet. Vào ngày nào nó sẽ đến đỉnh? Dưới đây là kết quả chi tiết:
Đã đến lúc thử nghiệm.. (2/2) Câu hỏi 2: Một chiếc xe điện đang lao về phía 5 người. Bạn có thể kéo một cần gạt để chuyển hướng nó sang một đường ray bên, nơi nó sẽ giết chết 1 người thay vì 5. Bạn nên làm gì và tại sao? Dưới đây là kết quả chi tiết:
Cả hai mô hình đều rất mạnh mẽ: Qwen 3 cung cấp lý luận chi tiết và rõ ràng, trong khi GPT-oss thì ngắn gọn và chính xác. Hãy thoải mái thử nghiệm với những câu hỏi khó hơn. Đây là toàn bộ mã nguồn:
Nếu bạn thấy nó hữu ích, hãy chia sẻ lại với mạng lưới của bạn. Tìm tôi → @akshay_pachaar✔️ Để biết thêm thông tin và hướng dẫn về LLMs, AI Agents và Machine Learning!
Akshay 🚀
Akshay 🚀21:29 6 thg 8
Hãy so sánh OpenAI gpt-oss và Qwen-3 về toán học & lý luận:
300,64K