Porównajmy OpenAI gpt-oss i Qwen-3 w zakresie matematyki i rozumowania:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Oto workflow: - Użytkownik składa zapytanie - Oba modele generują tokeny rozumowania wraz z ostateczną odpowiedzią - Zapytanie, odpowiedź i logika rozumowania są wysyłane do oceny - Szczegółowa ocena jest przeprowadzana przy użyciu G-Eval Opika w czterech metrykach. Zrealizujmy to!
1️⃣ Załaduj klucze API W tej demonstracji użyjemy OpenRouter do uzyskania dostępu do modeli gpt-oss i Qwen3. Klucz OpenAI jest wymagany dla sędziego LLM w G-Eval. Przechowuj klucze API OpenRouter i OpenAI w pliku .env, aby załadować je do środowiska. Sprawdź to 👇
2️⃣ Metryka rozumowania logicznego Teraz stworzymy metryki oceny dla naszego zadania, korzystając z G-Eval Opika. Ta metryka ocenia spójność i ważność kroków logicznych oraz wniosków. Sprawdź to 👇
3️⃣ Metryka dokładności faktów Ta metryka ocenia dokładność twierdzeń i informacji faktograficznych. Sprawdź to 👇
4️⃣ Metryka spójności Ta metryka ocenia jasność i organizację odpowiedzi. Sprawdź to 👇
5️⃣ Metrika Głębokości Analizy Ta metryka ocenia głębokość i wnikliwość rozumowania. Sprawdź to 👇
6️⃣ Generuj odpowiedź modelu Teraz jesteśmy gotowi do generowania odpowiedzi z obu modeli. Wprowadzamy zapytanie do pola prompt i jednocześnie przesyłamy odpowiedzi z obu modeli. Sprawdź to 👇
7️⃣ Oceń wygenerowane rozumowanie Na koniec używamy GPT-4o jako sędzię LLM. Ocenia obie odpowiedzi rozumujące, generuje wspomniane powyżej metryki i dostarcza szczegóły dla każdej metryki. Sprawdź to 👇
Czas na testowanie.. (1/2) Zapytanie 1: Zbuduj serwer MCP, który monitoruje repozytorium GitHub w poszukiwaniu nowych problemów i wysyła je do grupy na Telegramie. Oto szczegółowe wyniki:
Czas na testowanie.. (2/2) Zapytanie 2: Zbuduj serwer MCP, który tworzy nową stronę w Notion, gdy ktoś wrzuci plik do określonego folderu Google Drive. Oto szczegółowe wyniki:
Oba modele są bardzo zdolne: Qwen 3 oferuje szczegółowe i rozbudowane rozumowanie, podczas gdy GPT-oss jest zwięzły i precyzyjny. Śmiało przetestuj go na bardziej wymagających zapytaniach. Oto cały kod:
Jeśli uznałeś to za pouczające, podziel się tym ze swoją siecią. Znajdź mnie → @akshay_pachaar✔️ Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!
Akshay 🚀
Akshay 🚀6 sie, 21:29
Porównajmy OpenAI gpt-oss i Qwen-3 w zakresie matematyki i rozumowania:
Czas na test.. (1/2) Zapytanie 1: Ślimak wspina się na 10-stopową ścianę. Każdego dnia wspina się na 3 stopy, ale każdej nocy zjeżdża z powrotem o 2 stopy. W którym dniu dotrze na szczyt? Oto szczegółowe wyniki:
Czas na test.. (2/2) Pytanie 2: Uciekająca kolejka zmierza w kierunku 5 osób. Możesz pociągnąć dźwignię, aby skierować ją na boczny tor, gdzie zabije 1 osobę zamiast 5. Co powinieneś zrobić i dlaczego? Oto szczegółowe wyniki:
Oba modele są bardzo zdolne: Qwen 3 oferuje obszerne i szczegółowe rozumowanie, podczas gdy GPT-oss jest zwięzły i dokładny. Śmiało przetestuj go na bardziej wymagających zapytaniach. Oto cały kod:
Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią. Znajdź mnie → @akshay_pachaar✔️ Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!
Akshay 🚀
Akshay 🚀6 sie, 21:29
Porównajmy OpenAI gpt-oss i Qwen-3 w zakresie matematyki i rozumowania:
300,64K