Lass uns OpenAI gpt-oss und Qwen-3 in Mathematik und Logik vergleichen:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Hier ist der Arbeitsablauf: - Der Benutzer reicht eine Anfrage ein - Beide Modelle generieren Denk-Tokens zusammen mit der endgültigen Antwort - Anfrage, Antwort und Denklogik werden zur Bewertung gesendet - Eine detaillierte Bewertung wird mit Opiks G-Eval über vier Metriken durchgeführt. Lass uns das umsetzen!
1️⃣ API-Schlüssel laden In dieser Demo verwenden wir OpenRouter, um auf die Modelle gpt-oss und Qwen3 zuzugreifen. Ein OpenAI-Schlüssel ist für das Judge LLM in G-Eval erforderlich. Speichern Sie die OpenRouter- und OpenAI-API-Schlüssel in einer .env-Datei, um sie in die Umgebung zu laden. Überprüfen Sie dies 👇
2️⃣ Logisches Denkvermögen-Metrik Wir werden jetzt Bewertungsmetriken für unsere Aufgabe mit Opiks G-Eval erstellen. Dieses Metrik bewertet die Kohärenz und Gültigkeit von logischen Schritten und Schlussfolgerungen. Schau dir das an 👇
3️⃣ Faktengenauigkeitsmetrik Diese Metrik bewertet die Genauigkeit von faktischen Behauptungen und Informationen. Schau dir das an 👇
4️⃣ Kohärenzmetrik Diese Metrik bewertet die Klarheit und Organisation der Antwort. Schau dir das an 👇
5️⃣ Tiefe der Analyse-Metrik Diese Metrik bewertet die Tiefe und Einsichtsfähigkeit des Denkens. Schau dir das an 👇
6️⃣ Modellantwort generieren Jetzt sind wir bereit, Antworten von beiden Modellen zu generieren. Wir geben die Anfrage in das Eingabefeld ein und streamen die Antworten von beiden Modellen gleichzeitig. Überprüfen Sie dies 👇
7️⃣ Bewertet die generierte Argumentation Schließlich verwenden wir GPT-4o als das bewertende LLM. Es bewertet beide Argumentationsantworten, generiert die oben genannten Metriken und liefert Details zu jeder Metrik. Schau dir das an 👇
Zeit zum Testen.. (1/2) Abfrage 1: Erstellen Sie einen MCP-Server, der ein GitHub-Repo auf neue Probleme überwacht und diese an eine Telegram-Gruppe sendet. Hier sind die detaillierten Ergebnisse:
Zeit zum Testen.. (2/2) Abfrage 2: Erstellen Sie einen MCP-Server, der eine neue Notion-Seite erstellt, wenn jemand eine Datei in einen bestimmten Google Drive-Ordner ablegt. Hier sind die detaillierten Ergebnisse:
Beide Modelle sind äußerst leistungsfähig: Qwen 3 bietet ausführliche und detaillierte Argumentation, während GPT-oss prägnant und genau ist. Fühlen Sie sich frei, es mit herausfordernderen Anfragen zu testen. Hier ist der gesamte Code:
Wenn Sie es aufschlussreich fanden, teilen Sie es mit Ihrem Netzwerk. Finden Sie mich → @akshay_pachaar✔️ Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!
Akshay 🚀
Akshay 🚀6. Aug., 21:29
Lass uns OpenAI gpt-oss und Qwen-3 in Mathematik und Logik vergleichen:
Zeit zum Testen.. (1/2) Abfrage 1: Eine Schnecke klettert eine 10 Fuß hohe Wand hinauf. Jeden Tag klettert sie 3 Fuß, aber jede Nacht rutscht sie 2 Fuß zurück. An welchem Tag wird sie die Spitze erreichen? Hier sind die detaillierten Ergebnisse:
Zeit für einen Test.. (2/2) Anfrage 2: Eine außer Kontrolle geratene Straßenbahn fährt auf 5 Personen zu. Du kannst einen Hebel ziehen, um sie auf ein Nebengleis umzuleiten, wo sie stattdessen 1 Person töten wird. Was solltest du tun und warum? Hier sind die detaillierten Ergebnisse:
Beide Modelle sind äußerst leistungsfähig: Qwen 3 bietet ausführliche und detaillierte Argumentation, während GPT-oss prägnant und genau ist. Fühlen Sie sich frei, es mit herausfordernderen Anfragen zu testen. Hier ist der gesamte Code:
Wenn Sie es aufschlussreich fanden, teilen Sie es mit Ihrem Netzwerk. Finden Sie mich → @akshay_pachaar✔️ Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!
Akshay 🚀
Akshay 🚀6. Aug., 21:29
Lass uns OpenAI gpt-oss und Qwen-3 in Mathematik und Logik vergleichen:
300,64K