Laten we OpenAI gpt-oss en Qwen-3 vergelijken op wiskunde & redeneren:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Hier is de workflow: - Gebruiker dient een vraag in - Beide modellen genereren redeneertokens samen met de uiteindelijke reactie - Vraag, reactie en redeneerl logica worden ter evaluatie verzonden - Gedetailleerde evaluatie wordt uitgevoerd met Opik's G-Eval over vier metrics. Laten we dit implementeren!
1️⃣ Laad API-sleutels In deze demo gebruiken we OpenRouter om toegang te krijgen tot de gpt-oss en Qwen3 modellen. Een OpenAI-sleutel is vereist voor de judge LLM in G-Eval. Bewaar de OpenRouter en OpenAI API-sleutels in een .env-bestand om in de omgeving te laden. Controleer dit 👇
2️⃣ Logisch Redeneren-metric We gaan nu evaluatiemetrics voor onze taak creëren met Opik's G-Eval. Deze metric evalueert de samenhang en geldigheid van logische stappen en conclusies. Bekijk dit 👇
3️⃣ Feitelijke nauwkeurigheid metric Deze metric beoordeelt de nauwkeurigheid van feitelijke beweringen en informatie. Bekijk dit 👇
4️⃣ Coherentie-metric Deze metric evalueert de duidelijkheid en organisatie van het antwoord. Bekijk dit 👇
5️⃣ Diepte van Analyse-metric Deze metric evalueert de diepte en inzichtelijkheid van de redenering. Bekijk dit 👇
6️⃣ Genereer modelreactie Nu zijn we helemaal klaar om reacties van beide modellen te genereren. We voeren de vraag in het promptvak in en streamen reacties van beide modellen tegelijkertijd. Bekijk dit 👇
7️⃣ Evalueer de gegenereerde redenering Ten slotte gebruiken we GPT-4o als de beoordelende LLM. Het evalueert beide redeneringsreacties, genereert de hierboven genoemde metrics en biedt details voor elke metric. Bekijk dit 👇
Tijd om te testen.. (1/2) Vraag 1: Bouw een MCP-server die een GitHub-repo in de gaten houdt voor nieuwe problemen en deze naar een Telegram-groep stuurt. Hier zijn de gedetailleerde resultaten:
Tijd om te testen.. (2/2) Vraag 2: Bouw een MCP-server die een nieuwe Notion-pagina aanmaakt wanneer iemand een bestand in een specifieke Google Drive-map plaatst. Hier zijn de gedetailleerde resultaten:
Beide modellen zijn zeer capabel: Qwen 3 biedt uitgebreide en gedetailleerde redenering, terwijl GPT-oss helder en nauwkeurig is. Voel je vrij om het op meer uitdagende vragen te testen. Hier is de volledige code:
Als je het waardevol vond, deel het dan met je netwerk. Vind me → @akshay_pachaar✔️ Voor meer inzichten en tutorials over LLM's, AI-agenten en machine learning!
Akshay 🚀
Akshay 🚀6 aug, 21:29
Laten we OpenAI gpt-oss en Qwen-3 vergelijken op wiskunde & redeneren:
Tijd om te testen.. (1/2) Vraag 1: Een slak klimt omhoog een muur van 10 voet. Elke dag klimt hij 3 voet, maar elke nacht glijdt hij 2 voet terug. Op welke dag zal hij de top bereiken? Hier zijn de gedetailleerde resultaten:
Tijd om te testen.. (2/2) Vraag 2: Een ontsnapte tram rijdt op 5 mensen af. Je kunt een hendel trekken om deze naar een zijspoor te leiden waar het 1 persoon zal doden in plaats van 5. Wat moet je doen en waarom? Hier zijn de gedetailleerde resultaten:
Beide modellen zijn zeer capabel: Qwen 3 biedt uitgebreide en gedetailleerde redeneringen, terwijl GPT-oss helder en nauwkeurig is. Voel je vrij om het op meer uitdagende vragen te testen. Hier is alle code:
Als je het inzichtelijk vond, deel het dan met je netwerk. Vind me → @akshay_pachaar✔️ Voor meer inzichten en tutorials over LLM's, AI Agents en Machine Learning!
Akshay 🚀
Akshay 🚀6 aug, 21:29
Laten we OpenAI gpt-oss en Qwen-3 vergelijken op wiskunde & redeneren:
300,66K