La oss sammenligne OpenAI gpt-oss og Qwen-3 på matematikk og resonnement:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Her er arbeidsflyten: - Bruker sender inn spørring - Begge modellene genererer resonneringstokens sammen med det endelige svaret - Spørring, svar og resonnementlogikk sendes til evaluering - Detaljert evaluering utføres ved hjelp av Opiks G-Eval på tvers av fire beregninger. La oss implementere dette!
1️⃣ Last inn API-nøkler I denne demoen bruker vi OpenRouter for å få tilgang til gpt-oss- og Qwen3-modeller. OpenAI-nøkkel kreves for dommeren LLM i G-Eval. Lagre OpenRouter- og OpenAI API-nøkler i en .env-fil for å laste inn i miljøet. Sjekk dette 👇
2️⃣ Logisk resonnement beregning Vi vil nå lage evalueringsberegninger for oppgaven vår ved hjelp av Opiks G-Eval. Denne beregningen evaluerer sammenhengen og gyldigheten av logiske trinn og konklusjoner. Sjekk dette ut 👇
3️⃣ Beregning av faktanøyaktighet Denne beregningen vurderer nøyaktigheten av faktiske påstander og informasjon. Sjekk dette ut 👇
4️⃣ Koherens-beregning Denne beregningen evaluerer klarheten og organiseringen av responsen. Sjekk dette ut 👇
5️⃣ Måleverdi for analysedybde Denne beregningen evaluerer dybden og innsikten til resonnementet. Sjekk dette ut 👇
6️⃣ Generer modellsvar Nå er vi klare til å generere svar fra begge modellene. Vi legger inn spørringen i ledetekstboksen og strømmer svar fra begge modellene samtidig. Sjekk dette 👇
7️⃣ Evaluer generert resonnement Til slutt bruker vi GPT-4o som dommer LLM. Den evaluerer begge resonnementsvarene, genererer måledataene nevnt ovenfor og gir detaljer for hver metrikkverdi. Sjekk dette ut 👇
På tide å teste. (1/2) Spørring 1: Bygg en MCP-server som ser på en GitHub-repo for nye problemer og sender dem til en Telegram-gruppe. Her er de detaljerte resultatene:
På tide å teste. (2/2) Spørring 2: Bygg en MCP-server som oppretter en ny Notion-side når noen slipper en fil i en bestemt Google Disk-mappe. Her er de detaljerte resultatene:
Begge modellene er svært dyktige: Qwen 3 tilbyr detaljerte og detaljerte resonnementer, mens GPT-oss er skarp og nøyaktig. Test den gjerne på mer utfordrende spørsmål. Her er all koden:
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt. Finn meg → @akshay_pachaar✔️ For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!
Akshay 🚀
Akshay 🚀20 timer siden
La oss sammenligne OpenAI gpt-oss og Qwen-3 på matematikk og resonnement:
På tide å teste. (1/2) Spørring 1: En snegl klatrer opp en 10 fots vegg. Hver dag klatrer den 3 fot, men hver natt glir den tilbake 2 fot. På hvilken dag vil den nå toppen? Her er de detaljerte resultatene:
På tide å teste. (2/2) Spørring 2: En løpsk tralle er på vei mot 5 personer. Du kan trekke i en spak for å avlede den til et sidespor hvor den vil drepe 1 person i stedet. Hva bør du gjøre og hvorfor? Her er de detaljerte resultatene:
Begge modellene er svært dyktige: Qwen 3 tilbyr detaljerte og detaljerte resonnementer, mens GPT-oss er skarp og nøyaktig. Test den gjerne på mer utfordrende spørsmål. Her er all koden:
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt. Finn meg → @akshay_pachaar✔️ For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!
Akshay 🚀
Akshay 🚀20 timer siden
La oss sammenligne OpenAI gpt-oss og Qwen-3 på matematikk og resonnement:
277,62K