Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La oss sammenligne OpenAI gpt-oss og Qwen-3 på matematikk og resonnement:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Her er arbeidsflyten:
- Bruker sender inn spørring
- Begge modellene genererer resonneringstokens sammen med det endelige svaret
- Spørring, svar og resonnementlogikk sendes til evaluering
- Detaljert evaluering utføres ved hjelp av Opiks G-Eval på tvers av fire beregninger.
La oss implementere dette!
1️⃣ Last inn API-nøkler
I denne demoen bruker vi OpenRouter for å få tilgang til gpt-oss- og Qwen3-modeller.
OpenAI-nøkkel kreves for dommeren LLM i G-Eval.
Lagre OpenRouter- og OpenAI API-nøkler i en .env-fil for å laste inn i miljøet.
Sjekk dette 👇

2️⃣ Logisk resonnement beregning
Vi vil nå lage evalueringsberegninger for oppgaven vår ved hjelp av Opiks G-Eval.
Denne beregningen evaluerer sammenhengen og gyldigheten av logiske trinn og konklusjoner.
Sjekk dette ut 👇

3️⃣ Beregning av faktanøyaktighet
Denne beregningen vurderer nøyaktigheten av faktiske påstander og informasjon.
Sjekk dette ut 👇

4️⃣ Koherens-beregning
Denne beregningen evaluerer klarheten og organiseringen av responsen.
Sjekk dette ut 👇

5️⃣ Måleverdi for analysedybde
Denne beregningen evaluerer dybden og innsikten til resonnementet.
Sjekk dette ut 👇

6️⃣ Generer modellsvar
Nå er vi klare til å generere svar fra begge modellene.
Vi legger inn spørringen i ledetekstboksen og strømmer svar fra begge modellene samtidig.
Sjekk dette 👇

7️⃣ Evaluer generert resonnement
Til slutt bruker vi GPT-4o som dommer LLM.
Den evaluerer begge resonnementsvarene, genererer måledataene nevnt ovenfor og gir detaljer for hver metrikkverdi.
Sjekk dette ut 👇

På tide å teste. (1/2)
Spørring 1: Bygg en MCP-server som ser på en GitHub-repo for nye problemer og sender dem til en Telegram-gruppe.
Her er de detaljerte resultatene:

På tide å teste. (2/2)
Spørring 2: Bygg en MCP-server som oppretter en ny Notion-side når noen slipper en fil i en bestemt Google Disk-mappe.
Her er de detaljerte resultatene:

Begge modellene er svært dyktige: Qwen 3 tilbyr detaljerte og detaljerte resonnementer, mens GPT-oss er skarp og nøyaktig.
Test den gjerne på mer utfordrende spørsmål.
Her er all koden:
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt.
Finn meg → @akshay_pachaar✔️
For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!

20 timer siden
La oss sammenligne OpenAI gpt-oss og Qwen-3 på matematikk og resonnement:
På tide å teste. (1/2)
Spørring 1: En snegl klatrer opp en 10 fots vegg. Hver dag klatrer den 3 fot, men hver natt glir den tilbake 2 fot. På hvilken dag vil den nå toppen?
Her er de detaljerte resultatene:

På tide å teste. (2/2)
Spørring 2: En løpsk tralle er på vei mot 5 personer. Du kan trekke i en spak for å avlede den til et sidespor hvor den vil drepe 1 person i stedet. Hva bør du gjøre og hvorfor?
Her er de detaljerte resultatene:

Begge modellene er svært dyktige: Qwen 3 tilbyr detaljerte og detaljerte resonnementer, mens GPT-oss er skarp og nøyaktig.
Test den gjerne på mer utfordrende spørsmål.
Her er all koden:
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt.
Finn meg → @akshay_pachaar✔️
For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!

20 timer siden
La oss sammenligne OpenAI gpt-oss og Qwen-3 på matematikk og resonnement:
277,62K
Topp
Rangering
Favoritter