分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

OpenAI gpt-oss と Qwen-3 を数学と推論で比較してみましょう。

Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀

ワークフローは次のとおりです。 - ユーザーがクエリを送信する - どちらのモデルも、最終応答とともに推論トークンを生成します - クエリ、応答、推論ロジックが評価のために送信されます - 詳細な評価は、OpikのG-Evalを使用して4つの指標にわたって実施されます。これを実装しましょう!

1️⃣ API キーを読み込むこのデモでは、OpenRouterを使用してgpt-ossおよびQwen3モデルにアクセスします。 G-EvalのジャッジLLMにはOpenAIキーが必要です。 OpenRouter と OpenAI の API キーを .env ファイルに保存して、環境に読み込みます。これを👇チェックしてください

2️⃣ 論理的推論メトリック次に、OpikのG-Evalを使用してタスクの評価メトリックを作成します。この指標は、論理的なステップと結論の一貫性と妥当性を評価します。これがいいと思います 👇

3️⃣ 事実精度メトリックこの指標は、事実に基づく主張と情報の正確性を評価します。これがいいと思います 👇

4️⃣ コヒーレンス指標この指標は、応答の明確さと構成を評価します。これがいいと思います 👇

5️⃣ 分析の深さメトリックこの指標は、推論の深さと洞察力を評価します。これがいいと思います 👇

6️⃣ モデル応答の生成これで、両方のモデルから応答を生成する準備が整いました。プロンプトボックスにクエリを入力し、両方のモデルから同時に応答をストリーミングします。これを👇チェックしてください

7️⃣ 生成された推論を評価する最後に、GPT-4oをジャッジLLMとして使用します。両方の推論応答を評価し、上記のメトリックを生成し、各メトリックの詳細を提供します。これがいいと思います 👇

テストする時間..(1/2) クエリ 1: GitHub リポジトリで新しい問題を監視し、それらを Telegram グループに送信する MCP サーバーを構築します。詳細な結果は次のとおりです。

テストする時間..(2/2) クエリ2:誰かが特定のGoogleドライブフォルダにファイルをドロップしたときに新しいNotionページを作成するMCPサーバーを構築します。詳細な結果は次のとおりです。

Qwen 3 は冗長で詳細な推論を提供しますが、GPT-oss は鮮明で正確です。より難しいクエリで自由にテストしてください。すべてのコードは次のとおりです。

洞察力に富んだと思われた場合は、ネットワークと再共有してください。 → @akshay_pachaar✔️ LLM、AI エージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。

テストする時間..(1/2) クエリ 1: カタツムリが 10 フィートの壁を登ります。毎日3フィート上昇しますが、毎晩2フィート後退します。どの日に頂上に到達するのでしょうか? 詳細な結果は次のとおりです。

テストする時間..(2/2) クエリ 2: 暴走したトロリーが 5 人に向かっています。レバーを引くと脇道に迂回させ、代わりに 1 人を殺すことができます。何をすべきか、そしてその理由は何ですか? 詳細な結果は次のとおりです。

Qwen 3 は冗長で詳細な推論を提供しますが、GPT-oss は鮮明で正確です。より難しいクエリで自由にテストしてください。すべてのコードは次のとおりです。

洞察力に富んだと思われた場合は、ネットワークと再共有してください。 → @akshay_pachaar✔️ LLM、AI エージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。