让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
工作流程如下: - 用户提交查询 - 两个模型生成推理令牌以及最终响应 - 查询、响应和推理逻辑被发送进行评估 - 使用Opik的G-Eval在四个指标上进行详细评估。 让我们实现这个!
1️⃣ 加载 API 密钥 在这个演示中,我们将使用 OpenRouter 访问 gpt-oss 和 Qwen3 模型。 在 G-Eval 中,评判 LLM 需要 OpenAI 密钥。 将 OpenRouter 和 OpenAI API 密钥存储在 .env 文件中以加载到环境中。 查看这个 👇
2️⃣ 逻辑推理指标 我们现在将使用 Opik 的 G-Eval 为我们的任务创建评估指标。 该指标评估逻辑步骤和结论的连贯性和有效性。 查看这个 👇
3️⃣ 事实准确性指标 该指标评估事实声明和信息的准确性。 查看这个 👇
4️⃣ 一致性指标 该指标评估响应的清晰度和组织性。 查看这个 👇
5️⃣ 分析深度指标 该指标评估推理的深度和洞察力。 查看这个 👇
6️⃣ 生成模型响应 现在我们已经准备好从两个模型生成响应。 我们将查询输入到提示框中,并同时从两个模型流式传输响应。 查看这个 👇
7️⃣ 评估生成的推理 最后,我们使用 GPT-4o 作为评判 LLM。 它评估两个推理响应,生成上述提到的指标,并提供每个指标的详细信息。 查看这个 👇
是时候测试了.. (1/2) 查询 1:构建一个 MCP 服务器,监视 GitHub 仓库的新问题,并将其发送到 Telegram 群组。 以下是详细结果:
是时候测试了.. (2/2) 查询 2:构建一个 MCP 服务器,当有人将文件放入特定的 Google Drive 文件夹时,创建一个新的 Notion 页面。 以下是详细结果:
这两种模型都非常强大:Qwen 3 提供详细而丰富的推理,而 GPT-oss 则简洁而准确。 欢迎您在更具挑战性的查询上进行测试。 以下是所有代码:
如果你觉得这很有启发性,请与您的网络分享。 找到我 → @akshay_pachaar✔️ 获取更多关于LLMs、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀8月6日 21:29
让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3:
测试时间.. (1/2) 查询 1:一只蜗牛爬上一面 10 英尺高的墙。它每天爬 3 英尺,但每晚滑回 2 英尺。它将在第几天到达顶部? 以下是详细结果:
该测试时间到了.. (2/2) 查询 2:一辆失控的电车正朝着 5 个人驶去。你可以拉动一个杠杆将其转向一条侧轨,在那里它将杀死 1 个人。你应该怎么做,为什么? 以下是详细结果:
这两种模型都非常强大:Qwen 3 提供详细而丰富的推理,而 GPT-oss 则简洁而准确。 欢迎您在更具挑战性的查询上进行测试。 以下是所有代码:
如果你觉得这很有启发性,请与您的网络分享。 找到我 → @akshay_pachaar✔️ 获取更多关于LLMs、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀8月6日 21:29
让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3:
300.65K