热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
工作流程如下:
- 用户提交查询
- 两个模型生成推理令牌以及最终响应
- 查询、响应和推理逻辑被发送进行评估
- 使用Opik的G-Eval在四个指标上进行详细评估。
让我们实现这个!
1️⃣ 加载 API 密钥
在这个演示中,我们将使用 OpenRouter 访问 gpt-oss 和 Qwen3 模型。
在 G-Eval 中,评判 LLM 需要 OpenAI 密钥。
将 OpenRouter 和 OpenAI API 密钥存储在 .env 文件中以加载到环境中。
查看这个 👇

2️⃣ 逻辑推理指标
我们现在将使用 Opik 的 G-Eval 为我们的任务创建评估指标。
该指标评估逻辑步骤和结论的连贯性和有效性。
查看这个 👇

3️⃣ 事实准确性指标
该指标评估事实声明和信息的准确性。
查看这个 👇

4️⃣ 一致性指标
该指标评估响应的清晰度和组织性。
查看这个 👇

5️⃣ 分析深度指标
该指标评估推理的深度和洞察力。
查看这个 👇

6️⃣ 生成模型响应
现在我们已经准备好从两个模型生成响应。
我们将查询输入到提示框中,并同时从两个模型流式传输响应。
查看这个 👇

7️⃣ 评估生成的推理
最后,我们使用 GPT-4o 作为评判 LLM。
它评估两个推理响应,生成上述提到的指标,并提供每个指标的详细信息。
查看这个 👇

是时候测试了.. (1/2)
查询 1:构建一个 MCP 服务器,监视 GitHub 仓库的新问题,并将其发送到 Telegram 群组。
以下是详细结果:

是时候测试了.. (2/2)
查询 2:构建一个 MCP 服务器,当有人将文件放入特定的 Google Drive 文件夹时,创建一个新的 Notion 页面。
以下是详细结果:

这两种模型都非常强大:Qwen 3 提供详细而丰富的推理,而 GPT-oss 则简洁而准确。
欢迎您在更具挑战性的查询上进行测试。
以下是所有代码:
如果你觉得这很有启发性,请与您的网络分享。
找到我 → @akshay_pachaar✔️
获取更多关于LLMs、AI代理和机器学习的见解和教程!

8月6日 21:29
让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3:
测试时间.. (1/2)
查询 1:一只蜗牛爬上一面 10 英尺高的墙。它每天爬 3 英尺,但每晚滑回 2 英尺。它将在第几天到达顶部?
以下是详细结果:

该测试时间到了.. (2/2)
查询 2:一辆失控的电车正朝着 5 个人驶去。你可以拉动一个杠杆将其转向一条侧轨,在那里它将杀死 1 个人。你应该怎么做,为什么?
以下是详细结果:

这两种模型都非常强大:Qwen 3 提供详细而丰富的推理,而 GPT-oss 则简洁而准确。
欢迎您在更具挑战性的查询上进行测试。
以下是所有代码:
如果你觉得这很有启发性,请与您的网络分享。
找到我 → @akshay_pachaar✔️
获取更多关于LLMs、AI代理和机器学习的见解和教程!

8月6日 21:29
让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3:
300.65K
热门
排行
收藏