一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

让我们在数学和推理方面比较 OpenAI gpt-oss 和 Qwen-3：

Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀

工作流程如下： - 用户提交查询 - 两个模型生成推理令牌以及最终响应 - 查询、响应和推理逻辑被发送进行评估 - 使用Opik的G-Eval在四个指标上进行详细评估。让我们实现这个！

1️⃣ 加载 API 密钥在这个演示中，我们将使用 OpenRouter 访问 gpt-oss 和 Qwen3 模型。在 G-Eval 中，评判 LLM 需要 OpenAI 密钥。将 OpenRouter 和 OpenAI API 密钥存储在 .env 文件中以加载到环境中。查看这个 👇

2️⃣ 逻辑推理指标我们现在将使用 Opik 的 G-Eval 为我们的任务创建评估指标。该指标评估逻辑步骤和结论的连贯性和有效性。查看这个 👇

3️⃣ 事实准确性指标该指标评估事实声明和信息的准确性。查看这个 👇

4️⃣ 一致性指标该指标评估响应的清晰度和组织性。查看这个 👇

5️⃣ 分析深度指标该指标评估推理的深度和洞察力。查看这个 👇

6️⃣ 生成模型响应现在我们已经准备好从两个模型生成响应。我们将查询输入到提示框中，并同时从两个模型流式传输响应。查看这个 👇

7️⃣ 评估生成的推理最后，我们使用 GPT-4o 作为评判 LLM。它评估两个推理响应，生成上述提到的指标，并提供每个指标的详细信息。查看这个 👇

是时候测试了.. (1/2) 查询 1：构建一个 MCP 服务器，监视 GitHub 仓库的新问题，并将其发送到 Telegram 群组。以下是详细结果：

是时候测试了.. (2/2) 查询 2：构建一个 MCP 服务器，当有人将文件放入特定的 Google Drive 文件夹时，创建一个新的 Notion 页面。以下是详细结果：

这两种模型都非常强大：Qwen 3 提供详细而丰富的推理，而 GPT-oss 则简洁而准确。欢迎您在更具挑战性的查询上进行测试。以下是所有代码：

如果你觉得这很有启发性，请与您的网络分享。找到我 → @akshay_pachaar✔️ 获取更多关于LLMs、AI代理和机器学习的见解和教程！

测试时间.. (1/2) 查询 1：一只蜗牛爬上一面 10 英尺高的墙。它每天爬 3 英尺，但每晚滑回 2 英尺。它将在第几天到达顶部？以下是详细结果：

该测试时间到了.. (2/2) 查询 2：一辆失控的电车正朝着 5 个人驶去。你可以拉动一个杠杆将其转向一条侧轨，在那里它将杀死 1 个人。你应该怎么做，为什么？以下是详细结果：

这两种模型都非常强大：Qwen 3 提供详细而丰富的推理，而 GPT-oss 则简洁而准确。欢迎您在更具挑战性的查询上进行测试。以下是所有代码：

如果你觉得这很有启发性，请与您的网络分享。找到我 → @akshay_pachaar✔️ 获取更多关于LLMs、AI代理和机器学习的见解和教程！

300.65K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可