Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Вот рабочий процесс: - Пользователь отправляет запрос - Оба модели генерируют токены рассуждения вместе с окончательным ответом - Запрос, ответ и логика рассуждения отправляются на оценку - Подробная оценка проводится с использованием G-Eval от Opik по четырем метрикам. Давайте реализуем это!
1️⃣ Загрузите API-ключи В этом демонстрационном примере мы будем использовать OpenRouter для доступа к моделям gpt-oss и Qwen3. Ключ OpenAI необходим для судейского LLM в G-Eval. Сохраните API-ключи OpenRouter и OpenAI в файле .env, чтобы загрузить их в окружение. Проверьте это 👇
2️⃣ Метрика логического рассуждения Теперь мы создадим оценочные метрики для нашей задачи, используя G-Eval от Opik. Эта метрика оценивает согласованность и обоснованность логических шагов и выводов. Посмотрите на это 👇
3️⃣ Метрика фактической точности Эта метрика оценивает точность фактических утверждений и информации. Посмотрите это 👇
4️⃣ Метрика согласованности Эта метрика оценивает ясность и организацию ответа. Посмотрите на это 👇
5️⃣ Метрика глубины анализа Эта метрика оценивает глубину и проницательность рассуждений. Посмотрите на это 👇
6️⃣ Сгенерировать ответ модели Теперь мы готовы генерировать ответы от обеих моделей. Мы вводим запрос в поле подсказки и одновременно получаем ответы от обеих моделей. Проверьте это 👇
7️⃣ Оцените сгенерированные рассуждения В конце концов, мы используем GPT-4o в качестве судьи LLM. Он оценивает оба ответа рассуждений, генерирует упомянутые выше метрики и предоставляет детали для каждой метрики. Посмотрите на это 👇
Время тестировать.. (1/2) Запрос 1: Создайте сервер MCP, который отслеживает репозиторий GitHub на предмет новых проблем и отправляет их в группу Telegram. Вот подробные результаты:
Время тестировать.. (2/2) Запрос 2: Создайте сервер MCP, который создает новую страницу в Notion, когда кто-то помещает файл в определенную папку Google Drive. Вот подробные результаты:
Оба модели обладают высокой способностью: Qwen 3 предлагает подробные и детализированные рассуждения, в то время как GPT-oss четкий и точный. Не стесняйтесь проверять его на более сложных запросах. Вот весь код:
Если вам это показалось полезным, поделитесь с вашей сетью. Найдите меня → @akshay_pachaar✔️ Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!
Akshay 🚀
Akshay 🚀6 авг., 21:29
Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:
Время протестировать.. (1/2) Запрос 1: Улитка поднимается по 10-футовой стене. Каждый день она поднимается на 3 фута, но каждую ночь скользит назад на 2 фута. В какой день она достигнет вершины? Вот подробные результаты:
Время протестировать.. (2/2) Запрос 2: Бегущий трамвай движется к 5 людям. Вы можете потянуть за рычаг, чтобы отклонить его на боковой путь, где он убьет 1 человека вместо этого. Что вы должны сделать и почему? Вот подробные результаты:
Оба модели обладают высокой способностью: Qwen 3 предлагает подробные и детализированные рассуждения, в то время как GPT-oss является четким и точным. Не стесняйтесь проверять его на более сложных запросах. Вот весь код:
Если вам это показалось полезным, поделитесь с вашей сетью. Найдите меня → @akshay_pachaar✔️ Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!
Akshay 🚀
Akshay 🚀6 авг., 21:29
Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:
300,66K