Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Вот рабочий процесс:
- Пользователь отправляет запрос
- Оба модели генерируют токены рассуждения вместе с окончательным ответом
- Запрос, ответ и логика рассуждения отправляются на оценку
- Подробная оценка проводится с использованием G-Eval от Opik по четырем метрикам.
Давайте реализуем это!
1️⃣ Загрузите API-ключи
В этом демонстрационном примере мы будем использовать OpenRouter для доступа к моделям gpt-oss и Qwen3.
Ключ OpenAI необходим для судейского LLM в G-Eval.
Сохраните API-ключи OpenRouter и OpenAI в файле .env, чтобы загрузить их в окружение.
Проверьте это 👇

2️⃣ Метрика логического рассуждения
Теперь мы создадим оценочные метрики для нашей задачи, используя G-Eval от Opik.
Эта метрика оценивает согласованность и обоснованность логических шагов и выводов.
Посмотрите на это 👇

3️⃣ Метрика фактической точности
Эта метрика оценивает точность фактических утверждений и информации.
Посмотрите это 👇

4️⃣ Метрика согласованности
Эта метрика оценивает ясность и организацию ответа.
Посмотрите на это 👇

5️⃣ Метрика глубины анализа
Эта метрика оценивает глубину и проницательность рассуждений.
Посмотрите на это 👇

6️⃣ Сгенерировать ответ модели
Теперь мы готовы генерировать ответы от обеих моделей.
Мы вводим запрос в поле подсказки и одновременно получаем ответы от обеих моделей.
Проверьте это 👇

7️⃣ Оцените сгенерированные рассуждения
В конце концов, мы используем GPT-4o в качестве судьи LLM.
Он оценивает оба ответа рассуждений, генерирует упомянутые выше метрики и предоставляет детали для каждой метрики.
Посмотрите на это 👇

Время тестировать.. (1/2)
Запрос 1: Создайте сервер MCP, который отслеживает репозиторий GitHub на предмет новых проблем и отправляет их в группу Telegram.
Вот подробные результаты:

Время тестировать.. (2/2)
Запрос 2: Создайте сервер MCP, который создает новую страницу в Notion, когда кто-то помещает файл в определенную папку Google Drive.
Вот подробные результаты:

Оба модели обладают высокой способностью: Qwen 3 предлагает подробные и детализированные рассуждения, в то время как GPT-oss четкий и точный.
Не стесняйтесь проверять его на более сложных запросах.
Вот весь код:
Если вам это показалось полезным, поделитесь с вашей сетью.
Найдите меня → @akshay_pachaar✔️
Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!

6 авг., 21:29
Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:
Время протестировать.. (1/2)
Запрос 1: Улитка поднимается по 10-футовой стене. Каждый день она поднимается на 3 фута, но каждую ночь скользит назад на 2 фута. В какой день она достигнет вершины?
Вот подробные результаты:

Время протестировать.. (2/2)
Запрос 2: Бегущий трамвай движется к 5 людям. Вы можете потянуть за рычаг, чтобы отклонить его на боковой путь, где он убьет 1 человека вместо этого. Что вы должны сделать и почему?
Вот подробные результаты:

Оба модели обладают высокой способностью: Qwen 3 предлагает подробные и детализированные рассуждения, в то время как GPT-oss является четким и точным.
Не стесняйтесь проверять его на более сложных запросах.
Вот весь код:
Если вам это показалось полезным, поделитесь с вашей сетью.
Найдите меня → @akshay_pachaar✔️
Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!

6 авг., 21:29
Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:
300,66K
Топ
Рейтинг
Избранное