Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Давайте сравним OpenAI gpt-oss и Qwen-3 по математике и логике:

Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀

Вот рабочий процесс: - Пользователь отправляет запрос - Оба модели генерируют токены рассуждения вместе с окончательным ответом - Запрос, ответ и логика рассуждения отправляются на оценку - Подробная оценка проводится с использованием G-Eval от Opik по четырем метрикам. Давайте реализуем это!

1️⃣ Загрузите API-ключи В этом демонстрационном примере мы будем использовать OpenRouter для доступа к моделям gpt-oss и Qwen3. Ключ OpenAI необходим для судейского LLM в G-Eval. Сохраните API-ключи OpenRouter и OpenAI в файле .env, чтобы загрузить их в окружение. Проверьте это 👇

2️⃣ Метрика логического рассуждения Теперь мы создадим оценочные метрики для нашей задачи, используя G-Eval от Opik. Эта метрика оценивает согласованность и обоснованность логических шагов и выводов. Посмотрите на это 👇

3️⃣ Метрика фактической точности Эта метрика оценивает точность фактических утверждений и информации. Посмотрите это 👇

4️⃣ Метрика согласованности Эта метрика оценивает ясность и организацию ответа. Посмотрите на это 👇

5️⃣ Метрика глубины анализа Эта метрика оценивает глубину и проницательность рассуждений. Посмотрите на это 👇

6️⃣ Сгенерировать ответ модели Теперь мы готовы генерировать ответы от обеих моделей. Мы вводим запрос в поле подсказки и одновременно получаем ответы от обеих моделей. Проверьте это 👇

7️⃣ Оцените сгенерированные рассуждения В конце концов, мы используем GPT-4o в качестве судьи LLM. Он оценивает оба ответа рассуждений, генерирует упомянутые выше метрики и предоставляет детали для каждой метрики. Посмотрите на это 👇

Время тестировать.. (1/2) Запрос 1: Создайте сервер MCP, который отслеживает репозиторий GitHub на предмет новых проблем и отправляет их в группу Telegram. Вот подробные результаты:

Время тестировать.. (2/2) Запрос 2: Создайте сервер MCP, который создает новую страницу в Notion, когда кто-то помещает файл в определенную папку Google Drive. Вот подробные результаты:

Оба модели обладают высокой способностью: Qwen 3 предлагает подробные и детализированные рассуждения, в то время как GPT-oss четкий и точный. Не стесняйтесь проверять его на более сложных запросах. Вот весь код:

Если вам это показалось полезным, поделитесь с вашей сетью. Найдите меня → @akshay_pachaar✔️ Для получения дополнительных идей и учебных материалов по LLM, AI-агентам и машинному обучению!

Время протестировать.. (1/2) Запрос 1: Улитка поднимается по 10-футовой стене. Каждый день она поднимается на 3 фута, но каждую ночь скользит назад на 2 фута. В какой день она достигнет вершины? Вот подробные результаты:

Время протестировать.. (2/2) Запрос 2: Бегущий трамвай движется к 5 людям. Вы можете потянуть за рычаг, чтобы отклонить его на боковой путь, где он убьет 1 человека вместо этого. Что вы должны сделать и почему? Вот подробные результаты:

Оба модели обладают высокой способностью: Qwen 3 предлагает подробные и детализированные рассуждения, в то время как GPT-oss является четким и точным. Не стесняйтесь проверять его на более сложных запросах. Вот весь код:

300,66K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные