Давайте порівняємо OpenAI gpt-oss та Qwen-3 з математики та міркувань:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Ось робочий процес: - Користувач надсилає запит - Обидві моделі генерують токени міркувань разом із фінальною відповіддю - Логіка запиту, відповіді та міркування надсилаються на оцінку - Детальна оцінка проводиться за допомогою G-Eval від Opik за чотирма показниками. Давайте це реалізуємо!
1️⃣ Завантаження ключів API У цій демонстрації ми будемо використовувати OpenRouter для доступу до моделей gpt-oss і Qwen3. Ключ OpenAI потрібен для судді LLM у G-Eval. Зберігайте ключі OpenRouter і OpenAI API у файлі .env для завантаження в середовище. Перевірте це 👇
2️⃣ Метрика логічного міркування Тепер ми створимо метрики оцінки для нашого завдання за допомогою G-Eval від Opik. Ця метрика оцінює зв'язність і обґрунтованість логічних кроків і висновків. Перевірте 👇 це
3️⃣ Метрика фактичної точності Цей показник оцінює точність фактичних тверджень та інформації. Перевірте 👇 це
4️⃣ Метрика когерентності Цей показник оцінює чіткість і організованість відповіді. Перевірте 👇 це
5️⃣ Метрика глибини аналізу Цей показник оцінює глибину та проникливість міркувань. Перевірте 👇 це
6️⃣ Генерація відповіді моделі Тепер ми готові генерувати відповіді з обох моделей. Вводимо запит у поле підказки та транслюємо відповіді з обох моделей одночасно. Перевірте це 👇
7️⃣ Оцінюйте згенеровані міркування Нарешті, ми використовуємо GPT-4o як суддю LLM. Він оцінює обидві відповіді на міркування, генерує показники, згадані вище, і надає детальну інформацію про кожен показник. Перевірте 👇 це
Час перевірити.. (1/2) Запит 1: Створіть сервер MCP, який спостерігає за репозиторієм GitHub на наявність нових проблем і надсилає їх до групи Telegram. Ось детальні результати:
Час перевірити.. (2/2) Запит 2: Створіть сервер MCP, який створює нову сторінку Notion, коли хтось переносить файл у певну папку Google Drive. Ось детальні результати:
Обидві моделі мають великі можливості: Qwen 3 пропонує багатослівні та детальні міркування, тоді як GPT-oss чіткий і точний. Не соромтеся тестувати його на більш складних запитах. Ось весь код:
Якщо ви вважаєте її корисною, надішліть запит у свою мережу. Знайди мене → @akshay_pachaar✔️ Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!
Akshay 🚀
Akshay 🚀6 серп., 21:29
Давайте порівняємо OpenAI gpt-oss та Qwen-3 з математики та міркувань:
Час перевірити.. (1/2) Питання 1: Равлик лізе на стіну заввишки 10 футів. Щодня він піднімається на 3 фути, але щоночі відсувається на 2 фути назад. В який день він досягне вершини? Ось детальні результати:
Час перевірити.. (2/2) Запитання 2: Тролейбус, що втік, прямує до 5 осіб. Ви можете потягнути за важіль, щоб перенаправити його на бічну колію, де він вб'є 1 людину. Що робити і чому? Ось детальні результати:
Обидві моделі мають великі можливості: Qwen 3 пропонує багатослівні та детальні міркування, тоді як GPT-oss чіткий і точний. Не соромтеся тестувати його на більш складних запитах. Ось весь код:
Якщо ви вважаєте її корисною, надішліть запит у свою мережу. Знайди мене → @akshay_pachaar✔️ Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!
Akshay 🚀
Akshay 🚀6 серп., 21:29
Давайте порівняємо OpenAI gpt-oss та Qwen-3 з математики та міркувань:
300,64K