Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Давайте порівняємо OpenAI gpt-oss та Qwen-3 з математики та міркувань:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Ось робочий процес:
- Користувач надсилає запит
- Обидві моделі генерують токени міркувань разом із фінальною відповіддю
- Логіка запиту, відповіді та міркування надсилаються на оцінку
- Детальна оцінка проводиться за допомогою G-Eval від Opik за чотирма показниками.
Давайте це реалізуємо!
1️⃣ Завантаження ключів API
У цій демонстрації ми будемо використовувати OpenRouter для доступу до моделей gpt-oss і Qwen3.
Ключ OpenAI потрібен для судді LLM у G-Eval.
Зберігайте ключі OpenRouter і OpenAI API у файлі .env для завантаження в середовище.
Перевірте це 👇

2️⃣ Метрика логічного міркування
Тепер ми створимо метрики оцінки для нашого завдання за допомогою G-Eval від Opik.
Ця метрика оцінює зв'язність і обґрунтованість логічних кроків і висновків.
Перевірте 👇 це

3️⃣ Метрика фактичної точності
Цей показник оцінює точність фактичних тверджень та інформації.
Перевірте 👇 це

4️⃣ Метрика когерентності
Цей показник оцінює чіткість і організованість відповіді.
Перевірте 👇 це

5️⃣ Метрика глибини аналізу
Цей показник оцінює глибину та проникливість міркувань.
Перевірте 👇 це

6️⃣ Генерація відповіді моделі
Тепер ми готові генерувати відповіді з обох моделей.
Вводимо запит у поле підказки та транслюємо відповіді з обох моделей одночасно.
Перевірте це 👇

7️⃣ Оцінюйте згенеровані міркування
Нарешті, ми використовуємо GPT-4o як суддю LLM.
Він оцінює обидві відповіді на міркування, генерує показники, згадані вище, і надає детальну інформацію про кожен показник.
Перевірте 👇 це

Час перевірити.. (1/2)
Запит 1: Створіть сервер MCP, який спостерігає за репозиторієм GitHub на наявність нових проблем і надсилає їх до групи Telegram.
Ось детальні результати:

Час перевірити.. (2/2)
Запит 2: Створіть сервер MCP, який створює нову сторінку Notion, коли хтось переносить файл у певну папку Google Drive.
Ось детальні результати:

Обидві моделі мають великі можливості: Qwen 3 пропонує багатослівні та детальні міркування, тоді як GPT-oss чіткий і точний.
Не соромтеся тестувати його на більш складних запитах.
Ось весь код:
Якщо ви вважаєте її корисною, надішліть запит у свою мережу.
Знайди мене → @akshay_pachaar✔️
Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

6 серп., 21:29
Давайте порівняємо OpenAI gpt-oss та Qwen-3 з математики та міркувань:
Час перевірити.. (1/2)
Питання 1: Равлик лізе на стіну заввишки 10 футів. Щодня він піднімається на 3 фути, але щоночі відсувається на 2 фути назад. В який день він досягне вершини?
Ось детальні результати:

Час перевірити.. (2/2)
Запитання 2: Тролейбус, що втік, прямує до 5 осіб. Ви можете потягнути за важіль, щоб перенаправити його на бічну колію, де він вб'є 1 людину. Що робити і чому?
Ось детальні результати:

Обидві моделі мають великі можливості: Qwen 3 пропонує багатослівні та детальні міркування, тоді як GPT-oss чіткий і точний.
Не соромтеся тестувати його на більш складних запитах.
Ось весь код:
Якщо ви вважаєте її корисною, надішліть запит у свою мережу.
Знайди мене → @akshay_pachaar✔️
Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

6 серп., 21:29
Давайте порівняємо OpenAI gpt-oss та Qwen-3 з математики та міркувань:
300,64K
Найкращі
Рейтинг
Вибране