Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Цікаво, наскільки добре працює SFT щодо навчання в контексті.
ICL відчуває чорну магію - модель дійсно збирає купу негласної інформації при ефективності людських зразків.
Якщо тонке налаштування може наблизитися до цього, можливо, ви зможете зібрати воєдино щось, що здається постійним навчанням на вершині?
Ось наївна ідея: Внутрішня петля, робіть SFT на підсумках сесій. Зовнішня петля, довгий горизонт RL, де він повинен використовувати навички та знання, які повинні пройти між сесіями. Зовнішній контур в основному розглядає SFT як виклик інструменту, стимулюючи модель передавати якомога більше важливої інформації.
Мені цікаво, чи вистачить чогось, що об'єднує існуючі методи, як ця, для постійного навчання, чи нам потрібна абсолютно нова парадигма.
Зробив кумедну оцінку Фермі з ChatGPT, щоб отримати трохи інтуїції в цьому питанні.
Питання, яке ви можете задати: наскільки SFT (через LoRA) стискає інформацію відносно контекстного навчання? І порівняйте це з попередніми тренуваннями просто для задоволення.
Якщо існує величезна невідповідність (тобто в набагато більше байтів, використаних для кеш-пам'яті KV, порівняно з вагою LoRA), то це може свідчити про те, що для LoRA було б дуже важко бути настільки багатим, ефективним за вибіркою та ICL.
Знову ж таки, це супер хвиляста післяобідня кроляча нора, а не серйозне розслідування. Те, що він використовує набагато менше пам'яті, не обов'язково означає, що він набагато дурніший тощо.
Цей графік призначений для Llama 3 70 b (яка була попередньо навчена на 15 трильйонів токенів).
Як тільки ми досягаємо однозначних тисяч токенів, LoRA (розмір якого не змінюється в залежності від того, скільки токенів ви налаштовуєте) починає стискатися набагато щільніше, ніж ICL.
Як тільки у вас є 100 тисяч токенів, токени, що проходять через LoRA 32 рангу, стискаються в 37 разів більше, ніж якби вони розглядалися в контексті (через кеш KV).
Примітка: байти на тренувальний токен для попереднього тренування неймовірно низькі! (0,009 в даному випадку).
Зробив ще один графік, цього разу встановивши постійну кількість токенів на рівні 100 тисяч і змінивши ранг LoRA.
Наївно, здається, що ранг має бути достатньо маленьким, щоб становити лише невелику частку від загальної ваги моделі (інакше, навіщо морочитися з LoRA?), але й достатньо великим, щоб містити значний обсяг інформації, що зберігається в кешах KV. Тож ви можете побачити, де може бути ця золота середина.
У всякому разі, ці графіки ні про що не переконують. І, будь ласка, вибачте за прикрі помилки або непорозуміння.
Прагнучи отримати реальний високий рівень, ми розуміємо, наскільки добре поєднання SFT і RL працюватиме з точки зору забезпечення безперервного навчання, яке ми бачимо з контекстним навчанням, працюючи між сесіями.


5,12K
Користувач Dwarkesh Patel поділився
Важко уявити масштаби фабричного фермерства.
Фабричні ферми сьогодні утримують більше тварин у всьому світі, ніж кількість людей, які коли-небудь жили на Землі.
Лише одна фабрична ферма в Айові утримує більше тварин, ніж усі притулки для тварин і зоопарки США разом узяті.

51,65K
«Хороший спосіб зрозуміти багато еволюції — і те, як ви здатні адаптуватися до нових середовищ або патогенів — це те, що дуплікація генів можлива.
Справжня проблема полягає в наступному: якщо одна або дві мутації порушують ген, і лише три мутації разом виправляють його знову, еволюції дуже важко знайти шлях.
За допомогою дублювання ви можете створити сценарій, в якому ці перші два редагування будуть цілком прийнятними. У вас є резервна копія».
@jacobkimmel

Dwarkesh Patel22 серп. 2025 р.
.@jacobkimmel думає, що зможе знайти фактори транскрипції, необхідні для того, щоб зупинити старіння.
0:00:00 – Три причини, чому еволюція не оптимізувалася для довголіття
0:12:48 – Чому люди не винайшли власні антибіотики?
0:26:08 – Деaging клітин за допомогою епігенетичного перепрограмування
0:45:24 – Вірусні вектори та інші механізми доставки
1:07:03 – Синтетичні фактори транскрипції
1:10:13 – Чи можуть віртуальні клітини порушити закон Ерума?
1:32:13 – Економічні моделі для фарми
Доступно на Apple Podcasts, Spotify, YouTube тощо. Насолоджуйтесь!
25,19K
Найкращі
Рейтинг
Вибране