Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Я провів 25 років в оборонній промисловості (з них 8+ у формі, 2+ у зонах бойових дій).
Я не люблю КПК, але незалежно від того, як я дивлюся на уряд Китаю, їхні компанії з дослідження штучного інтелекту роблять багато хорошого і заслуговують на похвалу.
Для тих, хто думає, що Deepseek є свого роду «поганим актором», пам'ятайте, що якби вони тримали ці типи інновацій у таємниці, вони, швидше за все, випередили б американські компанії, і ми б програли гонку штучного інтелекту. Такі компанії, як @deepseek_ai і @Alibaba_Qwen, активно допомагають просувати штучний інтелект SOTA в США і в усьому світі, нічого не вимагаючи натомість.
І роблять вони це не через непереборний тиск <cough>gpt-oss<cough>, а тому, що хочуть поділитися своїми дослідженнями та моделями з людьми, які керують ними на їхніх особистих даних, не турбуючись про те, що вони будуть зібрані третіми сторонами, використані для реклами або поширені.
У той час як такі компанії, як Anthropic, активно намагаються просувати більше регулювань, а OpenAI тримає в таємниці свої інновації, тести та системи, ці китайські лабораторії штовхають індустрію вперед, зазнаючи критики з боку західних ЗМІ та NIST(?).
Слава вам. Продовжуйте приносити його.

Andrej Karpathy21 жовт., 06:13
Мені дуже подобається новий папір DeepSeek-OCR. Це хороша модель OCR (можливо, трохи гірша за точки), і так, збір даних тощо, але в будь-якому випадку це не має значення.
Найцікавіша частина для мене (особливо як для комп'ютерного зору в душі, який тимчасово маскується під людину з природною мовою) полягає в тому, чи є пікселі кращими вхідними даними для LLM, ніж текст. Чи то текстові токени марнотратні і просто жахливі, на вході.
Можливо, має сенс те, що всі вхідні дані для LLM повинні бути лише зображеннями. Навіть якщо у вас є чисте введення тексту, можливо, ви віддаєте перевагу його рендерингу, а потім вводити це:
- більше стиснення інформації (див. статтю) => коротші контекстні вікна, більша ефективність
- значно більше загального потоку інформації = > не просто текст, але, наприклад, жирний текст, кольоровий текст, довільні зображення.
- Вхідні дані тепер можуть бути легко оброблені за допомогою двонаправленої уваги і, за замовчуванням, не авторегресивної уваги - набагато потужніше.
- видалити токенізатор (на вході)!! Я вже бурчав про те, як сильно мені не подобається токенізатор. Токенізатори – це негарна, окрема, а не наскрізна стадія. Він "імпортує" всю потворність Юнікоду, байтові кодування, він успадковує багато історичного багажу, ризику безпеки/джейлбрейка (наприклад, байти продовження). Це змушує двох символів, які виглядають ідентично оку, виглядати як два абсолютно різні токени всередині мережі. Усміхнений смайлик виглядає як дивний жетон, а не... Справжнє усміхнене обличчя, пікселі та все інше, а також усе навчання передачі, яке приносить із собою. Токенізатор повинен піти.
OCR – це лише одне з багатьох корисних завдань із зору > тексту. А текстові -> текстові завдання можна зробити візіонерськими ->текстовими завданнями. А не навпаки.
Дуже багато повідомлень Користувача є зображеннями, але декодер (відповідь Асистента) залишається текстом. Набагато менш очевидно, як реалістично виводити пікселі... або якщо ви цього хочете.
Тепер мені також доводиться боротися з бажанням знайти версію наночату лише з введенням зображень...
392,34K
Найкращі
Рейтинг
Вибране