Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco ENG+GTM, інвестування в Tower Research Ventures | Ділюся своїми цікавинками та як вдумливо застосовувати штучний інтелект | @stanfordhai @bloombergbeta @launchdarkly
Результати DeepSeek-OCR на почерку лікаря...
Від розбірливості коледжу до хаосу практикуючого лікаря. 
Якщо ми масштабуємося до нескінченних контекстних вікон + інтелекту в реальному часі, нам можуть знадобитися менші, швидші, мультимодальні моделі з ефективним стисненням, а не масштабуванням LLM. 
Тому що, можливо, стиснення – це просто інтелект.
Прогноз: DeepSeekV4 буде VLM. Цей документ OCR є тизером.

5,94K
Чи вартий піксель тисячі слів? 
DeepSeek-OCR каже, що так.  
Я перевірив його на почерку лікаря, від розбірливості в коледжі до хаосу практикуючого лікаря.  
Якщо ми масштабуємося до нескінченних контекстних вікон + інтелекту в реальному часі, нам можуть знадобитися менші мультимодальні моделі з ефективним стисненням, а не просто масштабуванням LLM.  Тому що, можливо, стиснення – це просто інтелект...   
Прогноз: DeepSeekV4 буде VLM. Цей документ OCR є тизером.


Andrej Karpathy21 жовт., 06:13
Мені дуже подобається новий папір DeepSeek-OCR. Це хороша модель OCR (можливо, трохи гірша за точки), і так, збір даних тощо, але в будь-якому випадку це не має значення.
Найцікавіша частина для мене (особливо як для комп'ютерного зору в душі, який тимчасово маскується під людину з природною мовою) полягає в тому, чи є пікселі кращими вхідними даними для LLM, ніж текст. Чи то текстові токени марнотратні і просто жахливі, на вході.
Можливо, має сенс те, що всі вхідні дані для LLM повинні бути лише зображеннями. Навіть якщо у вас є чисте введення тексту, можливо, ви віддаєте перевагу його рендерингу, а потім вводити це:
- більше стиснення інформації (див. статтю) => коротші контекстні вікна, більша ефективність
- значно більше загального потоку інформації = > не просто текст, але, наприклад, жирний текст, кольоровий текст, довільні зображення. 
- Вхідні дані тепер можуть бути легко оброблені за допомогою двонаправленої уваги і, за замовчуванням, не авторегресивної уваги - набагато потужніше.
- видалити токенізатор (на вході)!! Я вже бурчав про те, як сильно мені не подобається токенізатор. Токенізатори – це негарна, окрема, а не наскрізна стадія. Він "імпортує" всю потворність Юнікоду, байтові кодування, він успадковує багато історичного багажу, ризику безпеки/джейлбрейка (наприклад, байти продовження). Це змушує двох символів, які виглядають ідентично оку, виглядати як два абсолютно різні токени всередині мережі. Усміхнений смайлик виглядає як дивний жетон, а не... Справжнє усміхнене обличчя, пікселі та все інше, а також усе навчання передачі, яке приносить із собою. Токенізатор повинен піти.
OCR – це лише одне з багатьох корисних завдань із зору > тексту. А текстові -> текстові завдання можна зробити візіонерськими ->текстовими завданнями. А не навпаки.
Дуже багато повідомлень Користувача є зображеннями, але декодер (відповідь Асистента) залишається текстом. Набагато менш очевидно, як реалістично виводити пікселі... або якщо ви цього хочете.
Тепер мені також доводиться боротися з бажанням знайти версію наночату лише з введенням зображень...
621
Гниль мозку руйнує інтелект LLM.  
Дослідники показують, що непотрібні веб-дані спричиняють постійне зниження когнітивних функцій у LLM. Точнісінько як люди, які думскроли.  
>Розпад у міркуваннях (ARC) 74.9->57.2, довгоконтекстна пам'ять (ЛІНІЙКА) 84.4->52.3. ЛМ, по суті, перескакують ланцюжок думок прямо в галюцинації.  
>При оцінці за особистісними рисами моделі демонструють підвищений нарцисизм і маркери психопатії.  
У міру того, як недбалість живить наступне покоління моделей штучного інтелекту, а алгоритми виштовхують їх на вершину, якість даних ще більше погіршується, створюючи нескінченний цикл.   
Як @ilyasut вже говорилося, на цьому передпідготовка закінчується.

691
Найкращі
Рейтинг
Вибране

