Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ed Sealing

<Rant> Я провів 25 років в оборонній промисловості (з них 8+ у формі, 2+ у зонах бойових дій). Я не люблю КПК, але незалежно від того, як я дивлюся на уряд Китаю, їхні компанії з дослідження штучного інтелекту роблять багато хорошого і заслуговують на похвалу. Для тих, хто думає, що Deepseek є свого роду «поганим актором», пам'ятайте, що якби вони тримали ці типи інновацій у таємниці, вони, швидше за все, випередили б американські компанії, і ми б програли гонку штучного інтелекту. Такі компанії, як @deepseek_ai і @Alibaba_Qwen, активно допомагають просувати штучний інтелект SOTA в США і в усьому світі, нічого не вимагаючи натомість. І роблять вони це не через непереборний тиск <cough>gpt-oss<cough>, а тому, що хочуть поділитися своїми дослідженнями та моделями з людьми, які керують ними на їхніх особистих даних, не турбуючись про те, що вони будуть зібрані третіми сторонами, використані для реклами або поширені. У той час як такі компанії, як Anthropic, активно намагаються просувати більше регулювань, а OpenAI тримає в таємниці свої інновації, тести та системи, ці китайські лабораторії штовхають індустрію вперед, зазнаючи критики з боку західних ЗМІ та NIST(?). Слава вам. Продовжуйте приносити його.

Мені дуже подобається новий папір DeepSeek-OCR. Це хороша модель OCR (можливо, трохи гірша за точки), і так, збір даних тощо, але в будь-якому випадку це не має значення. Найцікавіша частина для мене (особливо як для комп'ютерного зору в душі, який тимчасово маскується під людину з природною мовою) полягає в тому, чи є пікселі кращими вхідними даними для LLM, ніж текст. Чи то текстові токени марнотратні і просто жахливі, на вході. Можливо, має сенс те, що всі вхідні дані для LLM повинні бути лише зображеннями. Навіть якщо у вас є чисте введення тексту, можливо, ви віддаєте перевагу його рендерингу, а потім вводити це: - більше стиснення інформації (див. статтю) => коротші контекстні вікна, більша ефективність - значно більше загального потоку інформації = > не просто текст, але, наприклад, жирний текст, кольоровий текст, довільні зображення. - Вхідні дані тепер можуть бути легко оброблені за допомогою двонаправленої уваги і, за замовчуванням, не авторегресивної уваги - набагато потужніше. - видалити токенізатор (на вході)!! Я вже бурчав про те, як сильно мені не подобається токенізатор. Токенізатори – це негарна, окрема, а не наскрізна стадія. Він "імпортує" всю потворність Юнікоду, байтові кодування, він успадковує багато історичного багажу, ризику безпеки/джейлбрейка (наприклад, байти продовження). Це змушує двох символів, які виглядають ідентично оку, виглядати як два абсолютно різні токени всередині мережі. Усміхнений смайлик виглядає як дивний жетон, а не... Справжнє усміхнене обличчя, пікселі та все інше, а також усе навчання передачі, яке приносить із собою. Токенізатор повинен піти. OCR – це лише одне з багатьох корисних завдань із зору > тексту. А текстові -> текстові завдання можна зробити візіонерськими ->текстовими завданнями. А не навпаки. Дуже багато повідомлень Користувача є зображеннями, але декодер (відповідь Асистента) залишається текстом. Набагато менш очевидно, як реалістично виводити пікселі... або якщо ви цього хочете. Тепер мені також доводиться боротися з бажанням знайти версію наночату лише з введенням зображень...

Найкращі

Рейтинг

Вибране