Tôi khá thích bài báo mới về DeepSeek-OCR. Đây là một mô hình OCR tốt (có thể kém hơn một chút so với dots), và đúng là việc thu thập dữ liệu v.v., nhưng dù sao thì điều đó không quan trọng. Phần thú vị hơn đối với tôi (đặc biệt là một người yêu thích thị giác máy tính nhưng tạm thời giả vờ là một người ngôn ngữ tự nhiên) là liệu pixel có phải là đầu vào tốt hơn cho LLM so với văn bản hay không. Liệu các token văn bản có lãng phí và thật tệ ở đầu vào hay không. Có thể hợp lý hơn nếu tất cả các đầu vào cho LLM chỉ nên là hình ảnh. Ngay cả khi bạn có đầu vào văn bản thuần túy, có thể bạn sẽ thích việc render nó và sau đó đưa vào: - nén thông tin nhiều hơn (xem bài báo) => cửa sổ ngữ cảnh ngắn hơn, hiệu quả hơn - dòng thông tin tổng quát hơn đáng kể => không chỉ văn bản, mà ví dụ như văn bản in đậm, văn bản màu, hình ảnh tùy ý. - đầu vào giờ đây có thể được xử lý dễ dàng với sự chú ý hai chiều và như mặc định, không phải là sự chú ý tự hồi quy - mạnh mẽ hơn rất nhiều. - xóa bỏ bộ phân tách (ở đầu vào)!! Tôi đã từng phàn nàn về việc tôi không thích bộ phân tách. Các bộ phân tách thật xấu xí, tách biệt, không phải là giai đoạn end-to-end. Nó "nhập khẩu" tất cả sự xấu xí của Unicode, mã byte, nó thừa hưởng rất nhiều gánh nặng lịch sử, rủi ro bảo mật/thoát hiểm (ví dụ: byte tiếp tục). Nó làm cho hai ký tự trông giống hệt nhau với mắt lại trông như hai token hoàn toàn khác nhau bên trong mạng. Một emoji cười trông như một token kỳ lạ, không phải là... một khuôn mặt cười thực sự, pixel và tất cả, và tất cả việc học chuyển giao mà nó mang theo. Bộ phân tách phải biến mất. OCR chỉ là một trong nhiều nhiệm vụ hữu ích từ thị giác -> văn bản. Và các nhiệm vụ văn bản -> văn bản có thể được biến thành các nhiệm vụ thị giác -> văn bản. Không phải ngược lại. Vậy nên nhiều thông điệp người dùng là hình ảnh, nhưng bộ giải mã (phản hồi của Trợ lý) vẫn là văn bản. Thật khó để xuất ra pixel một cách thực tế... hoặc nếu bạn muốn làm vậy. Bây giờ tôi cũng phải chiến đấu với sự thôi thúc để phát triển một phiên bản chỉ đầu vào hình ảnh của nanochat...