Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco Eng+GTM, Đầu tư tại Tower Research Ventures | chia sẻ sự tò mò của tôi và cách áp dụng AI một cách chu đáo | @stanfordhai @bloombergbeta @launchdarkly
Kết quả DeepSeek-OCR về chữ viết tay của bác sĩ...
Từ độ dễ đọc ở trường đại học đến sự hỗn loạn của bác sĩ thực hành.
Nếu chúng ta đang hướng tới các cửa sổ ngữ cảnh vô hạn + trí tuệ thời gian thực, có thể chúng ta cần các mô hình nhỏ hơn, nhanh hơn, đa phương thức với khả năng nén hiệu quả, chứ không phải mở rộng các LLM.
Bởi vì có thể nén chính là trí tuệ.
Dự đoán: DeepSeekV4 sẽ là một VLM. Bài báo OCR này là một đoạn teaser.

5,95K
Một pixel có đáng giá một ngàn từ không?
DeepSeek-OCR nói có.
Tôi đã thử nghiệm nó trên chữ viết tay của bác sĩ, từ độ dễ đọc ở trường đại học đến sự hỗn loạn của bác sĩ thực hành.
Nếu chúng ta đang hướng tới các cửa sổ ngữ cảnh vô hạn + trí tuệ thời gian thực, có thể chúng ta cần các mô hình đa phương thức nhỏ hơn với khả năng nén hiệu quả, chứ không chỉ đơn giản là mở rộng các LLM. Bởi vì có thể nén chỉ đơn giản là trí tuệ...
Dự đoán: DeepSeekV4 sẽ là một VLM. Bài báo OCR này là một đoạn giới thiệu.


Andrej Karpathy21 thg 10, 2025
Tôi khá thích bài báo mới về DeepSeek-OCR. Đây là một mô hình OCR tốt (có thể kém hơn một chút so với dots), và đúng là việc thu thập dữ liệu v.v., nhưng dù sao thì điều đó không quan trọng.
Phần thú vị hơn đối với tôi (đặc biệt là một người yêu thích thị giác máy tính nhưng tạm thời giả vờ là một người ngôn ngữ tự nhiên) là liệu pixel có phải là đầu vào tốt hơn cho LLM so với văn bản hay không. Liệu các token văn bản có lãng phí và thật tệ ở đầu vào hay không.
Có thể hợp lý hơn nếu tất cả các đầu vào cho LLM chỉ nên là hình ảnh. Ngay cả khi bạn có đầu vào văn bản thuần túy, có thể bạn sẽ thích việc render nó và sau đó đưa vào:
- nén thông tin nhiều hơn (xem bài báo) => cửa sổ ngữ cảnh ngắn hơn, hiệu quả hơn
- dòng thông tin tổng quát hơn đáng kể => không chỉ văn bản, mà ví dụ như văn bản in đậm, văn bản màu, hình ảnh tùy ý.
- đầu vào giờ đây có thể được xử lý dễ dàng với sự chú ý hai chiều và như mặc định, không phải là sự chú ý tự hồi quy - mạnh mẽ hơn rất nhiều.
- xóa bỏ bộ phân tách (ở đầu vào)!! Tôi đã từng phàn nàn về việc tôi không thích bộ phân tách. Các bộ phân tách thật xấu xí, tách biệt, không phải là giai đoạn end-to-end. Nó "nhập khẩu" tất cả sự xấu xí của Unicode, mã byte, nó thừa hưởng rất nhiều gánh nặng lịch sử, rủi ro bảo mật/thoát hiểm (ví dụ: byte tiếp tục). Nó làm cho hai ký tự trông giống hệt nhau với mắt lại trông như hai token hoàn toàn khác nhau bên trong mạng. Một emoji cười trông như một token kỳ lạ, không phải là... một khuôn mặt cười thực sự, pixel và tất cả, và tất cả việc học chuyển giao mà nó mang theo. Bộ phân tách phải biến mất.
OCR chỉ là một trong nhiều nhiệm vụ hữu ích từ thị giác -> văn bản. Và các nhiệm vụ văn bản -> văn bản có thể được biến thành các nhiệm vụ thị giác -> văn bản. Không phải ngược lại.
Vậy nên nhiều thông điệp người dùng là hình ảnh, nhưng bộ giải mã (phản hồi của Trợ lý) vẫn là văn bản. Thật khó để xuất ra pixel một cách thực tế... hoặc nếu bạn muốn làm vậy.
Bây giờ tôi cũng phải chiến đấu với sự thôi thúc để phát triển một phiên bản chỉ đầu vào hình ảnh của nanochat...
640
Sự suy giảm trí tuệ của LLM do não bộ bị tổn thương.
Các nhà nghiên cứu cho thấy rằng dữ liệu web rác gây ra sự suy giảm nhận thức vĩnh viễn ở các LLM. Chính xác như con người khi lướt web không ngừng.
>Sự suy giảm trong lý luận (ARC) 74.9->57.2, trí nhớ ngữ cảnh dài (RULER) 84.4->52.3. Các LLM về cơ bản bỏ qua chuỗi suy nghĩ và ngay lập tức rơi vào ảo giác.
>Khi được đánh giá về các đặc điểm tính cách, các mô hình cho thấy sự gia tăng các dấu hiệu của chủ nghĩa tự mãn và tâm thần xã hội.
Khi thức ăn rác nuôi dưỡng thế hệ AI tiếp theo và các thuật toán đẩy chúng lên hàng đầu, chất lượng dữ liệu càng suy giảm—tạo ra một vòng lặp vô tận.
Như @ilyasut đã nói, thời điểm kết thúc giai đoạn tiền huấn luyện đã đến.

704
Hàng đầu
Thứ hạng
Yêu thích

