Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Ed Sealing

<Rant> Tôi đã dành 25 năm trong ngành quốc phòng (với hơn 8 năm trong quân phục, hơn 2 năm ở các vùng chiến sự). Tôi không yêu thích ĐCSTQ, nhưng dù tôi nhìn nhận chính phủ Trung Quốc như thế nào, các công ty nghiên cứu AI của họ đang làm rất nhiều điều tốt và xứng đáng được ghi nhận. Đối với bất kỳ ai nghĩ rằng Deepseek là một "kẻ xấu", hãy nhớ rằng nếu họ giữ những loại đổi mới này trong bí mật, có khả năng họ sẽ vượt qua các công ty của Mỹ và chúng ta sẽ thua trong cuộc đua AI. Các công ty như @deepseek_ai và @Alibaba_Qwen đang tích cực giúp thúc đẩy AI SOTA ở Mỹ và trên toàn thế giới, và không yêu cầu gì đổi lại. Và họ làm như vậy không phải vì áp lực quá lớn <cough>gpt-oss<cough>, mà vì họ muốn chia sẻ nghiên cứu và mô hình của mình với những người chạy chúng trên dữ liệu riêng của họ, mà không lo lắng về việc bị thu thập bởi bên thứ ba, sử dụng cho quảng cáo, hoặc chia sẻ. Trong khi các công ty như Anthropic tích cực cố gắng thúc đẩy nhiều quy định hơn, và OpenAI giữ bí mật các đổi mới, thử nghiệm và hệ thống của họ, thì các phòng thí nghiệm Trung Quốc này đang thúc đẩy ngành công nghiệp tiến lên trong khi bị truyền thông phương Tây và NIST(?) chỉ trích. Chúc mừng bạn. Hãy tiếp tục mang lại điều đó.

Tôi khá thích bài báo mới về DeepSeek-OCR. Đây là một mô hình OCR tốt (có thể kém hơn một chút so với dots), và đúng là việc thu thập dữ liệu v.v., nhưng dù sao thì điều đó không quan trọng. Phần thú vị hơn đối với tôi (đặc biệt là một người yêu thích thị giác máy tính nhưng tạm thời giả vờ là một người ngôn ngữ tự nhiên) là liệu pixel có phải là đầu vào tốt hơn cho LLM so với văn bản hay không. Liệu các token văn bản có lãng phí và thật tệ ở đầu vào hay không. Có thể hợp lý hơn nếu tất cả các đầu vào cho LLM chỉ nên là hình ảnh. Ngay cả khi bạn có đầu vào văn bản thuần túy, có thể bạn sẽ thích việc render nó và sau đó đưa vào: - nén thông tin nhiều hơn (xem bài báo) => cửa sổ ngữ cảnh ngắn hơn, hiệu quả hơn - dòng thông tin tổng quát hơn đáng kể => không chỉ văn bản, mà ví dụ như văn bản in đậm, văn bản màu, hình ảnh tùy ý. - đầu vào giờ đây có thể được xử lý dễ dàng với sự chú ý hai chiều và như mặc định, không phải là sự chú ý tự hồi quy - mạnh mẽ hơn rất nhiều. - xóa bỏ bộ phân tách (ở đầu vào)!! Tôi đã từng phàn nàn về việc tôi không thích bộ phân tách. Các bộ phân tách thật xấu xí, tách biệt, không phải là giai đoạn end-to-end. Nó "nhập khẩu" tất cả sự xấu xí của Unicode, mã byte, nó thừa hưởng rất nhiều gánh nặng lịch sử, rủi ro bảo mật/thoát hiểm (ví dụ: byte tiếp tục). Nó làm cho hai ký tự trông giống hệt nhau với mắt lại trông như hai token hoàn toàn khác nhau bên trong mạng. Một emoji cười trông như một token kỳ lạ, không phải là... một khuôn mặt cười thực sự, pixel và tất cả, và tất cả việc học chuyển giao mà nó mang theo. Bộ phân tách phải biến mất. OCR chỉ là một trong nhiều nhiệm vụ hữu ích từ thị giác -> văn bản. Và các nhiệm vụ văn bản -> văn bản có thể được biến thành các nhiệm vụ thị giác -> văn bản. Không phải ngược lại. Vậy nên nhiều thông điệp người dùng là hình ảnh, nhưng bộ giải mã (phản hồi của Trợ lý) vẫn là văn bản. Thật khó để xuất ra pixel một cách thực tế... hoặc nếu bạn muốn làm vậy. Bây giờ tôi cũng phải chiến đấu với sự thôi thúc để phát triển một phiên bản chỉ đầu vào hình ảnh của nanochat...

Hàng đầu

Thứ hạng

Yêu thích