Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hôm nay chúng tôi chia sẻ công trình nghiên cứu đầu tiên của mình khám phá sự khuếch tán cho các mô hình ngôn ngữ: Mô hình Ngôn ngữ Hình ảnh Từ Khuếch tán Tự động
Chúng tôi phát triển một mô hình ngôn ngữ hình ảnh khuếch tán tiên tiến nhất, Mô hình Từ Khuếch tán Tự động (A2D), bằng cách điều chỉnh một mô hình ngôn ngữ hình ảnh tự động hiện có cho việc giải mã khuếch tán song song. Cách tiếp cận của chúng tôi giúp dễ dàng mở khóa sự cân bằng giữa tốc độ và chất lượng của các mô hình ngôn ngữ khuếch tán mà không cần đào tạo từ đầu, bằng cách tận dụng các mô hình tự động đã được đào tạo trước.

Các mô hình ngôn ngữ-vision tiêu chuẩn (VLMs) lý luận về hình ảnh và video thông qua ngôn ngữ, cung cấp sức mạnh cho nhiều ứng dụng khác nhau từ chú thích hình ảnh đến trả lời câu hỏi hình ảnh.
Các VLM tự hồi tiếp tạo ra các token theo thứ tự, điều này ngăn cản việc song song hóa và giới hạn thông lượng suy diễn. Các bộ giải khuếch tán đang nổi lên như một lựa chọn hứa hẹn thay thế cho các bộ giải tự hồi tiếp trong VLMs bằng cách cho phép tạo token song song để suy diễn nhanh hơn.
Chúng tôi đã huấn luyện một mô hình VLM khuếch tán tiên tiến, A2D-VL 7B cho việc tạo ra song song bằng cách tinh chỉnh một mô hình VLM tự hồi quy hiện có trên nhiệm vụ mô hình hóa ngôn ngữ khuếch tán, sử dụng khung khuếch tán có mặt nạ, trong đó "làm nhiễu" các token bằng cách che giấu chúng và "làm sạch nhiễu" các token bằng cách dự đoán các token gốc.
Chúng tôi phát triển các kỹ thuật thích ứng mới mà tăng dần độ khó của nhiệm vụ trong quá trình tinh chỉnh để chuyển tiếp một cách mượt mà từ giải mã tuần tự sang giải mã song song trong khi vẫn giữ nguyên khả năng của mô hình cơ sở, bằng cách giảm dần cả kích thước khối và mức độ nhiễu.
A2D-VL vượt trội hơn so với các VLM khuếch tán trước đó trong việc trả lời câu hỏi hình ảnh trong khi yêu cầu tính toán đào tạo ít hơn đáng kể. Các kỹ thuật thích ứng mới của chúng tôi rất quan trọng để duy trì khả năng của mô hình, cuối cùng cho phép chuyển đổi các VLM tự hồi tiếp tiên tiến sang khuếch tán với tác động tối thiểu đến chất lượng.

Công việc này là một bước tiến tới mục tiêu của chúng tôi trong việc thống nhất hiểu biết và tạo ra đa phương thức nhằm xây dựng các mô phỏng đa phương thức của thế giới.
Tìm hiểu thêm:
93,92K
Hàng đầu
Thứ hạng
Yêu thích