Chamath: Hai thuật ngữ bạn cần chú ý trong AI là Prefill và Decode "Có hai thuật ngữ mà tôi nghĩ bạn sẽ nghe rất nhiều trong vài năm tới." "Thuật ngữ đầu tiên là prefill, và thuật ngữ tiếp theo là decode." "Prefill và decode là hai cách rất khác nhau về cách mà các mô hình suy nghĩ, và cách mà một mô hình trải qua quá trình trả lời một câu hỏi mà bạn đặt ra." "Và khi bạn gửi một prompt cho AI, điều xảy ra là mô hình xử lý nó. Điều này được gọi là giai đoạn đọc hoặc prefill." "Nó đọc toàn bộ prompt của bạn cùng một lúc. Và sau đó nó thực hiện một loạt các phép toán, tính toán tất cả các mối quan hệ giữa tất cả các từ, và nó lưu trữ chúng trong bộ nhớ tạm thời." "Vấn đề là điều này thực sự bị giới hạn bởi tính toán. Vì vậy, nó yêu cầu sức mạnh tính toán khổng lồ. Và GPU của Nvidia hoàn toàn vượt trội ở đây." "Và kiến trúc của họ được thiết kế cho việc xử lý song song lớn, điều này khiến chúng thực sự tuyệt vời trong việc xử lý những prompt dài này." "Vì vậy, vấn đề chỉ ngày càng lớn hơn, Nvidia hoàn toàn thống trị." "Nhưng giai đoạn tiếp theo, giai đoạn quan trọng này, giai đoạn decode, là giai đoạn viết, đúng không?" "Vì vậy, mô hình bắt đầu tạo ra một phản hồi, bạn hỏi nó một câu hỏi và phản hồi của nó, từng token một." "Và sau đó để chọn token tiếp theo, chọn từ tiếp theo, nó phải nhìn lại tất cả những gì nó đã nói trước đó để không bị ảo tưởng." "Vấn đề là điều này bị hạn chế bởi băng thông bộ nhớ một cách đáng kể." "Và trong kiến trúc của chúng tôi, từ rất lâu trước đây, chúng tôi đã đưa ra những quyết định thiết kế này ngay từ đầu." "Và vì vậy, những gì chúng tôi đã làm là chúng tôi đã chọn một cách tiếp cận kiến trúc rất khác, chúng tôi đã chọn một công nghệ quy trình rất bảo thủ. Chúng tôi không đẩy ranh giới của vật lý." ...