Khi bạn truy vấn AI, nó sẽ thu thập thông tin liên quan để trả lời bạn. Nhưng, mô hình cần bao nhiêu thông tin? Các cuộc trò chuyện với các học viên cho thấy trực giác của họ: đầu vào lớn hơn ~ 20 lần so với đầu ra. Nhưng các thử nghiệm của tôi với giao diện dòng lệnh của công cụ Gemini, xuất ra số liệu thống kê mã thông báo chi tiết, cho thấy nó cao hơn nhiều. Trung bình 300 lần và lên đến 4000 lần. Đây là lý do tại sao tỷ lệ đầu vào trên đầu ra cao này quan trọng đối với bất kỳ ai xây dựng bằng AI: Quản lý chi phí là tất cả về đầu vào. Với các lệnh gọi API được định giá cho mỗi token, tỷ lệ 300:1 có nghĩa là chi phí được quyết định bởi ngữ cảnh chứ không phải câu trả lời. Động lực định giá này đúng trên tất cả các mô hình chính. Trên trang định giá của OpenAI, token đầu ra cho GPT-4.1 đắt gấp 4 lần so với token đầu vào. Nhưng khi đầu vào lớn hơn 300 lần, chi phí đầu vào vẫn bằng 98% tổng hóa đơn. Độ trễ là một Chức năng của Kích thước ngữ cảnh. Một yếu tố quan trọng quyết định thời gian người dùng chờ câu trả lời là thời gian mô hình xử lý đầu vào. Nó xác định lại thách thức kỹ thuật. Quan sát này chứng minh rằng thách thức cốt lõi của việc xây dựng với LLM không chỉ là thúc giục. Đó là kỹ thuật ngữ cảnh. Nhiệm vụ quan trọng là xây dựng truy xuất dữ liệu hiệu quả và ngữ cảnh - tạo ra các đường ống có thể tìm thấy thông tin tốt nhất và chắt lọc nó thành dấu chân token nhỏ nhất có thể. Bộ nhớ đệm trở nên quan trọng. Nếu 99% token nằm trong đầu vào, việc xây dựng một lớp bộ nhớ đệm mạnh mẽ cho các tài liệu được truy xuất thường xuyên hoặc ngữ cảnh truy vấn phổ biến chuyển từ yêu cầu kiến trúc "tốt để có" sang yêu cầu kiến trúc cốt lõi để xây dựng một sản phẩm hiệu quả về chi phí và có thể mở rộng. Đối với các nhà phát triển, điều này có nghĩa là tập trung vào tối ưu hóa đầu vào là một đòn bẩy quan trọng để kiểm soát chi phí, giảm độ trễ và cuối cùng là xây dựng một sản phẩm hỗ trợ AI thành công.
4,35K