TL; DR: Kami membangun model fondasi pembayaran berbasis transformator. Itu berhasil. Selama bertahun-tahun, Stripe telah menggunakan model pembelajaran mesin yang dilatih pada fitur diskrit (BIN, zip, metode pembayaran, dll.) untuk meningkatkan produk kami bagi pengguna. Dan upaya fitur demi fitur ini telah bekerja dengan baik: +15% konversi, -30% penipuan. Tetapi model ini memiliki keterbatasan. Kita harus memilih (dan karenanya membatasi) fitur yang dipertimbangkan oleh model. Dan setiap model memerlukan pelatihan khusus tugas: untuk otorisasi, untuk penipuan, untuk perselisihan, dan sebagainya. Mengingat kekuatan belajar arsitektur transformator umum, kami bertanya-tanya apakah pendekatan gaya LLM dapat bekerja di sini. Tidak jelas bahwa itu akan terjadi—pembayaran seperti bahasa dalam beberapa hal (pola struktural yang mirip dengan sintaks dan semantik, berurutan secara temporal) dan sangat berbeda dengan bahasa lain (lebih sedikit 'token' yang berbeda, jarang kontekstual, lebih sedikit prinsip pengorganisasian yang mirip dengan aturan tata bahasa). Jadi kami membangun model fondasi pembayaran—jaringan yang diawasi sendiri yang mempelajari vektor tujuan umum yang padat untuk setiap transaksi, seperti model bahasa yang menyematkan kata. Dilatih pada puluhan miliar transaksi, ia menyaring sinyal utama setiap muatan ke dalam satu penyematan serbaguna. Anda dapat menganggap hasilnya sebagai distribusi pembayaran yang luas dalam ruang vektor dimensi tinggi. Lokasi setiap penyematan menangkap data yang kaya, termasuk bagaimana elemen yang berbeda berhubungan satu sama lain. Pembayaran yang memiliki kesamaan secara alami berkumpul bersama: transaksi dari penerbit kartu yang sama diposisikan lebih dekat, transaksi dari bank yang sama bahkan lebih dekat, dan yang berbagi alamat email yang sama hampir identik. Penyematan yang kaya ini membuatnya jauh lebih mudah untuk menemukan pola transaksi yang bernuansa dan bermusuhan; dan untuk membangun pengklasifikasi yang lebih akurat berdasarkan fitur pembayaran individu dan hubungannya dengan pembayaran lain dalam urutan. Ikuti pengujian kartu. Selama beberapa tahun terakhir, pendekatan ML tradisional (merekayasa fitur baru, memberi label pada pola serangan yang muncul, melatih ulang model kami dengan cepat) telah mengurangi pengujian kartu untuk pengguna di Stripe sebesar 80%. Tetapi penguji kartu yang paling canggih menyembunyikan pola serangan baru dalam volume perusahaan terbesar, sehingga sulit dikenali dengan metode ini. Kami membuat pengklasifikasi yang menyerap urutan penyematan dari model foundation, dan memprediksi apakah irisan lalu lintas berada di bawah serangan. Ini memanfaatkan arsitektur transformator untuk mendeteksi pola halus di seluruh urutan transaksi. Dan itu melakukan ini semua secara real time sehingga kami dapat memblokir serangan sebelum menyerang bisnis. Pendekatan ini meningkatkan tingkat deteksi kami untuk serangan pengujian kartu pada pengguna besar dari 59% menjadi 97% dalam semalam. Ini memiliki dampak instan bagi pengguna besar kami. Tetapi kekuatan sebenarnya dari model fondasi adalah bahwa penyematan yang sama ini dapat diterapkan di tugas lain, seperti sengketa atau otorisasi. Mungkin bahkan yang lebih mendasar, ini menunjukkan bahwa pembayaran memiliki makna semantik. Sama seperti kata-kata dalam sebuah kalimat, transaksi memiliki dependensi berurutan yang kompleks dan interaksi fitur laten yang tidak dapat ditangkap oleh rekayasa fitur manual. Ternyata perhatian adalah semua pembayaran yang dibutuhkan!
1,22M