Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
jangan takut akan kebesaran
Julian Schrittwieser (Antropik):
- Diskusi gelembung AI di X "sangat bercerai" dari apa yang terjadi di laboratorium perbatasan. "Di laboratorium perbatasan, kami tidak melihat perlambatan kemajuan."
- AI akan memiliki "dampak ekonomi besar". Proyeksi pendapatan untuk OpenAI, Anthropic, dan Google sebenarnya "cukup konservatif".
- Mengekstrapolasi dari hal-hal seperti data METR, tahun depan, model akan dapat bekerja sendiri pada berbagai tugas. Durasi tugas itu penting, karena membuka kemampuan manusia untuk mengawasi tim model, yang masing-masing bekerja secara mandiri selama berjam-jam pada satu waktu (vs. harus berbicara dengan agen setiap 10 menit untuk memberikan umpan balik).
- "Sangat mungkin" bahwa pendekatan saat ini untuk melatih model AI (pra-pelatihan, RL) akan menghasilkan sistem yang dapat bekerja pada tingkat manusia pada dasarnya dalam semua tugas yang kita pedulikan dari segi produktivitas.
- On Move 37: "Saya pikir cukup jelas bahwa model-model ini dapat melakukan hal-hal baru." AlphaCode dan AlphaTensor "membuktikan bahwa Anda dapat menemukan program dan algoritme baru". AI sudah "benar-benar menemukan hal-hal baru", dan "kami baru saja menaikkan skala betapa mengesankan, betapa menariknya hal-hal yang dapat ditemukannya sendiri."
- "Sangat mungkin" bahwa tahun depan kita akan memiliki beberapa penemuan yang disepakati oleh orang-orang dengan suara bulat sangat mengesankan.
- AI akan dapat dengan sendirinya membuat terobosan yang layak untuk Hadiah Nobel pada tahun 2027 atau 2028.
- Tentang kemampuan AI untuk mempercepat pengembangan AI: Masalah yang sangat umum di banyak bidang ilmiah adalah bahwa menjadi semakin sulit untuk membuat kemajuan seiring kemajuan bidang (yaitu, 100 tahun yang lalu, satu ilmuwan dapat menemukan antibiotik pertama secara tidak sengaja, sedangkan sekarang dibutuhkan miliaran dolar untuk menemukan obat baru). Hal yang sama mungkin terjadi dengan penelitian AI - meskipun AI akan membuat penelitian AI baru lebih produktif, mungkin tidak ada ledakan karena kemajuan baru menjadi semakin sulit ditemukan.

Matt Turck24 Okt, 03.37
Gagal memahami eksponensial, lagi?
Percakapan saya dengan @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - tentang Move 37, Scaling RL, Hadiah Nobel untuk AI, dan perbatasan AI:
00:00 - Terbuka dingin: "Kami tidak melihat perlambatan."
00:32 - Intro — Temui Julian
01:09 - "Eksponensial" dari dalam laboratorium perbatasan
04:46 - 2026–2027: agen yang bekerja sehari penuh; Luasnya tingkat ahli
08:58 - Tolok ukur vs kenyataan: pekerjaan jangka panjang, PDB-Val, nilai pengguna
10:26 - Langkah 37 — apa yang sebenarnya terjadi dan mengapa itu penting
13:55 - Sains baru: AlphaCode/AlphaTensor → kapan AI mendapatkan Nobel?
16:25 - Diskontinuitas vs kemajuan yang lancar (dan tanda-tanda peringatan)
19:08 - Apakah pra-pelatihan + RL membawa kita ke sana? (Selain perdebatan AGI)
20:55 - "RL dari awal" Sutton? Pendapat Julian
23:03 - Jalan Julian: Google → DeepMind → Anthropic
26:45 - AlphaGo (belajar + mencari) dalam bahasa Inggris sederhana
30:16 - AlphaGo Zero (tanpa data manusia)
31:00 - AlphaZero (satu algoritma: Go, catur, shogi)
31:46 - MuZero (perencanaan dengan model dunia yang dipelajari)
33:23 -Pelajaran untuk agen hari ini: pencarian + pembelajaran dalam skala besar
34:57 - Apakah LLM sudah memiliki model dunia implisit?
39:02 - Mengapa RL pada LLM membutuhkan waktu (stabilitas, loop umpan balik)
41:43 - Komputasi & penskalaan untuk RL — apa yang kita lihat sejauh ini
42:35 - Perbatasan hadiah: prefs manusia, rubrik, RLVR, hadiah proses
44:36 - Data pelatihan RL & "roda gila" (dan mengapa kualitas penting)
48:02 - RL & Agents 101 — mengapa RL membuka ketahanan
50:51 - Haruskah pembangun menggunakan RL-as-a-service? Atau hanya alat + petunjuk?
52:18 - Apa yang hilang untuk agen yang dapat diandalkan (kemampuan vs teknik)
53:51 - Evals & Goodhart — tolok ukur internal vs eksternal
57:35 - Interpretabilitas mekanistik & "Golden Gate Claude"
1:00:03 - Keselamatan & penyelarasan di Anthropic — bagaimana hal itu muncul dalam praktik
1:03:48 - Pekerjaan: komplementaritas manusia-AI (keunggulan komparatif)
1:06:33 - Ketidaksetaraan, kebijakan, dan kasus untuk 10× produktivitas → kelimpahan
1:09:24 - Penutup
203,06K
Pernyataan dari OpenAI CISO re: mitigasi risiko injeksi cepat di Atlas

DANΞ23 Okt, 00.40
Kemarin kami meluncurkan ChatGPT Atlas, browser web baru kami. Di Atlas, agen ChatGPT dapat menyelesaikan sesuatu untuk Anda. Kami sangat senang melihat bagaimana fitur ini membuat pekerjaan dan kehidupan sehari-hari lebih efisien dan efektif bagi orang-orang.
Agen ChatGPT kuat dan membantu, dan dirancang agar aman, tetapi masih dapat membuat kesalahan (terkadang mengejutkan!), seperti mencoba membeli produk yang salah atau lupa check-in dengan Anda sebelum mengambil tindakan penting.
Salah satu risiko yang muncul yang kami teliti dan mitigasi dengan sangat cermat adalah suntikan segera, di mana penyerang menyembunyikan instruksi berbahaya di situs web, email, atau sumber lain, untuk mencoba mengelabui agen agar berperilaku dengan cara yang tidak diinginkan. Tujuan penyerang bisa sesederhana mencoba memihak pendapat agen saat berbelanja, atau konsekuensial seperti penyerang yang mencoba membuat agen mengambil dan membocorkan data pribadi, seperti informasi sensitif dari email Anda, atau kredensial.
Tujuan jangka panjang kami adalah Anda harus dapat mempercayai agen ChatGPT untuk menggunakan browser Anda, dengan cara yang sama Anda mempercayai kolega atau teman Anda yang paling kompeten, dapat dipercaya, dan sadar keamanan. Kami bekerja keras untuk mencapai itu. Untuk peluncuran ini, kami telah melakukan red-teaming yang ekstensif, menerapkan teknik pelatihan model baru untuk memberi penghargaan kepada model karena mengabaikan instruksi berbahaya, menerapkan pagar pembatas dan tindakan keamanan yang tumpang tindih, dan menambahkan sistem baru untuk mendeteksi dan memblokir serangan tersebut. Namun, injeksi cepat tetap menjadi masalah keamanan yang belum terpecahkan, dan musuh kita akan menghabiskan banyak waktu dan sumber daya untuk menemukan cara membuat agen ChatGPT jatuh ke dalam serangan ini.
Untuk melindungi pengguna kami, dan untuk membantu meningkatkan model kami dari serangan ini:
1. Kami telah memprioritaskan sistem respons cepat untuk membantu kami mengidentifikasi kampanye serangan blokir dengan cepat saat kami menyadarinya.
2. Kami juga terus berinvestasi besar-besaran dalam keamanan, privasi, dan keselamatan - termasuk penelitian untuk meningkatkan ketahanan model kami, pemantau keamanan, kontrol keamanan infrastruktur, dan teknik lain untuk membantu mencegah serangan ini melalui pertahanan secara mendalam.
3. Kami telah merancang Atlas untuk memberi Anda kontrol untuk membantu melindungi diri Anda. Kami telah menambahkan fitur untuk memungkinkan agen ChatGPT mengambil tindakan atas nama Anda, tetapi tanpa akses ke kredensial Anda yang disebut "mode keluar". Kami merekomendasikan mode ini jika Anda tidak perlu mengambil tindakan dalam akun Anda. Saat ini, kami pikir "mode masuk" paling tepat untuk tindakan cakupan baik di situs yang sangat tepercaya, di mana risiko injeksi cepat lebih rendah. Memintanya untuk menambahkan bahan ke keranjang belanja umumnya lebih aman daripada permintaan yang luas atau tidak jelas seperti "tinjau email saya dan ambil tindakan apa pun yang diperlukan."
4. Saat agen beroperasi di situs sensitif, kami juga telah menerapkan "Mode Tonton" yang mengingatkan Anda tentang sifat sensitif situs dan mengharuskan Anda memiliki tab aktif untuk melihat agen melakukan pekerjaannya. Agen akan menjeda jika Anda menjauh dari tab dengan informasi sensitif. Ini memastikan Anda tetap sadar - dan memegang kendali - tentang tindakan agen apa yang dilakukan agen.
Seiring waktu, kami berencana untuk menambahkan lebih banyak fitur, pagar pembatas, dan kontrol keselamatan untuk memungkinkan agen ChatGPT bekerja dengan aman dan terjamin di seluruh alur kerja individu dan perusahaan.
Tingkat kecerdasan dan kemampuan baru membutuhkan teknologi, masyarakat, strategi mitigasi risiko untuk berkembang bersama. Dan seperti halnya virus komputer di awal 2000-an, kami pikir penting bagi semua orang untuk memahami penggunaan yang bertanggung jawab, termasuk memikirkan serangan injeksi cepat, sehingga kita semua dapat belajar untuk mendapatkan manfaat dari teknologi ini dengan aman.
Kami sangat senang melihat bagaimana agen ChatGPT akan memberdayakan alur kerja Anda di Atlas, dan bertekad dalam misi kami untuk membangun teknologi AI yang paling aman, pribadi, dan aman untuk kepentingan seluruh umat manusia.
37,62K
Teratas
Peringkat
Favorit


