Вчора ми запустили ChatGPT Atlas, наш новий веб-браузер. В Atlas агент ChatGPT може зробити все за вас. Ми раді бачити, як ця функція робить роботу та повсякденне життя людей ефективнішими та результативнішими. Агент ChatGPT потужний і корисний, і розроблений для безпеки, але він все ще може робити (іноді дивні!) помилки, наприклад, намагатися купити не той продукт або забути перевірити вас, перш ніж виконати важливу дію. Одним з нових ризиків, які ми дуже ретельно досліджуємо і пом'якшуємо, є швидкі ін'єкції, коли зловмисники приховують шкідливі інструкції на веб-сайтах, в електронних листах або інших джерелах, щоб спробувати обманом змусити агента поводитися непередбачуваним чином. Мета зловмисників може бути такою ж простою, як спроба спотворити думку агента під час покупок, або такою ж наслідковою, як спроба зловмисника змусити агента отримати та виток особистих даних, таких як конфіденційна інформація з вашої електронної пошти або облікові дані. Наша довгострокова мета полягає в тому, щоб ви могли довіряти агенту ChatGPT у використанні вашого браузера так само, як ви довіряєте своєму найкомпетентнішому, надійному та обізнаному про безпеку колезі чи другу. Ми докладаємо всіх зусиль, щоб досягти цього. Для цього запуску ми провели масштабну роботу червоних команд, впровадили нові методи навчання моделі, щоб винагородити модель за ігнорування шкідливих інструкцій, впровадили перекриття огорож і заходи безпеки, а також додали нові системи для виявлення та блокування таких атак. Однак оперативне впровадження залишається прикордонною, невирішеною проблемою безпеки, і наші супротивники витратять значний час і ресурси, щоб знайти способи змусити агента ChatGPT потрапити під ці атаки. Щоб захистити наших користувачів і вдосконалити наші моделі від цих атак: 1. Ми віддали пріоритет системам швидкого реагування, щоб допомогти нам швидко виявляти кампанії з блокуванням атак, як тільки ми дізнаємося про них. 2. Ми також продовжуємо інвестувати значні кошти в безпеку, конфіденційність і безпеку, включаючи дослідження, спрямовані на підвищення надійності наших моделей, моніторів безпеки, контролю безпеки інфраструктури та інших методів, які допомагають запобігти цим атакам за допомогою глибокого захисту. 3. Ми розробили Атлас, щоб надати вам елементи керування, які допоможуть захистити себе. Ми додали функцію, яка дозволяє агенту ChatGPT виконувати дії від вашого імені, але без доступу до ваших облікових даних під назвою "режим виходу з системи". Ми рекомендуємо цей режим, коли вам не потрібно виконувати дії в облікових записах. Сьогодні ми вважаємо, що «режим входу в систему» найбільш підходить для масштабних дій на дуже надійних сайтах, де ризики швидкого впровадження нижчі. Просити його додати інгредієнти в кошик для покупок, як правило, безпечніше, ніж широке або розпливчасте прохання на кшталт «перегляньте мої електронні листи та виконайте будь-які необхідні дії». 4. Коли агент працює на конфіденційних сайтах, ми також впровадили «Режим спостереження», який попереджає вас про конфіденційний характер сайту та вимагає, щоб у вас була активна вкладка, щоб спостерігати за тим, як агент виконує свою роботу. Агент призупинить роботу, якщо ви відійдете від вкладки з конфіденційною інформацією. Це гарантує, що ви будете в курсі - і контролюєте - дії агента, які він виконує. З часом ми плануємо додати більше функцій, огорож і засобів контролю безпеки, щоб агент ChatGPT міг безпечно та надійно працювати як в індивідуальних, так і в корпоративних робочих процесах. Нові рівні інтелекту і спроможності вимагають спільного розвитку технологій, суспільства, стратегії зниження ризиків. І, як і у випадку з комп'ютерними вірусами на початку 2000-х років, ми вважаємо, що важливо, щоб усі розуміли відповідальне використання, включаючи думки про швидкі ін'єкційні атаки, щоб ми всі могли навчитися безпечно користуватися цією технологією. Ми раді бачити, як агент ChatGPT розширить можливості ваших робочих процесів в Atlas, і рішуче налаштовані створювати найбезпечніші, приватні та безпечні технології штучного інтелекту на благо всього людства.