Včera jsme spustili ChatGPT Atlas, náš nový webový prohlížeč. V Atlasu může agent ChatGPT udělat věci za vás. S nadšením sledujeme, jak tato funkce lidem zefektivňuje a zefektivňuje práci a každodenní život. Agent ChatGPT je výkonný a užitečný a navržený tak, aby byl bezpečný, ale stále se může dopustit (někdy překvapivých!) chyb, jako je pokus o nákup nesprávného produktu nebo zapomenutí se s vámi přihlásit před provedením důležité akce. Jedním z nových rizik, které velmi promyšleně zkoumáme a zmírňujeme, jsou rychlé injekce, kdy útočníci skrývají škodlivé pokyny na webových stránkách, v e-mailech nebo jiných zdrojích, aby se pokusili přimět agenta k nezamýšlenému chování. Cíl útočníků může být tak jednoduchý, jako je snaha ovlivnit názor agenta při nakupování, nebo tak závažný, jako je snaha přimět agenta, aby načetl a unikl soukromá data, jako jsou citlivé informace z vašeho e-mailu nebo přihlašovací údaje. Naším dlouhodobým cílem je, abyste agentovi ChatGPT mohli důvěřovat při používání vašeho prohlížeče, stejně jako byste důvěřovali svému nejkompetentnějšímu, nejdůvěryhodnějšímu a nejbezpečnějšímu kolegovi nebo příteli, který dbá na bezpečnost. Usilovně pracujeme na tom, abychom toho dosáhli. V rámci tohoto spuštění jsme provedli rozsáhlý red-teaming, implementovali jsme nové techniky trénování modelu, abychom model odměnili za ignorování škodlivých instrukcí, implementovali jsme překrývající se mantinely a bezpečnostní opatření a přidali nové systémy pro detekci a blokování takových útoků. Prompt injection však zůstává hraničním, nevyřešeným bezpečnostním problémem a naši protivníci vynaloží značné množství času a zdrojů, aby našli způsoby, jak přimět agenta ChatGPT, aby těmto útokům naletěl. Abychom chránili naše uživatele a pomohli vylepšit naše modely proti těmto útokům: 1. Upřednostnili jsme systémy rychlé reakce, které nám pomáhají rychle identifikovat blokové útočné kampaně, jakmile se o nich dozvíme. 2. Pokračujeme také ve velkých investicích do zabezpečení, ochrany osobních údajů a bezpečnosti – včetně výzkumu zaměřeného na zlepšení robustnosti našich modelů, bezpečnostních monitorů, kontrol zabezpečení infrastruktury a dalších technik, které pomáhají předcházet těmto útokům prostřednictvím hloubkové obrany. 3. Atlas jsme navrhli tak, abychom vám poskytli ovládací prvky, které vám pomohou se chránit. Přidali jsme funkci, která umožňuje agentovi ChatGPT provádět akce vaším jménem, ale bez přístupu k vašim přihlašovacím údajům, nazvanou "režim odhlášení". Tento režim doporučujeme v případě, že v rámci svých účtů nepotřebujete provádět žádné akce. Dnes si myslíme, že "režim přihlášení" je nejvhodnější pro akce s dobrým rozsahem na velmi důvěryhodných webech, kde je riziko rychlého injektáže nižší. Požádat ho o přidání ingrediencí do nákupního košíku je obecně bezpečnější než obecný nebo vágní požadavek typu "zkontrolujte mé e-maily a podnikněte jakékoli potřebné kroky". 4. Pokud agent pracuje na citlivých webech, implementovali jsme také "režim sledování", který vás upozorní na citlivou povahu webu a vyžaduje, abyste měli aktivní kartu, abyste mohli sledovat, jak agent pracuje. Agent se pozastaví, pokud se vzdálíte od karty s citlivými informacemi. Díky tomu budete mít přehled o tom, jaké akce agent provádí, a budete mít nad nimi kontrolu. Postupem času plánujeme přidat další funkce, mantinely a bezpečnostní ovládací prvky, které agentovi ChatGPT umožní bezpečně a bezpečně pracovat v individuálních i podnikových pracovních postupech. Nové úrovně inteligence a schopností vyžadují, aby se technologie, společnost a strategie zmírňování rizik vyvíjely společně. A stejně jako v případě počítačových virů na počátku roku 2000 si myslíme, že je důležité, aby každý rozuměl zodpovědnému používání, včetně přemýšlení o rychlých injekčních útocích, abychom se všichni mohli naučit bezpečně využívat výhod této technologie. Jsme nadšeni, že vidíme, jak agent ChatGPT posílí vaše pracovní postupy v Atlasu, a jsme odhodláni budovat nejbezpečnější, soukromé a bezpečné technologie umělé inteligence ve prospěch celého lidstva.