DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

DANΞ

CISO @OpenAI | Ex-CISO @PalantirTech | Poster di occasionale | 🇺🇸 Tutti i punti di vista sono miei, non del mio datore di lavoro. Duh. (Tweet == 30d di ritenzione)

Ieri abbiamo lanciato ChatGPT Atlas, il nostro nuovo browser web. In Atlas, l'agente ChatGPT può fare le cose per te. Siamo entusiasti di vedere come questa funzionalità renda il lavoro e la vita quotidiana più efficienti ed efficaci per le persone. L'agente ChatGPT è potente e utile, ed è progettato per essere sicuro, ma può comunque commettere errori (a volte sorprendenti!), come cercare di acquistare il prodotto sbagliato o dimenticare di controllare con te prima di intraprendere un'azione importante. Un rischio emergente che stiamo studiando e mitigando con molta attenzione è l'iniezione di comandi, in cui gli attaccanti nascondono istruzioni dannose in siti web, email o altre fonti, per cercare di ingannare l'agente a comportarsi in modi non intenzionati. L'obiettivo per gli attaccanti può essere semplice come cercare di influenzare l'opinione dell'agente durante lo shopping, o tanto grave quanto un attaccante che cerca di far sì che l'agente recuperi e divulghi dati privati, come informazioni sensibili dalla tua email o credenziali. Il nostro obiettivo a lungo termine è che tu possa fidarti dell'agente ChatGPT per utilizzare il tuo browser, allo stesso modo in cui ti fideresti del tuo collega o amico più competente, affidabile e consapevole della sicurezza. Stiamo lavorando duramente per raggiungere questo obiettivo. Per questo lancio, abbiamo effettuato un ampio red-teaming, implementato tecniche di addestramento del modello innovative per premiare il modello per ignorare istruzioni dannose, implementato sovrapposizioni di misure di sicurezza e guardrail, e aggiunto nuovi sistemi per rilevare e bloccare tali attacchi. Tuttavia, l'iniezione di comandi rimane un problema di sicurezza irrisolto e i nostri avversari spenderanno tempo e risorse significative per trovare modi per far cadere l'agente ChatGPT in questi attacchi. Per proteggere i nostri utenti e per aiutare a migliorare i nostri modelli contro questi attacchi: 1. Abbiamo dato priorità ai sistemi di risposta rapida per aiutarci a identificare rapidamente le campagne di attacco non appena ne veniamo a conoscenza. 2. Stiamo anche continuando a investire pesantemente in sicurezza, privacy e sicurezza - inclusa la ricerca per migliorare la robustezza dei nostri modelli, monitor di sicurezza, controlli di sicurezza dell'infrastruttura e altre tecniche per aiutare a prevenire questi attacchi tramite una difesa a più livelli. 3. Abbiamo progettato Atlas per darti controlli che ti aiutino a proteggerti. Abbiamo aggiunto una funzionalità per consentire all'agente ChatGPT di agire per tuo conto, ma senza accesso alle tue credenziali chiamata "modalità disconnessa". Raccomandiamo questa modalità quando non hai bisogno di intraprendere azioni all'interno dei tuoi account. Oggi, riteniamo che la "modalità connessa" sia più appropriata per azioni ben definite su siti molto fidati, dove i rischi di iniezione di comandi sono inferiori. Chiedere di aggiungere ingredienti a un carrello della spesa è generalmente più sicuro di una richiesta ampia o vaga come "rivedi le mie email e prendi le azioni necessarie". 4. Quando l'agente opera su siti sensibili, abbiamo anche implementato una "Modalità di Vigilanza" che ti avvisa della natura sensibile del sito e richiede che tu abbia la scheda attiva per osservare l'agente mentre svolge il suo lavoro. L'agente si fermerà se ti allontani dalla scheda con informazioni sensibili. Questo assicura che tu rimanga consapevole - e in controllo - delle azioni che l'agente sta eseguendo. Nel tempo, prevediamo di aggiungere più funzionalità, guardrail e controlli di sicurezza per consentire all'agente ChatGPT di lavorare in modo sicuro e protetto sia nei flussi di lavoro individuali che aziendali. Nuovi livelli di intelligenza e capacità richiedono che la tecnologia, la società e la strategia di mitigazione del rischio co-evolvano. E come con i virus informatici nei primi anni 2000, riteniamo sia importante che tutti comprendano un uso responsabile, incluso il pensare agli attacchi di iniezione di comandi, in modo che tutti possiamo imparare a beneficiare di questa tecnologia in modo sicuro. Siamo entusiasti di vedere come l'agente ChatGPT potrà potenziare i tuoi flussi di lavoro in Atlas e siamo risoluti nella nostra missione di costruire le tecnologie AI più sicure, private e sicure per il beneficio di tutta l'umanità.

Principali

Ranking

Preferiti