DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

DANΞ

CISO @OpenAI | Ex-CISO @PalantirTech | Af en toe Shitposter | 🇺🇸 Alle opvattingen zijn van mijzelf, niet van mijn werkgever. Duh. (Tweets == 30d retentie)

Gisteren hebben we ChatGPT Atlas gelanceerd, onze nieuwe webbrowser. In Atlas kan de ChatGPT-agent dingen voor je gedaan krijgen. We zijn enthousiast om te zien hoe deze functie het werk en het dagelijks leven efficiënter en effectiever maakt voor mensen. De ChatGPT-agent is krachtig en behulpzaam, en ontworpen om veilig te zijn, maar het kan nog steeds (soms verrassende!) fouten maken, zoals proberen het verkeerde product te kopen of vergeten om bij je in te checken voordat hij een belangrijke actie onderneemt. Een opkomend risico dat we zeer zorgvuldig onderzoeken en mitigeren, zijn promptinjecties, waarbij aanvallers kwaadaardige instructies verbergen in websites, e-mails of andere bronnen, om de agent te misleiden om zich op ongewenste manieren te gedragen. Het doel voor aanvallers kan zo eenvoudig zijn als proberen de mening van de agent te beïnvloeden tijdens het winkelen, of zo ingrijpend als een aanvaller die probeert de agent te laten ophalen en lekken van privégegevens, zoals gevoelige informatie uit je e-mail of inloggegevens. Ons langetermijndoel is dat je de ChatGPT-agent moet kunnen vertrouwen om je browser te gebruiken, op dezelfde manier als je je meest competente, betrouwbare en beveiligingsbewuste collega of vriend zou vertrouwen. We werken hard om dat te bereiken. Voor deze lancering hebben we uitgebreide red-teaming uitgevoerd, nieuwe modeltrainingsmethoden geïmplementeerd om het model te belonen voor het negeren van kwaadaardige instructies, overlappende veiligheidsmaatregelen en veiligheidsmaatregelen geïmplementeerd, en nieuwe systemen toegevoegd om dergelijke aanvallen te detecteren en te blokkeren. Echter, promptinjectie blijft een grens, een onopgelost beveiligingsprobleem, en onze tegenstanders zullen aanzienlijke tijd en middelen besteden om manieren te vinden om de ChatGPT-agent voor deze aanvallen te laten vallen. Om onze gebruikers te beschermen en om onze modellen te helpen verbeteren tegen deze aanvallen: 1. We hebben prioriteit gegeven aan snelle responsystemen om ons te helpen snel aanvalscampagnes te identificeren zodra we ons ervan bewust worden. 2. We blijven ook zwaar investeren in beveiliging, privacy en veiligheid - inclusief onderzoek om de robuustheid van onze modellen, beveiligingsmonitoren, infrastructuurbeveiligingscontroles en andere technieken te verbeteren om deze aanvallen te helpen voorkomen via verdediging in de diepte. 3. We hebben Atlas ontworpen om je controles te geven om jezelf te helpen beschermen. We hebben een functie toegevoegd waarmee de ChatGPT-agent actie kan ondernemen namens jou, maar zonder toegang tot je inloggegevens, genaamd "uitgelogde modus". We raden deze modus aan wanneer je geen actie hoeft te ondernemen binnen je accounts. Vandaag denken we dat "ingelogde modus" het meest geschikt is voor goed afgebakende acties op zeer vertrouwde sites, waar de risico's van promptinjectie lager zijn. Het vragen om ingrediënten aan een winkelwagentje toe te voegen is over het algemeen veiliger dan een brede of vage aanvraag zoals "beoordeel mijn e-mails en neem de nodige acties." 4. Wanneer de agent opereert op gevoelige sites, hebben we ook een "Kijkmodus" geïmplementeerd die je waarschuwt voor de gevoelige aard van de site en vereist dat je het tabblad actief hebt om de agent zijn werk te laten doen. De agent zal pauzeren als je weggaat van het tabblad met gevoelige informatie. Dit zorgt ervoor dat je bewust blijft - en controle hebt - over welke acties de agent uitvoert. In de loop van de tijd zijn we van plan om meer functies, veiligheidsmaatregelen en veiligheidscontroles toe te voegen om de ChatGPT-agent veilig en beveiligd te laten werken in zowel individuele als bedrijfsworkflows. Nieuwe niveaus van intelligentie en capaciteit vereisen dat de technologie, de samenleving en de risicobeperkende strategie samen evolueren. En net als bij computervirussen in het begin van de jaren 2000, denken we dat het belangrijk is dat iedereen verantwoord gebruik begrijpt, inclusief nadenken over promptinjectie-aanvallen, zodat we allemaal kunnen leren om veilig van deze technologie te profiteren. We zijn enthousiast om te zien hoe de ChatGPT-agent je workflows in Atlas zal versterken, en zijn vastbesloten in onze missie om de meest veilige, privé en veilige AI-technologieën te bouwen voor het welzijn van de hele mensheid.

Boven

Positie

Favorieten