DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

DANΞ

@OpenAI RSSI | Ex-RSSI @PalantirTech | Affiche de occasionnelle | 🇺🇸 Toutes les opinions sont les miennes, pas celles de mon employeur. Euh. (Tweets == 30d de rétention)

Hier, nous avons lancé ChatGPT Atlas, notre nouveau navigateur web. Dans Atlas, l'agent ChatGPT peut accomplir des tâches pour vous. Nous sommes impatients de voir comment cette fonctionnalité rend le travail et la vie quotidienne plus efficaces et productifs pour les gens. L'agent ChatGPT est puissant et utile, et conçu pour être sûr, mais il peut encore faire des erreurs (parfois surprenantes !), comme essayer d'acheter le mauvais produit ou oublier de vérifier avec vous avant de prendre une action importante. Un risque émergent que nous recherchons et atténuons très attentivement est celui des injections de prompt, où des attaquants cachent des instructions malveillantes dans des sites web, des e-mails ou d'autres sources, pour essayer de tromper l'agent afin qu'il se comporte de manière inattendue. L'objectif des attaquants peut être aussi simple que d'essayer de biaiser l'opinion de l'agent lors de l'achat, ou aussi conséquent qu'un attaquant essayant de faire en sorte que l'agent récupère et divulgue des données privées, telles que des informations sensibles de votre e-mail ou des identifiants. Notre objectif à long terme est que vous puissiez faire confiance à l'agent ChatGPT pour utiliser votre navigateur, de la même manière que vous feriez confiance à votre collègue ou ami le plus compétent, digne de confiance et conscient de la sécurité. Nous travaillons dur pour y parvenir. Pour ce lancement, nous avons effectué des tests approfondis, mis en œuvre des techniques de formation de modèle novatrices pour récompenser le modèle pour avoir ignoré des instructions malveillantes, mis en place des garde-fous et des mesures de sécurité superposées, et ajouté de nouveaux systèmes pour détecter et bloquer de telles attaques. Cependant, l'injection de prompt reste un problème de sécurité non résolu, et nos adversaires passeront un temps et des ressources significatifs à trouver des moyens de faire tomber l'agent ChatGPT dans ces attaques. Pour protéger nos utilisateurs et aider à améliorer nos modèles contre ces attaques : 1. Nous avons priorisé des systèmes de réponse rapide pour nous aider à identifier rapidement les campagnes d'attaque dès que nous en prenons connaissance. 2. Nous continuons également à investir massivement dans la sécurité, la confidentialité et la sûreté - y compris la recherche pour améliorer la robustesse de nos modèles, les moniteurs de sécurité, les contrôles de sécurité de l'infrastructure, et d'autres techniques pour aider à prévenir ces attaques via une défense en profondeur. 3. Nous avons conçu Atlas pour vous donner des contrôles pour vous aider à vous protéger. Nous avons ajouté une fonctionnalité permettant à l'agent ChatGPT d'agir en votre nom, mais sans accès à vos identifiants, appelée "mode déconnecté". Nous recommandons ce mode lorsque vous n'avez pas besoin d'agir dans vos comptes. Aujourd'hui, nous pensons que le "mode connecté" est le plus approprié pour des actions bien définies sur des sites très fiables, où les risques d'injection de prompt sont plus faibles. Lui demander d'ajouter des ingrédients à un panier d'achat est généralement plus sûr qu'une demande large ou vague comme "réviser mes e-mails et prendre les actions nécessaires". 4. Lorsque l'agent opère sur des sites sensibles, nous avons également mis en œuvre un "mode de surveillance" qui vous alerte de la nature sensible du site et exige que vous ayez l'onglet actif pour surveiller l'agent faire son travail. L'agent fera une pause si vous vous éloignez de l'onglet contenant des informations sensibles. Cela garantit que vous restez conscient - et en contrôle - des actions que l'agent effectue. Au fil du temps, nous prévoyons d'ajouter plus de fonctionnalités, de garde-fous et de contrôles de sécurité pour permettre à l'agent ChatGPT de travailler en toute sécurité et de manière sécurisée à la fois dans les flux de travail individuels et d'entreprise. De nouveaux niveaux d'intelligence et de capacité nécessitent que la technologie, la société et la stratégie d'atténuation des risques coévoluent. Et comme avec les virus informatiques au début des années 2000, nous pensons qu'il est important que tout le monde comprenne l'utilisation responsable, y compris la réflexion sur les attaques par injection de prompt, afin que nous puissions tous apprendre à bénéficier de cette technologie en toute sécurité. Nous sommes impatients de voir comment l'agent ChatGPT va dynamiser vos flux de travail dans Atlas, et nous sommes résolus dans notre mission de construire les technologies d'IA les plus sécurisées, privées et sûres pour le bénéfice de toute l'humanité.

Meilleurs

Classement

Favoris