Ayer lanzamos ChatGPT Atlas, nuestro nuevo navegador web. En Atlas, el agente de ChatGPT puede hacer las cosas por usted. Estamos emocionados de ver cómo esta función hace que el trabajo y la vida cotidiana sean más eficientes y efectivos para las personas. El agente de ChatGPT es poderoso y útil, y está diseñado para ser seguro, pero aún puede cometer errores (¡a veces sorprendentes!), como tratar de comprar el producto equivocado u olvidarse de registrarse con usted antes de realizar una acción importante. Un riesgo emergente que estamos investigando y mitigando muy cuidadosamente son las inyecciones rápidas, donde los atacantes ocultan instrucciones maliciosas en sitios web, correos electrónicos u otras fuentes, para tratar de engañar al agente para que se comporte de manera no deseada. El objetivo de los atacantes puede ser tan simple como tratar de sesgar la opinión del agente mientras compra, o tan importante como un atacante que intenta que el agente busque y filtre datos privados, como información confidencial de su correo electrónico o credenciales. Nuestro objetivo a largo plazo es que pueda confiar en el agente de ChatGPT para usar su navegador, de la misma manera que confiaría en su colega o amigo más competente, confiable y consciente de la seguridad. Estamos trabajando duro para lograrlo. Para este lanzamiento, hemos realizado un extenso equipo rojo, hemos implementado técnicas novedosas de entrenamiento de modelos para recompensar al modelo por ignorar instrucciones maliciosas, hemos implementado barreras de seguridad y medidas de seguridad superpuestas, y hemos agregado nuevos sistemas para detectar y bloquear dichos ataques. Sin embargo, la inyección rápida sigue siendo un problema de seguridad fronterizo y sin resolver, y nuestros adversarios dedicarán mucho tiempo y recursos a encontrar formas de hacer que el agente de ChatGPT caiga en estos ataques. Para proteger a nuestros usuarios y ayudar a mejorar nuestros modelos contra estos ataques: 1. Hemos priorizado los sistemas de respuesta rápida para ayudarnos a identificar rápidamente las campañas de ataque en bloque a medida que nos damos cuenta de ellas. 2. También continuamos invirtiendo fuertemente en seguridad, privacidad y protección, incluida la investigación para mejorar la solidez de nuestros modelos, monitores de seguridad, controles de seguridad de infraestructura y otras técnicas para ayudar a prevenir estos ataques a través de la defensa en profundidad. 3. Hemos diseñado Atlas para brindarte controles que te ayuden a protegerte. Hemos agregado una función para permitir que el agente de ChatGPT tome medidas en su nombre, pero sin acceso a sus credenciales llamada "modo de cierre de sesión". Recomendamos este modo cuando no necesites realizar ninguna acción dentro de tus cuentas. Hoy en día, creemos que el "modo de inicio de sesión" es más apropiado para acciones bien definidas en sitios muy confiables, donde los riesgos de la inyección rápida son menores. Pedirle que agregue ingredientes a un carrito de compras es generalmente más seguro que una solicitud amplia o vaga como "revisar mis correos electrónicos y tomar las medidas necesarias". 4. Cuando el agente opera en sitios confidenciales, también hemos implementado un "Modo de observación" que le alerta sobre la naturaleza confidencial del sitio y requiere que tenga la pestaña activa para ver al agente hacer su trabajo. El agente hará una pausa si se aleja de la pestaña con información confidencial. Esto garantiza que esté al tanto y en control de las acciones del agente que está realizando. Con el tiempo, planeamos agregar más funciones, barreras y controles de seguridad para permitir que el agente de ChatGPT funcione de manera segura en flujos de trabajo individuales y empresariales. Los nuevos niveles de inteligencia y capacidad requieren que la tecnología, la sociedad y la estrategia de mitigación de riesgos evolucionen conjuntamente. Y al igual que con los virus informáticos a principios de la década de 2000, creemos que es importante que todos comprendan el uso responsable, incluido el pensamiento sobre los ataques de inyección rápida, para que todos podamos aprender a beneficiarnos de esta tecnología de manera segura. Estamos entusiasmados de ver cómo el agente de ChatGPT potenciará sus flujos de trabajo en Atlas, y estamos decididos en nuestra misión de construir las tecnologías de IA más seguras, privadas y seguras para el beneficio de toda la humanidad.