DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

DANΞ

CISO @OpenAI | Ex-CISO @PalantirTech | Shitposter ocasional | 🇺🇸 Todos los puntos de vista son míos, no de mi empleador. Obvio. (Tweets == 30d de retención)

Ayer lanzamos ChatGPT Atlas, nuestro nuevo navegador web. En Atlas, el agente de ChatGPT puede hacer cosas por ti. Estamos emocionados de ver cómo esta función hace que el trabajo y la vida cotidiana sean más eficientes y efectivas para las personas. El agente de ChatGPT es poderoso y útil, y está diseñado para ser seguro, pero aún puede cometer errores (¡a veces sorprendentes!), como intentar comprar el producto equivocado o olvidar consultarte antes de tomar una acción importante. Un riesgo emergente que estamos investigando y mitigando con mucho cuidado son las inyecciones de comandos, donde los atacantes ocultan instrucciones maliciosas en sitios web, correos electrónicos u otras fuentes, para intentar engañar al agente y que se comporte de maneras no deseadas. El objetivo de los atacantes puede ser tan simple como intentar sesgar la opinión del agente mientras compra, o tan grave como un atacante que intenta hacer que el agente obtenga y filtre datos privados, como información sensible de tu correo electrónico o credenciales. Nuestro objetivo a largo plazo es que puedas confiar en el agente de ChatGPT para usar tu navegador, de la misma manera que confiarías en tu colega o amigo más competente, confiable y consciente de la seguridad. Estamos trabajando arduamente para lograrlo. Para este lanzamiento, hemos realizado un extenso red-teaming, implementado técnicas de entrenamiento de modelos novedosas para recompensar al modelo por ignorar instrucciones maliciosas, implementado guardrails y medidas de seguridad superpuestas, y añadido nuevos sistemas para detectar y bloquear tales ataques. Sin embargo, la inyección de comandos sigue siendo un problema de seguridad no resuelto y nuestros adversarios dedicarán tiempo y recursos significativos para encontrar formas de hacer que el agente de ChatGPT caiga en estos ataques. Para proteger a nuestros usuarios y ayudar a mejorar nuestros modelos contra estos ataques: 1. Hemos priorizado sistemas de respuesta rápida para ayudarnos a identificar rápidamente campañas de ataque a medida que nos enteramos de ellas. 2. También seguimos invirtiendo fuertemente en seguridad, privacidad y seguridad - incluyendo investigación para mejorar la robustez de nuestros modelos, monitores de seguridad, controles de seguridad de infraestructura y otras técnicas para ayudar a prevenir estos ataques mediante defensa en profundidad. 3. Hemos diseñado Atlas para darte controles que te ayuden a protegerte. Hemos añadido una función que permite al agente de ChatGPT tomar acciones en tu nombre, pero sin acceso a tus credenciales, llamada "modo desconectado". Recomendamos este modo cuando no necesitas tomar acciones dentro de tus cuentas. Hoy, creemos que el "modo conectado" es más apropiado para acciones bien definidas en sitios muy confiables, donde los riesgos de inyección de comandos son menores. Pedirle que añada ingredientes a un carrito de compras es generalmente más seguro que una solicitud amplia o vaga como "revisa mis correos electrónicos y toma las acciones necesarias". 4. Cuando el agente opera en sitios sensibles, también hemos implementado un "Modo de Vigilancia" que te alerta sobre la naturaleza sensible del sitio y requiere que tengas la pestaña activa para observar al agente hacer su trabajo. El agente se detendrá si te alejas de la pestaña con información sensible. Esto asegura que permanezcas consciente - y en control - de las acciones que el agente está realizando. Con el tiempo, planeamos añadir más funciones, guardrails y controles de seguridad para permitir que el agente de ChatGPT trabaje de manera segura y protegida en flujos de trabajo tanto individuales como empresariales. Niveles nuevos de inteligencia y capacidad requieren que la tecnología, la sociedad y la estrategia de mitigación de riesgos coevolucionen. Y al igual que con los virus informáticos a principios de los 2000, creemos que es importante que todos comprendan el uso responsable, incluyendo pensar en los ataques de inyección de comandos, para que todos podamos aprender a beneficiarnos de esta tecnología de manera segura. Estamos emocionados de ver cómo el agente de ChatGPT empoderará tus flujos de trabajo en Atlas, y estamos resueltos en nuestra misión de construir las tecnologías de IA más seguras, privadas y seguras para el beneficio de toda la humanidad.

Parte superior

Clasificación

Favoritos