Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
N’ayez pas peur de la grandeur
Julian Schrittwieser (Anthropic) :
- La discussion sur la bulle de l'IA sur X est "très déconnectée" de ce qui se passe dans les laboratoires de pointe. "Dans les laboratoires de pointe, nous ne constatons aucun ralentissement des progrès."
- L'IA aura un "impact économique massif". Les prévisions de revenus pour OpenAI, Anthropic et Google sont en réalité "assez conservatrices".
- En extrapolant à partir de données comme celles de METR, l'année prochaine, les modèles seront capables de travailler de manière autonome sur toute une gamme de tâches. La durée des tâches est importante, car elle permet à un humain de superviser une équipe de modèles, chacun travaillant de manière autonome pendant des heures (contre le fait de devoir parler à un agent toutes les 10 minutes pour lui donner des retours).
- Il est "extrêmement probable" que l'approche actuelle de formation des modèles d'IA (pré-formation, RL) produira un système capable de performer à peu près au niveau humain dans toutes les tâches qui nous intéressent en termes de productivité.
- À propos du Move 37 : "Je pense qu'il est assez clair que ces modèles peuvent faire des choses nouvelles." AlphaCode et AlphaTensor "ont prouvé que l'on peut découvrir des programmes et des algorithmes nouveaux". L'IA est "absolument en train de découvrir des choses nouvelles" déjà, et "nous ne faisons que monter en échelle sur l'impressionnant, sur l'intéressant des choses qu'elle est capable de découvrir par elle-même."
- Il est "très probable" qu'à un moment donné l'année prochaine, nous aurons des découvertes que les gens s'accordent à dire sont super impressionnantes.
- L'IA sera capable, par elle-même, de réaliser une percée digne d'un prix Nobel en 2027 ou 2028.
- Sur la capacité de l'IA à accélérer le développement de l'IA : Un problème très courant dans de nombreux domaines scientifiques est qu'il devient de plus en plus difficile de faire des avancées à mesure que le domaine progresse (c'est-à-dire, il y a 100 ans, un seul scientifique pouvait découvrir le premier antibiotique par accident, alors qu'aujourd'hui, il faut des milliards de dollars pour découvrir un nouveau médicament). Il se pourrait que la même chose se produise avec la recherche en IA - même si l'IA rendra la recherche de nouvelles IA plus productive, il se peut qu'il n'y ait pas d'explosion en raison des nouvelles avancées devenant de plus en plus difficiles à trouver.

Matt Turck24 oct., 03:37
Ne pas comprendre l'exponentiel, encore une fois ?
Ma conversation avec @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) - sur le coup 37, l'échelle de l'apprentissage par renforcement, le prix Nobel pour l'IA, et la frontière de l'IA :
00:00 - Ouverture froide : « Nous ne voyons aucun ralentissement. »
00:32 - Introduction — Rencontrez Julian
01:09 - L'« exponentiel » de l'intérieur des laboratoires de pointe
04:46 - 2026–2027 : des agents qui travaillent toute la journée ; une expertise de niveau expert
08:58 - Référentiels vs réalité : travail à long terme, PIB-Val, valeur utilisateur
10:26 - Coup 37 — que s'est-il réellement passé et pourquoi c'était important
13:55 - Science novatrice : AlphaCode/AlphaTensor → quand l'IA mérite-t-elle un Nobel ?
16:25 - Discontinuité vs progrès fluide (et signes d'avertissement)
19:08 - La pré-formation + RL nous y amène-t-elle ? (débats AGI mis à part)
20:55 - Le « RL from scratch » de Sutton ? L'avis de Julian
23:03 - Le parcours de Julian : Google → DeepMind → Anthropic
26:45 - AlphaGo (apprendre + chercher) en termes simples
30:16 - AlphaGo Zero (pas de données humaines)
31:00 - AlphaZero (un algorithme : Go, échecs, shogi)
31:46 - MuZero (planification avec un modèle du monde appris)
33:23 - Leçons pour les agents d'aujourd'hui : recherche + apprentissage à grande échelle
34:57 - Les LLM ont-ils déjà des modèles du monde implicites ?
39:02 - Pourquoi le RL sur les LLM a pris du temps (stabilité, boucles de rétroaction)
41:43 - Calcul et mise à l'échelle pour le RL — ce que nous voyons jusqu'à présent
42:35 - Frontière des récompenses : préférences humaines, rubriques, RLVR, récompenses de processus
44:36 - Données d'entraînement RL & le « flywheel » (et pourquoi la qualité compte)
48:02 - RL & Agents 101 — pourquoi le RL débloque la robustesse
50:51 - Les constructeurs devraient-ils utiliser le RL en tant que service ? Ou juste des outils + des invites ?
52:18 - Ce qui manque pour des agents fiables (capacité vs ingénierie)
53:51 - Évaluations & Goodhart — benchmarks internes vs externes
57:35 - Interprétabilité mécaniste & « Golden Gate Claude »
1:00:03 - Sécurité & alignement chez Anthropic — comment cela se manifeste dans la pratique
1:03:48 - Emplois : complémentarité humain–IA (avantage comparatif)
1:06:33 - Inégalité, politique, et le cas pour une productivité multipliée par 10 → abondance
1:09:24 - Pensées de clôture
203,04K
Une déclaration du CISO d'OpenAI concernant l'atténuation des risques d'injection de prompt dans Atlas

DANΞ23 oct., 00:40
Hier, nous avons lancé ChatGPT Atlas, notre nouveau navigateur web. Dans Atlas, l'agent ChatGPT peut accomplir des tâches pour vous. Nous sommes impatients de voir comment cette fonctionnalité rend le travail et la vie quotidienne plus efficaces et productifs pour les gens.
L'agent ChatGPT est puissant et utile, et conçu pour être sûr, mais il peut encore faire des erreurs (parfois surprenantes !), comme essayer d'acheter le mauvais produit ou oublier de vérifier avec vous avant de prendre une action importante.
Un risque émergent que nous recherchons et atténuons très attentivement est celui des injections de prompt, où des attaquants cachent des instructions malveillantes dans des sites web, des e-mails ou d'autres sources, pour essayer de tromper l'agent afin qu'il se comporte de manière inattendue. L'objectif des attaquants peut être aussi simple que d'essayer de biaiser l'opinion de l'agent lors de l'achat, ou aussi conséquent qu'un attaquant essayant de faire en sorte que l'agent récupère et divulgue des données privées, telles que des informations sensibles de votre e-mail ou des identifiants.
Notre objectif à long terme est que vous puissiez faire confiance à l'agent ChatGPT pour utiliser votre navigateur, de la même manière que vous feriez confiance à votre collègue ou ami le plus compétent, digne de confiance et conscient de la sécurité. Nous travaillons dur pour y parvenir. Pour ce lancement, nous avons effectué des tests approfondis, mis en œuvre des techniques de formation de modèle novatrices pour récompenser le modèle pour avoir ignoré des instructions malveillantes, mis en place des garde-fous et des mesures de sécurité superposées, et ajouté de nouveaux systèmes pour détecter et bloquer de telles attaques. Cependant, l'injection de prompt reste un problème de sécurité non résolu, et nos adversaires passeront un temps et des ressources significatifs à trouver des moyens de faire tomber l'agent ChatGPT dans ces attaques.
Pour protéger nos utilisateurs et aider à améliorer nos modèles contre ces attaques :
1. Nous avons priorisé des systèmes de réponse rapide pour nous aider à identifier rapidement les campagnes d'attaque dès que nous en prenons connaissance.
2. Nous continuons également à investir massivement dans la sécurité, la confidentialité et la sûreté - y compris la recherche pour améliorer la robustesse de nos modèles, les moniteurs de sécurité, les contrôles de sécurité de l'infrastructure, et d'autres techniques pour aider à prévenir ces attaques via une défense en profondeur.
3. Nous avons conçu Atlas pour vous donner des contrôles pour vous aider à vous protéger. Nous avons ajouté une fonctionnalité permettant à l'agent ChatGPT d'agir en votre nom, mais sans accès à vos identifiants, appelée "mode déconnecté". Nous recommandons ce mode lorsque vous n'avez pas besoin d'agir dans vos comptes. Aujourd'hui, nous pensons que le "mode connecté" est le plus approprié pour des actions bien définies sur des sites très fiables, où les risques d'injection de prompt sont plus faibles. Lui demander d'ajouter des ingrédients à un panier d'achat est généralement plus sûr qu'une demande large ou vague comme "réviser mes e-mails et prendre les actions nécessaires".
4. Lorsque l'agent opère sur des sites sensibles, nous avons également mis en œuvre un "mode de surveillance" qui vous alerte de la nature sensible du site et exige que vous ayez l'onglet actif pour surveiller l'agent faire son travail. L'agent fera une pause si vous vous éloignez de l'onglet contenant des informations sensibles. Cela garantit que vous restez conscient - et en contrôle - des actions que l'agent effectue.
Au fil du temps, nous prévoyons d'ajouter plus de fonctionnalités, de garde-fous et de contrôles de sécurité pour permettre à l'agent ChatGPT de travailler en toute sécurité et de manière sécurisée à la fois dans les flux de travail individuels et d'entreprise.
De nouveaux niveaux d'intelligence et de capacité nécessitent que la technologie, la société et la stratégie d'atténuation des risques coévoluent. Et comme avec les virus informatiques au début des années 2000, nous pensons qu'il est important que tout le monde comprenne l'utilisation responsable, y compris la réflexion sur les attaques par injection de prompt, afin que nous puissions tous apprendre à bénéficier de cette technologie en toute sécurité.
Nous sommes impatients de voir comment l'agent ChatGPT va dynamiser vos flux de travail dans Atlas, et nous sommes résolus dans notre mission de construire les technologies d'IA les plus sécurisées, privées et sûres pour le bénéfice de toute l'humanité.
37,59K
Meilleurs
Classement
Favoris


