トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

prinz
偉大さを恐れないでください
ジュリアン・シュリットウィーザー(アンソロピック):
- XでのAIバブルに関する議論は、フロンティア研究所で起こっていることとは「非常に乖離している」。 「フロンティアの研究所では、進歩の鈍化は見られません。」
- AIは「莫大な経済的影響」をもたらすだろう。 OpenAI、Anthropic、Google の収益予測は実際には「かなり保守的」です。
- METR データなどから推定すると、来年には、モデルはあらゆるタスクを単独で処理できるようになります。タスクの長さは、人間がモデルのチームを監督し、それぞれが一度に何時間も自律的に動作する能力を解き放つため、重要です (フィードバックを与えるために 10 分ごとにエージェントと話さなければなりません)。
- AIモデルをトレーニングするための現在のアプローチ(事前トレーニング、RL)は、生産性の面で基本的に私たちが関心を持つすべてのタスクで、ほぼ人間のレベルで実行できるシステムを生み出す可能性が「非常に高い」です。
- 37 手中: 「これらのモデルが斬新なことができることは明らかだと思います。」 AlphaCodeとAlphaTensorは「新しいプログラムやアルゴリズムを発見できることを証明した」。 AI はすでに「絶対に斬新なものを発見している」としており、「AI が独自に発見できるものがどれほど印象的で興味深いかの規模を上げているだけです。」
- 来年中に、人々が満場一致で非常に印象的であることに同意するいくつかの発見がある可能性が高いです。
- AIは、2027年または2028年にノーベル賞にふさわしいブレークスルーを自力で行うことができるでしょう。
- AIの開発を加速させるAIの能力について:多くの科学分野で非常に一般的な問題は、分野が進歩するにつれて進歩することがますます困難になることです(つまり、100年前には、一人の科学者が偶然に最初の抗生物質を発見することができましたが、現在では新薬の発見に数十億ドルかかります)。 AIの研究でも同じことが起こるかもしれません - AIは新しいAIの研究をより生産的にしますが、新しい進歩を見つけるのがますます困難になっているため、爆発的な増加は起こらないかもしれません。

Matt Turck10月24日 03:37
また指数関数的なことを理解できませんか?
ジュリアン・シュリットウィーザー (@AnthropicAI、AlphaGo Zero、MuZero) の @Mononofu 氏との会話 - Move 37、RL のスケーリング、AI のノーベル賞、AI フロンティアについて:
00:00 - コールドオープン: 「減速は見られません。」
00:32 - イントロ — ジュリアンに会う
01:09 - フロンティアラボ内部からの「指数関数的」
04:46 - 2026–2027: 終日勤務するエージェント。エキスパートレベルの幅広さ
08:58 - ベンチマークと現実: 長期的な作業、GDP-Val、ユーザー価値
10:26 - Move 37 — 実際に何が起こったのか、なぜそれが重要なのか
13:55 - 小説科学: AlphaCode/AlphaTensor → AI はいつノーベル賞を受賞しますか?
16:25 - 不連続性とスムーズな進行 (および警告サイン)
19:08 - 事前トレーニング + RL はそこに到達しますか?(AGIの議論はさておき)
20:55 - サットンの「ゼロからのRL」?ジュリアンの見解
23:03 - ジュリアンの道: Google → DeepMind → Anthropic
26:45 - AlphaGo(学習+検索)を平易な英語で
30:16 - AlphaGo Zero (ヒトデータなし)
31:00 - AlphaZero (1つのアルゴリズム:囲碁、チェス、将棋)
31:46 - MuZero (学習した世界モデルで計画)
33:23 -今日のエージェントのための教訓:大規模な検索+学習
34:57 - LLM には暗黙的な世界モデルがすでにありますか?
39:02 - LLM での RL に時間がかかった理由 (安定性、フィードバック ループ)
41:43 - RL のコンピューティングとスケーリング — これまでに見てきたもの
42:35 - 報酬フロンティア: 人間の設定、ルーブリック、RLVR、プロセス報酬
44:36 - RLトレーニングデータと「フライホイール」(および品質が重要な理由)
48:02 - RL とエージェント 101 — RL が堅牢性を解き放つ理由
50:51 - ビルダーはサービスとしてのRLを使用する必要がありますか?それともツール+プロンプトだけですか?
52:18 - 信頼できるエージェントに欠けているもの (機能とエンジニアリング)
53:51 - 評価とグッドハート — 内部ベンチマークと外部ベンチマーク
57:35 - メカニズムの解釈可能性と「ゴールデンゲートクロード」
1:00:03 - Anthropicの安全性とアライメント - 実際にどのように現れるか
1:03:48 - 仕事: 人間と AI の相補性 (比較優位)
1:06:33 - 不平等、政策、および10×生産性→豊かさのケース
1:09:24 - 閉じた考え
203.05K
OpenAI CISO の声明 re: Atlas における迅速な注入リスクの軽減

DANΞ10月23日 00:40
昨日、新しいWebブラウザであるChatGPT Atlasをリリースしました。Atlas では、ChatGPT エージェントがあなたの代わりに物事を成し遂げることができます。この機能によって、人々の仕事や日常生活がどのように効率的かつ効果的になるかを見るのが楽しみです。
ChatGPT エージェントは強力で便利で、安全になるように設計されていますが、間違った製品を購入しようとしたり、重要なアクションを実行する前にチェックインを忘れたりするなど、(時には驚くべき)間違いを犯す可能性があります。
私たちが非常に慎重に調査し、軽減している新たなリスクの1つは、攻撃者がWebサイト、電子メール、またはその他のソースに悪意のある指示を隠して、エージェントをだまして意図しない方法で行動させようとするプロンプトインジェクションです。攻撃者の目的は、買い物中にエージェントの意見を偏らせようとするような単純なものから、攻撃者がエージェントに電子メールの機密情報や資格情報などの個人データを取得して漏洩させようとするような結果的なものまであります。
私たちの長期的な目標は、最も有能で信頼でき、セキュリティを意識した同僚や友人を信頼するのと同じように、ChatGPT エージェントがブラウザを使用できるようになることです。私たちはそれを達成するために一生懸命取り組んでいます。今回のリリースでは、広範なレッドチームを実施し、悪意のある指示を無視したモデルに報酬を与える新しいモデルトレーニング手法を実装し、重複するガードレールと安全対策を実装し、そのような攻撃を検出してブロックするための新しいシステムを追加しました。しかし、プロンプトインジェクションは依然としてフロンティアの未解決のセキュリティ問題であり、攻撃者はChatGPTエージェントをこれらの攻撃に陥らせる方法を見つけるために多大な時間とリソースを費やすでしょう。
ユーザーを保護し、これらの攻撃に対するモデルの改善を支援するため:
1. ブロック攻撃キャンペーンに気付いたときに迅速に特定できるように、迅速な対応システムを優先しました。
2. また、セキュリティ、プライバシー、安全性にも多額の投資を続けており、モデルの堅牢性を向上させるための研究、セキュリティモニター、インフラストラクチャのセキュリティ制御、および多層防御によるこれらの攻撃を防ぐのに役立つその他の技術が含まれています。
3. Atlasは、自分自身を守るためのコントロールを提供するように設計されています。ChatGPT エージェントがユーザーに代わってアクションを実行できるようにする機能を追加しましたが、資格情報にはアクセスできませんが、ログアウト モード (ログアウト モード) と呼ばれる機能が追加されました。アカウント内でアクションを実行する必要がない場合に、このモードをお勧めします。現在では、「ログインモード」は、プロンプトインジェクションのリスクが低い、非常に信頼できるサイトでのスコープが広いアクションに最も適していると考えています。一般的に、ショッピングカートに材料を追加するように依頼する方が、「メールを確認して、必要なアクションを実行してください」などの広範または漠然としたリクエストよりも安全です。
4. エージェントが機密性の高いサイトで操作している場合、サイトの機密性を警告し、エージェントが作業を行うのを監視するためにタブをアクティブにする必要がある「ウォッチモード」も実装されています。機密情報を含むタブから離れると、エージェントは一時停止します。これにより、エージェントが実行しているエージェントのアクションを常に認識し、制御することができます。
今後、ChatGPT エージェントが個人と企業の両方のワークフローで安全かつ確実に動作できるように、機能、ガードレール、安全制御を追加する予定です。
新しいレベルのインテリジェンスと能力には、テクノロジー、社会、リスク軽減戦略が共進化する必要があります。そして、2000年代初頭のコンピュータウイルスと同様に、プロンプトインジェクション攻撃について考えることも含めて、責任ある使用法を誰もが理解し、このテクノロジーから安全に恩恵を受ける方法を学ぶことが重要だと考えています。
私たちは、ChatGPT エージェントが Atlas のワークフローをどのように強化するかを見ることに興奮しており、全人類の利益のために最も安全でプライベートで安全な AI テクノロジーを構築するという使命を断固として実行しています。
37.6K
トップ
ランキング
お気に入り


