トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
建物@EurekaLabsAI。以前は AI のディレクター @ テスラ、創設チーム @ OpenAI、CS231n/PhD @ スタンフォード大学。私は大きなディープニューラルネットを訓練するのが好きです。
私は新しいDeepSeek-OCR論文がとても気に入っています。これは優れたOCRモデルであり(ドットよりも少し悪いかもしれません)、データ収集などもありますが、とにかくそれは問題ではありません。
私にとってより興味深い部分(特に、一時的に自然言語の人になりすます、根っからのコンピュータービジョンとして)は、ピクセルがテキストよりもLLMへのより良い入力であるかどうかです。テキストトークンが無駄でひどいものであるかどうかは、入力で。
LLM へのすべての入力は画像のみであるべきであるという方が理にかなっているかもしれません。たまたま純粋なテキスト入力がある場合でも、それをレンダリングしてからフィードしたいと思うかもしれません。
- より多くの情報圧縮 (論文を参照) = > コンテキストウィンドウが短くなり、効率が向上します
- より一般的な情報ストリーム=>テキストだけでなく、太字のテキスト、色付きのテキスト、任意の画像など。
- 入力は、自己回帰アテンションではなく、デフォルトで双方向のアテンションで簡単に処理できるようになりました。
- トークナイザーを削除(入力時)!!私はすでにトークナイザーがどれほど嫌いかについて暴言を吐いていました。トークナイザーは醜く、別個であり、エンドツーエンドの段階ではありません。Unicode、バイトエンコーディングのすべての醜さを「インポート」し、多くの歴史的荷物、セキュリティ/脱獄リスク(継続バイトなど)を継承します。目と同じように見える 2 つのキャラクターを、ネットワーク内部では 2 つのまったく異なるトークンとして見せます。笑顔の絵文字は奇妙なトークンのように見えますが、...実際の笑顔、ピクセルなど、そしてそれに伴う転移学習のすべて。トークナイザーは行かなければなりません。
OCRは、多くの便利なビジョン>テキストタスクの1つにすぎません。また、テキスト > テキスト タスクは、ビジョン >テキスト タスクにすることができます。その逆はできません。
ユーザーメッセージの多くは画像ですが、デコーダー(アシスタントの応答)はテキストのままです。ピクセルをリアルに出力する方法は、あまり明らかではありません...または、必要に応じて。
今、私はまた、画像入力のみのバージョンのnanochatをサイドクエストしたいという衝動と戦わなければなりません...

vLLM10月20日 19:31
🚀 DeepSeek-OCR は、LLM の光コンテキスト圧縮を模索している @deepseek_ai の OCR の新しいフロンティアであり、vLLM ⚡ 上で驚異的な速度で実行されています (A100-40G では ~2500 トークン/秒) — vllm==0.8.5 を搭載しています。
🧠 視覚的なコンテキストを最大 20× 圧縮し、97% の OCR 精度を <10× に維持します。
📄 OmniDocBenchでGOT-OCR2.0とMinerU2.0を上回り、より少ないビジョントークンを使用します。
🤝 vLLM チームは DeepSeek と協力して、公式の DeepSeek-OCR サポートを次の vLLM リリースに導入し、マルチモーダル推論をさらに高速かつ簡単に拡張できるようにしています。
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2.7M
先週ドワーケシュに来ることができてうれしく思いますが、質問と会話は本当に良かったと思いました。
さっきポッドも見直しました。まず第一に、はい、私は知っています、そして私があまりにも早口で話して申し訳ありません:)。時々、私の話し方のスレッドが私の思考のスレッドを上回っているので、いくつかの説明を失敗させたと思うので、それは私にとって不利益です。とにかく、いくつかのメモ/ポインタ:
AGI タイムライン。AGI のタイムラインに関する私のコメントは、初期の対応の中で最もトレンドになっているようです。これは「エージェントの10年」は、この以前のツイートへの言及です。基本的に、私のAIタイムラインは、近所のSF AIホームパーティーやツイッターのタイムラインで見られるような悲観的な5〜10倍ですが、AI否定論者や懐疑論者の潮流が高まっているため、それでもかなり楽観的です。明らかな矛盾はそうではありません:同時に、1)近年LLMで大きな進歩が見られましたが、2)まだ多くの仕事が残っています(うなり声を上げる作業、統合作業、物理世界へのセンサーとアクチュエーター、社会的な作業、安全とセキュリティの作業(脱獄、中毒など))そして、任意の仕事に人よりも雇いたい事業体を持つ前に、やるべき研究も必要です。世界。全体として、10年はAGIにとって非常に強気なタイムラインになるはずだと思いますが、現在の誇大宣伝とは対照的に、そのようには感じられません。
動物対幽霊。サットンのポッドキャストに関する私の以前の記事。私は、世界に解放できる単一の単純なアルゴリズムがあり、それがすべてをゼロから学習することに疑問を抱いています。誰かがそのようなものを構築したら、私は間違っているでしょうし、それは AI における最も信じられないほどのブレークスルーとなるでしょう。私の考えでは、動物はこの例ではありません - 彼らは進化によって大量の知性を事前にパッケージ化されており、彼らが行う学習は全体的に非常に最小限です(例:出生時のシマウマ)。エンジニアリングの帽子をかぶって、進化をやり直すつもりはありません。しかし、LLMでは、進化ではなく、インターネット上で次のトークンを予測することによって、大量のインテリジェンスをニューラルネットワークに「プレパッケージ化」する代替アプローチにつまずきました。このアプローチは、諜報機関の分野で異なる種類の実体につながります。動物とは異なり、幽霊や精霊に似ています。しかし、時間の経過とともに動物らしくすることはできます(そしてそうすべきです)、ある意味ではそれが多くのフロンティアの仕事です。
RLで。私はすでに何度かRLを批判しています。 .まず、あなたは「ストローを通して監視を吸っている」ので、シグナル/フロップは非常に悪いと思います。また、RLは、補完時に(たまたま正しい答えにつまずいた場合)励まされる可能性のある多くのエラーと、逆に落胆する可能性のある素晴らしい洞察トークン(後で失敗した場合)があるため、非常にうるさいです。プロセス監督とLLMジャッジにも問題があります。代替学習パラダイムが見られると思います。私は「エージェントインタラクション」を長く、短い「強化学習」を短くしています最近、私が「システムプロンプト学習」と呼んだものに沿って正しい木を吠えている論文が数多く現れているのを見てきましたが、arxivのアイデアと、一般的な方法で機能するLLMフロンティアラボでの実際の大規模実装との間にはギャップもあると思います。私は全体的に、残された作業のこの次元ですぐに良い進歩が見られるだろうと非常に楽観的であり、たとえば、ChatGPT メモリなどは、新しい学習パラダイムの原始的な展開例であるとさえ言えます。
認知コア。「認知コア」に関する私の以前の投稿: LLM を削ぎ落とし、暗記を難しくするか、積極的に記憶を剥ぎ取って一般化をより上手にするという考えです。そうしないと、暗記したことに頼りすぎてしまいます。人間はそう簡単には覚えることができませんが、対照的に、それは今ではバグというよりも特徴のように見えます。暗記できないのは一種の正規化なのかもしれません。また、モデルサイズの傾向がいかに「後ろ向き」であるか、そしてなぜ「モデルが小さくなる前にまず大きくならなければならない」のかについての私の少し前の投稿
1989年のヤン・ルクンへのタイムトラベル。これは、私がポッドで説明するのに非常に性急で下手な仕事をした投稿です。基本的に、33年間のアルゴリズムの進歩の知識で、Yann LeCunの結果をどれだけ改善できますか?アルゴリズム、データ、コンピューティングのそれぞれによって結果はどの程度制約されていましたか?そこのケーススタディ。
nanochat です。ChatGPT トレーニング/推論パイプラインのエンドツーエンドの実装 (必要最低限の要点)
LLM エージェントについて。業界に対する私の批判は、現在の能力に対する工具のオーバーシュートにあります。私は、LLMとコラボレーションしたいと考え、長所と短所が一致する中間の世界に住んでいます。この業界は、完全に自律的なエンティティが並行して協力してすべてのコードを記述し、人間が役に立たない未来に生きています。たとえば、20 分間停止して 1,000 行のコードが戻ってくるエージェントは望ましくありません。確かに、そのうちの10人からなるチームを監督する準備ができていないと感じています。LLMが書いているコードを説明してくれるような、頭の中に残せるチャンクにまとめてみたいと思います。私はそれがしたことが正しいことを私に証明したい、私はそれがAPIドキュメントをプルして、それが物事を正しく使用したことを私に示したいのです。思い込みを減らして、何か確信が持てないときに私に尋ねたり協力したりしてほしいです。私はその過程で学び、プログラマーとしてより良くなりたいと思っています。ツールは、その機能や今日の業界にどのように適合するかを考慮すると、より現実的であるべきだと思いますが、これがうまく行われなければ、ソフトウェア全体にスロップが山のように蓄積され、脆弱性やセキュリティ侵害などが増加するのではないかと心配しています。
ジョブの自動化。放射線科医がどのようにうまくやっているのか、どの仕事が自動化の影響を受けやすいのか、そしてその理由。
物理学。子供たちは、物理学を続けるからではなく、脳を最もよく刺激する科目であるため、早期教育で物理学を学ぶ必要があります。物理学者は知的胚性幹細胞です ~1 年間、下書きに半分書かれた長い投稿があり、すぐに完成させたいと考えています。
私を呼んでくれたドワーケシュに改めて感謝します!

Dwarkesh Patel10月18日 01:16
@karpathyインタビュー
0:00:00 – AGI はまだ 10 年先です
0:30:33 – LLM 認知障害
0:40:53 – RLはひどい
0:50:26 – 人間はどのように学習するのでしょうか?
1:07:13 – AGIは2%のGDP成長率に溶け込む
1:18:24 – アシ
1:33:38 – 知性と文化の進化
1:43:43 - 自動運転に時間がかかった理由
1:57:08 - 教育の未来
YouTube、Apple Podcasts、Spotify などで Dwarkesh Podcast を検索してください。お楽しみください!
3.36M
トップ
ランキング
お気に入り