分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Jeffrey Emanuel

DeepSeekは、かなり衝撃的な新しい論文を発表したばかりです。彼らは、単に DeepSeek OCR と呼んで、ここに lede を埋めました。これは非常に強力なOCRモデルですが、その目的とそのアプローチの意味は、「さらに別のOCRモデル」に期待されるものをはるかに超えています。従来、ビジョン LLM トークンは、LLM パラダイムの後付けまたは「ボルトオン」のように思えました。また、マルチモーダルLLMでは、10k単語の英語は、トークンとして表現した場合よりも、理解可能なピクセルとして表現した場合にはるかに多くのスペースを占有します。したがって、これらの 10k 単語は 15k トークン、または 30k から 60k の「ビジュアルトークン」に変わった可能性があります。したがって、ビジョントークンは効率がはるかに低く、言葉で効果的に伝えることができないデータにのみ使用するのに意味がありました。しかし、それは今、この論文のアイデアから逆転しています。DeepSeekは、ビジョントークンを使用してテキストトークンを使用する場合よりも10倍優れた圧縮を得る方法を見つけ出しました。したがって、理論的には、これらの 10k 単語を、特別な圧縮されたビジュアルトークンのわずか 1,500 個に保存できます。これは、自分の心がどのように機能するかを考えれば、思ったほど予想外ではないかもしれません。結局のところ、すでに読んだ本の一部を探すときは、それを視覚的に想像し、それが本のどちら側にあり、ページのおおよそのどこにあったかを常に覚えており、これはある種の視覚的記憶表現が働いていることを示唆しています。現在、これが LLM の他の下流の認知機能とどのように相互作用するかは明らかではありません。モデルは、通常のテキストトークンを使用するのと同じくらい、圧縮されたビジュアルトークンをインテリジェントに推論できますか?モデルをより視覚指向のモダリティに強制することで、モデルの明確さが低下するのでしょうか? しかし、正確なトレードオフによっては、有効なコンテキストサイズを大幅に拡張するための非常にエキサイティングな新しい軸になる可能性があることは想像できます。特に、数週間前のDeepSeekの別の最近の論文と組み合わせると、まばらな注目度が高まらいです。私たちが知っている限り、Google はすでにこのようなことを理解できた可能性があり、Gemini がこれほど巨大なコンテキストサイズを持ち、OCR タスクが非常に優れて高速である理由を説明できる可能性があります。もしそうなら、重要な企業秘密とみなされるので、おそらく言わないでしょう。しかし、DeepSeekの良いところは、すべてをオープンソースとオープンウェイトにし、その方法を説明しているので、誰もが試して探索できることです。たとえこれらのトリックが注目の損失を増したとしても、1,000 万または 2,000 万トークンのコンテキストウィンドウを備えたフロンティア LLM を取得できる可能性は非常にエキサイティングです。基本的に、企業の主要な内部文書をすべてプロンプトの前文に詰め込み、これを OpenAI でキャッシュし、その上に特定のクエリやプロンプトを追加するだけで、検索ツールを扱う必要がなく、高速でコスト効率の高いものにすることができます。または、コードベース全体をコンテキストに入れてキャッシュし、コードに変更を加えるときにgit diffsに相当するものを追加し続けるだけです。偉大な物理学者ハンス・ベテの話を読んだことがある人なら、彼は膨大な量のランダムな物理的事実(周期表全体、さまざまな物質の沸点など)を暗記していることで知られており、参照表で何かを調べるために流れを中断することなく、シームレスに考え、計算することができます。作業記憶にタスク固有の膨大な量の知識があることは、非常に役立ちます。これは、メモリバンクを10倍以上拡張する可能性を秘めた非常に賢く、付加的なアプローチのように思えます。

トップ

ランキング

お気に入り