分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

この「ピクセル対トークン」を「音声対テキスト」にも拡張できないのだろうか。これまでに話されたほとんどの言語には、書き言葉がありません。非常に多くの豊富な情報(口調、サブテキスト、韻律)は、話し言葉を平坦化してトランスクリプトにすると失われます。「読み書きができる」LLM(テキストの画像でトレーニングされた)と「口頭」LLM(生の音声でトレーニングされた)を比較して、人間社会との類似点を描くのは楽しい実験かもしれません。

私は新しいDeepSeek-OCR論文がとても気に入っています。これは優れたOCRモデルであり(ドットよりも少し悪いかもしれません)、データ収集などもありますが、とにかくそれは問題ではありません。私にとってより興味深い部分(特に、一時的に自然言語の人になりすます、根っからのコンピュータービジョンとして)は、ピクセルがテキストよりもLLMへのより良い入力であるかどうかです。テキストトークンが無駄でひどいものであるかどうかは、入力で。 LLM へのすべての入力は画像のみであるべきであるという方が理にかなっているかもしれません。たまたま純粋なテキスト入力がある場合でも、それをレンダリングしてからフィードしたいと思うかもしれません。 - より多くの情報圧縮 (論文を参照) = > コンテキストウィンドウが短くなり、効率が向上します - より一般的な情報ストリーム=>テキストだけでなく、太字のテキスト、色付きのテキスト、任意の画像など。 - 入力は、自己回帰アテンションではなく、デフォルトで双方向のアテンションで簡単に処理できるようになりました。 - トークナイザーを削除(入力時)!!私はすでにトークナイザーがどれほど嫌いかについて暴言を吐いていました。トークナイザーは醜く、別個であり、エンドツーエンドの段階ではありません。Unicode、バイトエンコーディングのすべての醜さを「インポート」し、多くの歴史的荷物、セキュリティ/脱獄リスク(継続バイトなど)を継承します。目と同じように見える 2 つのキャラクターを、ネットワーク内部では 2 つのまったく異なるトークンとして見せます。笑顔の絵文字は奇妙なトークンのように見えますが、...実際の笑顔、ピクセルなど、そしてそれに伴う転移学習のすべて。トークナイザーは行かなければなりません。 OCRは、多くの便利なビジョン>テキストタスクの1つにすぎません。また、テキスト > テキストタスクは、ビジョン >テキストタスクにすることができます。その逆はできません。ユーザーメッセージの多くは画像ですが、デコーダー(アシスタントの応答)はテキストのままです。ピクセルをリアルに出力する方法は、あまり明らかではありません...または、必要に応じて。今、私はまた、画像入力のみのバージョンのnanochatをサイドクエストしたいという衝動と戦わなければなりません...

石でモニュメントを建てる文明と、歌でモニュメントを建てる文明のゲームになります

もうひとつ思い浮かぶのは、シェリーの『オジマンディアス』、砂に埋もれた巨大な遺物ですが、このイメージは詩人自身の目を通してではなく、旅人の口承物語を通して伝えられています。

8.03K

トップ

ランキング

お気に入り