このモデルをトレーニングして、フレームのキャプション、ラベル付け、ビデオ検索の単位経済性を反転させました。 1B フレームの処理には、以前は数百万ドル程度の費用がかかりましたが、現在では大企業ではないチームでも実行可能です。 これにより、以前はクリップの検索、分類、抽出が不可能だったペタバイト+スケールのビデオライブラリが解き放たれます。 このモデルは、@grass と提携して、すでにインターネット規模で展開されています。 このモデル撮影のユースケースがある場合は、dmを使用してください。私たちは非常に速く動きます。
Inference
Inference8月15日 02:02
ClipTagger-12bのご紹介です。 @grassと共同でトレーニングされた最先端のビデオアノテーションモデル。 ClipTagger-12bは、Claude 4やGPT-4.1と同等の動画注釈機能を17倍の低コストで提供します。 詳細情報:
4.99K