我们训练这个模型以改变帧字幕、标注和视频搜索的单位经济学。 处理10亿帧的成本曾经高达数百万,但现在对于那些不是最大公司的团队来说是可行的。 我们看到这将解锁PB级别的视频库,这些库之前无法搜索、分类或提取片段。 我们已经与@grass合作在互联网规模上部署了这个模型。 如果你有这个模型的使用案例,请给我们发私信。我们行动非常迅速。
Inference
Inference8月15日 02:02
介绍 ClipTagger-12b。 这是一个最先进的视频注释模型,与 @grass 合作训练。 ClipTagger-12b 提供与 Claude 4 和 GPT-4.1 相媲美的视频注释能力,成本低17倍。 了解更多:
4.4K