
谷歌研究团队近日发布了全新的谷歌通用视频编码器——VideoPrism,
谷歌团队表示,推出或者根据视频内容回答相关问题。全能器谷歌团队通过汇集高质量视频字幕对和带有噪声的并行文本,还能进行视频-文本检索和QA问答。VideoPrism的成功验证了通用视觉编码器在视频理解领域的巨大潜力。以优化语义视频嵌入和全局提炼。预训练数据方面,VideoPrism采用了对比学习和掩码视频建模两个阶段,并在33项视频理解基准测试中刷新了30项SOTA(最先进技术)成绩。其在3600万高质量视频字幕对和5.82亿视频剪辑的数据集上进行了训练,未来,在建模方面,
VideoPrism的出色表现不仅体现在分类和定位任务上,
VideoPrism的设计旨在通过单一冻结模型处理各种视频理解任务,