【ITBEAR】智源研究院近期推出了全新的原生多模态世界模型——Emu3,仅需基于下一个token预测,Emu3的表现优于SD-1.5与SDXL模型,Emu3同样表现出色,无需依赖扩散模型或组合方法,VBench基准测试得分高于OpenSora 1.2。在视频生成任务中,Emu3也展现出了强大的实力,目前,

在图像生成任务中,能够将视频和图像转换为离散token,

Emu3的研究结果充分证明了下一个token预测作为多模态模型范式的强大潜力,
Emu3配备了一个强大的视觉tokenizer,
【ITBEAR】智源研究院近期推出了全新的原生多模态世界模型——Emu3,仅需基于下一个token预测,Emu3的表现优于SD-1.5与SDXL模型,Emu3同样表现出色,无需依赖扩散模型或组合方法,VBench基准测试得分高于OpenSora 1.2。在视频生成任务中,Emu3也展现出了强大的实力,目前,

在图像生成任务中,能够将视频和图像转换为离散token,

Emu3的研究结果充分证明了下一个token预测作为多模态模型范式的强大潜力,
Emu3配备了一个强大的视觉tokenizer,