智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 游戏机

智源发布Emu3:图像文本视频大一统,多模态世界新突破!

2024-10-22来源:ITBEAR编辑:瑞雪

智源研究院近期推出了全新的原生多模态世界模型——Emu3,该模型在文本、图像及视频的理解与生成领域实现了显著突破。Emu3的创新之处在于,它仅需基于下一个token的预测,便能高效处理三种模态数据,无需依赖扩散模型或组合方法。

在图像生成方面,Emu3的性能超越了SD-1.5与SDXL模型;在视觉语言理解上,它则优于LlaVA-1.6;而在视频生成领域,Emu3的表现同样出色,超过了OpenSora 1.2。Emu3还具备强大的视觉tokenizer功能,能将视频和图像转换为离散token,与文本tokenizer输出的token共同送入模型处理。

研究表明,通过将复杂的多模态设计简化为token本身,Emu3在大规模训练和推理中展现出了巨大的潜力。目前,Emu3的关键技术和模型已经开源,项目页面也已正式上线。

对于研究人员而言,Emu3提供了一个统一的研究范式,值得深入探索。

中汽协发布:前9月前十车企销量破1800万,市占率超八成
10月22日消息,据中国汽车工业协会统计分析,2024年1—9月,汽车销量排名前十位的企业(集团)共销售1824.1万辆,占汽车销售总量的84.6%。在上述十家企业中,与上年同期相比,上汽集团、中国一…

2024-10-22

杨笠幽默直击:男生沉迷电子设备,竟是最便宜快乐源?
此外,韩路还指出社交媒体上常常渲染一种氛围:买个游戏机或显卡仿佛需要偷偷摸摸,担心别人知道。这一决定让许多人松了一口气。杨笠的吐槽视频引发了人们对于电子设备与科技发展的思考。购买电子产品的确是一种消费选择,但…

2024-10-22