商汤科技近日宣布推出并开源日日新SenseNova U1系列原生理解生成统一模型,该模型基于今年3月自主研发的NEO-unify架构,首次在单一架构中实现了多模态理解、推理与生成的深度融合。这一突破性技术通过统一表征空间的设计,使图像与语言信息能够直接协同处理,显著提升了多模态任务的执行效率与生成质量。
传统多模态模型通常采用拼接式架构,将视觉编码器与语言处理模块通过适配器连接,如同不同语言的工作组协作完成任务。这种模式存在信息传递损耗大、效率低的问题,往往需要扩大模型规模来弥补性能不足。而SenseNova U1系列通过原生统一架构,将图像与语言视为同一表征空间中的复合信息,实现了"一个大脑"直接理解与生成,减少了中间转译环节,信息流转效率提升显著。
此次开源的轻量版SenseNova U1 Lite包含两个规格:基于稠密骨干网络的8B-MoT模型与混合专家骨干网络的A3B-MoT模型。在图像理解、生成编辑、空间推理等基准测试中,该系列模型达到同量级开源模型的领先水平,其中8B-MoT规格在部分任务中甚至超越了大型商业闭源模型。特别是在复杂信息图生成任务中,模型展现出对排版布局与文字控制的商业级水准,推理响应速度较同类产品提升明显。
NEO-unify架构的创新性体现在彻底摒弃拼接式设计,通过构建统一的表征空间并融入每一层计算,实现了从模态集成到原生统一的范式转变。这种架构使SenseNova U1成为业内首个支持连续性图文创作输出的模型,仅需单次调用即可生成高质量图文内容。例如在生成牛排菜谱时,模型可自动规划步骤并生成一致性极强的配套图示;在钢铁侠图案创作中,能从草稿逐步优化,保持每一步的结构细节连贯性。
该系列模型已在GitHub、Hugging Face等平台开源,并计划上线办公小浣熊体验系统。技术文档显示,SenseNova U1通过共享上下文机制,天然保留了图像与文本的底层融合信号,这种原生多模态能力为机器人具身智能发展提供了新路径。未来商汤将推出更大参数规模的版本,有望在降低计算成本的同时达到国际顶尖模型性能。