商汤SenseNova U1开源登场：多模态融合新突破图文创作效率与质量双提升-笔记本-智能日报

商汤科技近日宣布推出并开源日日新SenseNova U1系列原生理解生成统一模型，该模型基于今年3月自主研发的NEO-unify架构，首次在单一架构中实现了多模态理解、推理与生成的深度融合。这一突破性技术通过统一表征空间的设计，使图像与语言信息能够直接协同处理，显著提升了多模态任务的执行效率与生成质量。

传统多模态模型通常采用拼接式架构，将视觉编码器与语言处理模块通过适配器连接，如同不同语言的工作组协作完成任务。这种模式存在信息传递损耗大、效率低的问题，往往需要扩大模型规模来弥补性能不足。而SenseNova U1系列通过原生统一架构，将图像与语言视为同一表征空间中的复合信息，实现了"一个大脑"直接理解与生成，减少了中间转译环节，信息流转效率提升显著。

此次开源的轻量版SenseNova U1 Lite包含两个规格：基于稠密骨干网络的8B-MoT模型与混合专家骨干网络的A3B-MoT模型。在图像理解、生成编辑、空间推理等基准测试中，该系列模型达到同量级开源模型的领先水平，其中8B-MoT规格在部分任务中甚至超越了大型商业闭源模型。特别是在复杂信息图生成任务中，模型展现出对排版布局与文字控制的商业级水准，推理响应速度较同类产品提升明显。

NEO-unify架构的创新性体现在彻底摒弃拼接式设计，通过构建统一的表征空间并融入每一层计算，实现了从模态集成到原生统一的范式转变。这种架构使SenseNova U1成为业内首个支持连续性图文创作输出的模型，仅需单次调用即可生成高质量图文内容。例如在生成牛排菜谱时，模型可自动规划步骤并生成一致性极强的配套图示；在钢铁侠图案创作中，能从草稿逐步优化，保持每一步的结构细节连贯性。

该系列模型已在GitHub、Hugging Face等平台开源，并计划上线办公小浣熊体验系统。技术文档显示，SenseNova U1通过共享上下文机制，天然保留了图像与文本的底层融合信号，这种原生多模态能力为机器人具身智能发展提供了新路径。未来商汤将推出更大参数规模的版本，有望在降低计算成本的同时达到国际顶尖模型性能。

商汤SenseNova U1开源登场：多模态融合新突破 图文创作效率与质量双提升

商汤SenseNova U1开源登场：多模态融合新突破图文创作效率与质量双提升