智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

阿里智能引擎团队突破AI生图速度极限:2步生成2K高清图,5秒即现四张佳作

2026-01-30来源:天脉网编辑:瑞雪

在AI图像生成领域,扩散模型因其出色的生成效果备受关注,但传统模型生成速度慢的问题一直困扰着用户。如今,阿里智能引擎团队带来了一项重大突破——仅需5秒,就能生成4张2K级高清大图,将图像生成效率提升到了全新高度。

针对Qwen最新开源模型,该团队实现了SOTA压缩水平的巨大飞跃,将原本需要80 - 100步前向计算才能完成的图像生成,骤降至仅需2步,速度整整提升了40倍。以往像Qwen - Image生成一张图片需要近一分钟,现在眨眼间就能完成,大大节省了用户的时间。

这一成果的背后,是团队对传统蒸馏方案的深入研究和创新改进。早期的轨迹蒸馏方案,如Progressive Distillation和Consistency Distillation,主要思想是让蒸馏后的学生模型(student model)模仿原模型(teacher model)在多步生成的路径。但在实践中,这类方法在低迭代步数下难以实现高质量生成,生成的图像模糊,尤其是对于一些细节部分,如文字、人物五官等,因占比低而学习不充分,导致学生模型的细节出现明显扭曲。这是因为轨迹蒸馏直接对学生模型的生成样本做约束,对所有图像patch一视同仁,没有突出细节部分的重要性。

为了解决这一问题,团队将目光投向了基于概率空间的蒸馏方案。近期,这类方案在较少步数场景(4 - 8步)取得了巨大成功,其中DMD2算法最具影响力。DMD2将约束从样本空间转换到了概率空间,其Loss设计为典型的Reverse - KL蒸馏Loss。这种设计有一个显著特性:当学生模型生成的图片不符合真实图片分布时,Loss会爆炸。因此,DMD2算法的本质是让学生模型自己生成图片,然后由教师模型指导哪里不对,而不是直接告诉学生模型应该模仿什么。这种设计显著提升了生成图片的细节性和合理性,成为当下扩散步数蒸馏的主要策略。

然而,Reverse - KL也存在一些问题,如mode - collapse和分布过于锐化,具体表现为多样性降低、饱和度增加、形体增加等,在2步蒸馏的设定下这些问题尤为突出。为了缓解分布退化问题,团队使用PCM蒸馏进行模型热启动,给模型一个更合理的初始化。实验表明,热启动后的模型的形体扭曲问题得到明显改善。

虽然DMD2极大提升了方案的普适性,但它也有局限,即学生模型永远学习教师模型的生成分布,无法超越教师模型。同时,由于loss设计的问题,DMD2蒸馏在高质量细节纹理(如苔藓、动物毛发等)上生成的效果往往不尽如人意。为了增强2步学生模型在细节上的表现能力,团队引入了对抗学习(GAN)来进一步提升监督效果。

GAN的Loss包括生成Loss和判别Loss,生成Loss是让生成图骗过判别器,判别Loss是区分真假图。简单来说,对抗训练一方面需要判别器尽可能判定学生模型生成的图片为假,另一方面需要学生模型尽可能欺骗判别器。为了提升对抗训练的稳定性和效果,团队做了多项改进,如采用真实数据混合策略,按固定比例混合高质量真实数据和教师生成图,提升泛化度和训练稳定性;引入额外的DINO模型作为特征提取器,提供更鲁棒的特征表示;增加对抗训练在loss中的占比。经实验验证,增加对抗训练后,学生模型的画面质感和细节表现发生显著提升。

目前,团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台,开发者可下载体验。同时,该模型已经集成到呜哩AI平台上,支持调用。尽管在大多数场景下Wuli - Qwen - Image - Turbo能够和原模型比肩,但在一些复杂场景下,受限于去噪步数,仍存在可改进空间。团队表示,在后续的版本中将会持续发布速度更快、效果更好的生成模型,并迭代更多扩散加速技术,开源模型权重。

AMD Ryzen AI软件1.7版升级:新增模型支持,iGPU+NPU性能显著提升
IT之家 1 月 28 日消息,AMD 当地时间本月 26 日为 Ryzen AI 软件更新了 1.7 版本。该软件面向搭载 AMD 锐龙 AI处理器的 PC 平台,是一款优化和部署 AI 推理的工具和运行…

2026-01-30

iPhone 18系列参数大揭秘:A20 Pro芯片领衔,折叠屏薄至4.5mm引期待
除了常规迭代的 Pro 系列外,传闻已久的苹果首款折叠屏手机 iPhone Fold 也揭开了神秘面纱。 根据曝光的规格表,iPhone 18系列将全系搭载采用先进工艺的 A20 Pro 芯片。 影像方面,…

2026-01-30

苹果折叠屏研发“取经”OPPO,国产精密技术引领行业新风向
据知名数码博主“定焦数码”爆料,苹果首款折叠屏 iPhone 的研发进程已进入方案选定的关键期,而其选择的路径令业界侧目:苹果通过拆解并深度研究OPPO Find N5,最终决定采纳其核心铰链及多项精密结构…

2026-01-30

OPPO Find X9s Pro与X9 Ultra新机曝光:双2亿像素镜头加持长焦微距
据CNMO了解,有爆料称OPPO Find X9s Pro定位小屏旗舰机,将配备2亿像素大底主摄、5000万像素超广角镜头以及2亿像素大底潜望式长焦镜头,内置7000mAh级大电池,支持无线充电、超声波指纹…

2026-01-30

冷光流转未来感拉满 iQOO 15 Ultra「2049」配色硬核美学开箱
出自蜂鸟网-手机,原文链接:https://m.fengniao.com/slide/5381610.html 我们手中的这台iQOO 15 Ultra「2049」配色,第一眼带来的是一种冷静的科技感。它并…

2026-01-30

华为手机选购指南:从百元到高端,红黑榜助你精准避坑选好机
这样的影像配置在中高端机型中都不多见,现在二手 600 多元就能拥有,同时还具备麒麟 5G 芯片和鸿蒙系统,性价比很高。 华为 Mate 40Pro 5G 版:曾经被炒到高价的 “电子茅台”,如今二手价格落…

2026-01-30