谷歌近日宣布推出一款名为DiffusionGemma的开放AI模型,该模型基于文本扩散机制构建,在本地推理场景中展现出显著的速度优势。相较于传统自回归模型,DiffusionGemma的推理效率提升达4倍,这一突破主要得益于其独特的并行处理架构。
传统自回归模型(如GPT系列)采用从左到右逐个生成token的方式,在云端批处理场景中效率较高,但在本地设备上受内存带宽限制,常出现计算资源浪费。而扩散模型通过从噪声中逐步去噪的机制,能够同时处理所有token并持续优化输出质量,这种并行计算特性使其在低带宽环境下表现尤为突出。DiffusionGemma正是将这种优势与Gemma系列模型的技术积累相结合,实现了推理效率的质的飞跃。
在开源策略上,谷歌选择采用Apache 2.0许可证开放模型权重,用户可通过Hugging Face平台直接下载使用。尽管推理效率显著提升,该模型在核心能力上仍保持与Gemma 4系列相当的水平,同时通过迭代优化机制实现了更稳定的输出质量。测试数据显示,其采样速度达到每秒1479个token,响应延迟仅0.84秒。
性能评估显示,DiffusionGemma在代码生成领域表现突出:LiveCodeBench得分30.9%,BigCodeBench得分45.4%,Humaneval得分89.6%,与Gemini 2.0 Flash-Lite形成有力竞争。数学推理能力更是成为亮点,在AIME 2025测试中取得23.3%的成绩,超越对比模型的20.0%,验证了扩散架构在复杂推理任务中的潜力。
不过该模型在部分领域仍存在提升空间。科学推理测试GPQA Diamond得分40.4%,低于对比模型的56.5%;BIG-Bench Extra Hard推理测试得分15.0%,也落后于21.0%的行业水平。这些数据表明,尽管扩散架构在特定场景具有优势,但在综合推理能力上仍需持续优化。
硬件适配方面,英伟达官方测试证实,DiffusionGemma的扩散设计能充分释放Tensor Core的并行计算潜力。在单块H100 GPU上,该模型实现每秒1000个token的生成速度;DGX Spark平台达到每秒150个token;DGX Station更突破至每秒2000个token,约为同等条件下自回归模型的4倍。这种硬件加速效果为本地化AI应用提供了新的技术路径。


