智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

字节开源视频新框架Bernini:多模态规划+Diffusion渲染,AI视频编辑精准可控再升级

2026-06-02来源:天脉网编辑:瑞雪

在视频生成领域,创作者们长期面临一个棘手难题:模型难以精准理解人类意图。当用户要求将晴天画面转为雪景时,系统可能仅在画面上机械添加雪花;尝试将动画嵌入商场LED屏时,又会出现边界扭曲、透视错乱等问题。这种"听懂话却做不对事"的困境,正在被字节跳动商业化技术团队推出的开源框架Bernini打破。

这个采用"先理解后生成"策略的创新框架,通过多模态大模型与扩散模型的分工协作,实现了视频生成与编辑的精准控制。其核心架构包含两大模块:基于多模态大模型的规划器(MLLM-based planner)负责解析文本指令、分析源素材并规划目标画面,扩散变换器渲染器(DiT-based renderer)则将语义规划转化为高质量视频。这种分工模式使系统能同时处理参考生成、视频编辑等复杂任务,在保持帧间一致性的同时实现风格迁移、主体替换等精细操作。

在天气变换测试中,系统展现了对环境要素的深度理解能力。当用户指令将城市航拍从晴天转为雨天时,模型不仅调整了天空色调,还同步修改了路面反光、建筑湿润度等细节,使天气变化自然融入原始场景。更令人印象深刻的是三维空间处理能力——在视角编辑任务中,系统能准确把握场景深度关系,确保镜头移动时建筑轮廓符合透视原理,避免出现结构扭曲。

针对视频编辑中的动作连贯性难题,研发团队设计了专门的解决方案。在棕熊视频测试中,系统在保持环境光照和镜头关系稳定的前提下,成功实现了从静卧到起舞的动作转换。这种突破得益于渲染器对源视频VAE特征的巧妙运用,既能保留非编辑区域细节,又能确保主体动作自然嵌入原有画面。测试数据显示,在复杂动作编辑场景中,系统能将主体变形率降低至3%以下,动作断裂现象减少92%。

参考素材处理能力是该系统的另一大亮点。在材质替换测试中,系统能根据布料、金属等参考图,精准修改盘子表面纹理,并确保材质特征随物体移动保持稳定。风格迁移功能支持跨维度视觉转换,可将水墨、赛博朋克等不同风格特征完整迁移至动态视频,同时保留原始主体运动轨迹。特别值得关注的是图像植入功能,当测试人员将油画图片嵌入街头招牌时,系统自动处理了光照反射、边缘融合等细节,使植入画面与实拍场景浑然一体。

技术实现层面,研发团队创新性地引入Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)机制。该技术通过为不同视觉片段添加唯一标识符,有效解决了多参考素材混合处理时的时空坐标混淆问题。在自建的Arena评测体系中,Bernini框架在视频一致性、语义理解准确度等核心指标上,已达到国际主流闭源模型水平,部分场景表现甚至更优。

目前,Bernini-R版本已开源,完整包含MLLM Planner的升级版本正在进行代码整理,预计近期开放下载。这个允许创作者使用自有素材进行视频生成的系统,正在重新定义AI辅助创作的边界——从被动响应指令到主动理解创作意图,从生成单帧美图到打造连贯视觉叙事,技术进步正在让视频创作摆脱"开盲盒"式的随机性,向着精准可控的方向稳步迈进。

苹果iOS 27或推账单分摊新功能,iPhone拍照即分账聚餐更便捷
IT之家援引博文介绍,用户用 iPhone 对准纸质收据拍照后,系统会读取账单内容,并允许用户把不同菜品或项目分给不同联系人。从竞争角度看,这会让 Apple 进入 Venmo、Cash App、Split…

2026-06-02

消息称iPhone 18 Pro电池升级:国行版约4056mAh,美版更大且硬件全面革新
PChome 6月2日消息,今日,博主@数码闲聊站发文,透露苹果iPhone 18Pro国行版打样电池容量约4056mAh,美版打样电池容量约4288mAh。 据悉,该博主还表示,苹果iPhone 18 P…

2026-06-02

折叠屏iPhone Fold本月25日量产在即 高端市场或迎新变局售价创新高
快科技6月2日消息,据数码博主最新爆料,苹果旗下首款折叠屏iPhoneFold将于6月25日正式进入量产阶段,此前跳票多次的研发推进终于落地,距离正式和全球消费者见面的时间已经越来越近。 目前这款未官宣的工…

2026-06-02

爆料来袭!小米REDMI K100系列子系8E5迭代机配置强大,亮点十足
IT之家 6 月 2 日消息,博主 @数码闲聊站 今日爆料了某厂一款子系 8E5 迭代机的配置: 独家信息,子系 8E5超高清超高刷大屏迭代机,200Mp 大底主摄,一颗望远取向的 50Mp 潜望长焦,同…

2026-06-02

JetBrains发布开源Mellum2模型:参数升级至12B 助力软件工程AI编程新突破
IT之家 6 月 2 日消息,JetBrains 昨日(6 月 1 日)发布博文,宣布开源 Mellum2模型,这是面向软件工程系统的新机器学习模型。 参数上,Mellum2 总规模为 12B,高于 Mel…

2026-06-02

苹果WWDC前夕爆料:Siri将推独立App,大模型赋能开启全场景服务新篇
来源:环球网 据彭博社等外媒披露,新版Siri跳出过往弹窗唤醒形态,转型为对标ChatGPT的通用对话 AI,打通系统底层权限,可调用手机本地短信、相册、日程、文档等全量个人数据,结合联网搜索实现全场景服务…

2026-06-02

扣子3.0三端全量更新:AI团队协作新架构 多端协同开启工作新体验
扣子3.0提出了AI团队协作方式的全新架构,Agent可以被创建、接入和随时调度,扣子的网页端、桌面端和手机App端,则让Agent有机会与用户的文件、本地设备和工作场景接通。 扣子3.0支持接入本地Agen…

2026-06-02

华为WATCH GT Runner 2赛道传奇款来袭!与基普乔格联手,6月1日正式发布
作为华为运动手表系列的旗舰产品,GT Runner 2 延续了专业运动基因。 续航方面,GT Runner 系列向来表现出色,预计 GTRunner 2 在典型使用模式下仍可维持 2 周以上的续航,GPS …

2026-06-02

小米17 Max与Pro Max差500元咋选?看需求选“实用派”还是“科技影像控”
很多人一开始会觉得这是“炫技”,但真正用起来会发现很实用——后置自拍时可以直接看预览,拍Vlog时能实时确认画面,甚至平时还能显示通知和快捷功能,科技感一下就出来了。小米17 Max更像“可靠型选手”,它把…

2026-06-02