智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

阿里巴巴研究揭示:AI训练中极少数关键位置驱动模型性能跃升

2026-04-03来源:天脉网编辑:瑞雪

阿里巴巴集团Qwen Pilot团队在国际学习表征会议(ICLR)上发表的一项突破性研究,彻底颠覆了人们对人工智能训练过程的传统认知。该团队通过精密实验发现,在强化学习训练大语言模型时,真正推动性能提升的改变仅发生在不到2%的词汇位置,其余98%以上的训练过程几乎未产生实质性影响。这一发现犹如在AI领域投下一颗重磅炸弹,引发学界对机器学习机制本质的重新思考。

研究团队采用Jensen-Shannon散度这一数学工具,对模型训练前后的词汇选择变化进行毫米级测量。实验数据显示,在使用SimpleRL训练方法时,仅1.7%的词汇位置发生显著改变;即便采用鼓励探索的DAPO方法,这一比例也未超过7%。更令人惊讶的是,这些关键变化并非随机分布,而是呈现明显的位置偏好——约60%的实质性改进集中在文本生成的开头和结尾部分,对应着模型对整体思路的修正和结论的优化。

交叉采样实验为这项发现提供了决定性证据。研究人员将强化学习模型在关键位置的词汇选择,"移植"到基础模型的生成过程中,结果发现仅替换1.53%的词汇,就能使基础模型在数学推理测试中的准确率提升近三倍。反向实验则显示,移除同样比例的强化学习词汇选择,会导致模型性能急剧退化。这种"四两拨千斤"的现象,证明AI性能的提升高度依赖于少数关键决策点的精准调整。

深入分析揭示,强化学习的改进机制与人类学习存在深刻共鸣。模型更倾向于修改那些原本就存在不确定性的词汇选择,就像学生优先攻克难题而非重复练习已掌握的知识。但不同训练方法展现出独特策略:DAPO方法能够突破模型固有认知,对看似确定的选择进行重新评估;而SimpleRL则采取保守策略,专注于修正高风险错误。这种差异在词汇类型偏好上体现得尤为明显——功能词和推理术语更易发生改变,而数字和运算符则保持相对稳定。

研究团队通过追踪训练动态发现,模型在初始阶段会进行广泛探索,但随着训练深入,变化逐渐聚焦于越来越小的词汇子集。这种"先发散后收敛"的模式,与人类形成专业能力的过程惊人相似。更有趣的是,强化学习主要通过重新排序现有候选词汇来优化选择,而非引入全新词汇。数据显示,约90%的强化学习首选词汇,原本就排在基础模型的前三个候选位置中。

这项发现正在催生新一代训练技术。研究团队开发的散度加权优势方法,通过调节不同词汇位置的学习信号强度,在数学推理基准测试中实现了3.6%的准确率提升。这种精准干预策略,为解决AI训练中的效率瓶颈提供了全新思路。实验表明,即使只强化模型在0.1%最关键位置的学习信号,也能带来可测量的性能改善。

该研究对AI开发实践产生深远影响。传统方法需要处理数以亿计的参数更新,而新发现提示开发者可以聚焦于识别和优化那些真正影响性能的"决策枢纽"。这种转变不仅将大幅降低计算资源消耗,还能提高模型行为的可解释性——当知道哪些词汇选择决定AI表现时,开发者就能像调试精密仪器般调整模型行为。

对于普通用户而言,这项研究预示着AI产品将变得更加精准可靠。当训练过程从"广撒网"转向"精准打击",AI系统在处理复杂任务时将减少不必要的试错,输出结果的质量和一致性将显著提升。更深远的意义在于,它揭示了智能的本质不在于计算规模,而在于在关键时刻做出正确判断的能力——这个洞见或许同样适用于人类的学习与成长。

华为Pura 90系列将至:经典渐变配色重现,影像实力再升级
作为年度重点产品,该系列在延续影像优势的同时,也在外观设计上带来了颇具辨识度的变化。如今时隔多年再次回归,也被视为华为在设计语言上的一次“经典复刻”,同时结合新工艺进一步升级质感表现。据悉,Pura 90系列…

2026-04-03

荣耀X80i悄然上架!1999元起售,配置亮点多能否成中端新宠?
懂智能手机行业的朋友都知道,各手机品牌不会针对旗下所有机型都召开发布会。召开发布会的仅是重点机型而已,有些机型往往都是直接上架的。 今天给大家分享的就是一款直接上架的机型,它就是——荣耀X80i。另外荣耀80…

2026-04-03

三星S26 Ultra新机太贵?二手S25或S24性价比更高,省一半预算不妥协
结论:屏幕尺寸与分辨率相同;主摄均为2亿像素,日常画质差异极小;电池都为5,000毫安,S26在软件层面续航略优但并不显著;处理器跑分约提升10%单核、6%图形,日常体验感知有限;系统更新均享三星7年承诺,S…

2026-04-03

联想Yoga Slim 7x海外发布:骁龙芯加持,24小时续航+全C口设计成亮点
IT之家 4 月 2 日消息,联想现已在海外市场推出 Yoga Slim 7x(14Q8Y11)笔记本,搭载骁龙 X2 Elite芯片,最高可选 32GB LPDDR5X-9523 内存、70Wh 电池,最…

2026-04-03

谷歌9月起推行新规:Wear OS手表应用须支持64位,开发者需及时适配
谷歌表示,从今年 9 月开始,所有包含原生代码的 Wear OS 新应用和应用更新在发布到 Play 商店时,必须同时提供 32 位和 64位版本。 不过谷歌官方表示,32 位应用的支持政策暂时不会调整,…

2026-04-03

荣耀MagicBook Pro 14规格揭晓:超轻薄机身配长续航高性能处理器
IT之家 4 月 2 日消息,荣耀官方今天在微博发文,公布 MagicBook Pro 14 笔记本的部分规格。据介绍,这款笔记本搭载第三代英特尔酷睿 Ultra X9 处理器、3.1K 超清荣耀护眼屏,号…

2026-04-03

Vocci Ring智能戒指来袭:航天级材质加持,AI联动实现高效语音转写
IT之家 4 月 2 日消息,制造商 Gyges Labs 宣布推出一款名为 Vocci Ring 的智能戒指,号称是“全球首款 AI笔记戒指”,其内置录音功能,可联动 AI 智能体进行会议记录转写等操作,…

2026-04-03

雷军直播透露:新一代小米SU7锁单量破4万,交付目标稳步推进
IT之家 4 月 2 日消息,在今晚的雷军拆一拆新 SU7 的直播中,小米创办人、董事长兼 CEO 雷军透露,新一代 SU7 的锁单量已经超过4 万辆。 据IT之家昨日报道,小米汽车官方宣布:2026 年 …

2026-04-03