智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

清华大模型报告:文心一言中文理解、数学等多能力全球第一

2024-04-24来源:智能日报编辑:汪淼

由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架,正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型,结果显示:文心一言4.0中文理解、数学等多能力全球第一。

图片

评测显示,文心一言4.0表现优异,在中文推理、中文语言等评测上遥遥领先,和其他模型拉开明显差距。中文理解上,文心一言4.0领先优势明显,领先第二名GLM-4 0.41分,GPT-4系列模型表现较差,排在中下游,并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上,文心一言4.0与Claude-3并列全球第一; GPT-4系列模型位列第四五,其他模型得分在55分附近较为集中,明显落后第一梯队;而在语义理解中的阅读理解能力上,文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

在企业选择大模型最看重的安全性评测上,国内模型文心一言4.0表现亮眼,力压国际一流模型GPT-4系列模型和Claude-3拿下最高分(89.1分),Claude-3仅列第四。

奇安信“盘古石”团队攻克苹果iOS 26.1系统提权难关 可提取多应用数据
IT之家 12 月 31 日消息,据“盘古石取证”公众号,奇安信旗下“盘古石”团队宣布团队已成功突破苹果 iOS 26.1 系统提权难题,实现对Telegram 等应用的数据提取(支持范围从 iOS 17.…

2026-01-01

VGN与WPS联名V98Pro V3机械键盘来袭!复古风设计,首发389元还赠特色键帽轴体
IT之家 12 月 31 日消息,VGN 今日正式推出了 V98Pro V3 三模机械键盘的 WPS 联名版本,首发价 389 元并附赠三颗"W" "P" "S" 经典主题色联名增补键帽和对应增补轴体。 该…

2026-01-01

2025年2000元档手机怎么选?荣耀500续航影像性能全拉满成首选
Redmi K90(2599元起):骁龙8至尊版+7100mAh电池的组合性能强劲,但100W快充和2.5X长焦的加入使其偏向全能旗舰定位,游戏专项优化不及荣耀500彻底。 对于追求“性能+续航+影像”均…

2026-01-01

2025年热门AI录音笔大比拼:讯飞索尼Zoom谁更胜一筹?选对不纠结
我们将对比的产品包括科大讯飞H1 Pro、索尼ICD-UX570F、ZoomH1n和其他几款同类产品,旨在通过对比分析,让消费者在选择时更加明智。Zoom H1n则更适合追求音质的用户,但在日常录音需求上可…

2026-01-01