智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

DeepSeek“识图模式”上线测试:从辨物到算命,多模态潜力初显

2026-04-30来源:快讯编辑:瑞雪

近日,DeepSeek平台悄然开启了一项备受瞩目的新功能——识图模式灰度测试。部分幸运用户发现,在DeepSeek首页新增了一个“识图模式”入口,只需上传图片,该系统便能像人类一样理解画面内容,无论是物体识别还是场景分析,都展现出强大的能力,这标志着DeepSeek在多模态领域迈出了重要一步。

多位DeepSeek研究员第一时间在社交平台分享了这一消息。研究员陈德里兴奋地表示,这一功能得益于团队中“天才多模态同事们”的辛勤付出,如今DeepSeek终于拥有了“看见世界”的能力。这一表述引发了众多网友的关注和讨论,大家纷纷期待能够亲身体验这一新功能。

为了验证识图模式的实际效果,我们获得了灰度测试资格并进行了多轮测试。在基础识物测试中,我们上传了一张兔子的照片,DeepSeek迅速识别出兔子的品种,并详细描述了它的姿态,展现出精准的识别能力。随后,我们加大了测试难度,上传了一张杭州灵隐寺的照片。照片中,“灵隐寺”字样仅出现在右下角路灯的草书上,对人类而言也颇具挑战。然而,DeepSeek根据建筑风格和路灯字样,迅速判断出这是灵隐寺,并给出了准确的经纬度信息,生成速度极快,令人印象深刻。

在应对视觉陷阱方面,DeepSeek同样表现出色。我们上传了一张包含视觉错觉的图片,图中物品的摆放容易让人误以为有个人坐在椅子上。但DeepSeek并未被误导,它准确识别出图中的墙面修补痕迹、垃圾收集区和杂物等,展现了强大的视觉解析能力。

DeepSeek的视觉模式还支持深度思考功能。我们上传了一张随手拍的照片,图中没有任何文字参考。开启推理模式后,DeepSeek的视觉能力显著提升。它分步骤拆解画面信息,全面分析前景、中景和背景的所有细节,然后将地标特征与地理区域进行匹配,成功判断出山脉是燕山山脉,建筑风格在北京昌平等郊区很常见,最终将范围缩小到北京昌平区或海淀山后地区,部分猜测与实际位置相差不到10公里。

我们还尝试了有趣的看手相玩法。上传图片后,DeepSeek起初将左手误判为右手,但在实际分析阶段,它对手相形态的描述基本符合事实,分析过程也颇具条理,至于具体内容的可信度,则因人而异了。

此前,DeepSeek虽一直致力于多模态研究,并曾发布开源多模态模型Janus等成果,但始终未在产品中向公众开放多模态能力。此次识图模式的灰度测试,无疑填补了这一空白。随着AI技术的不断发展,多模态内容已成为扩展AI认知世界触角的重要途径,也更贴近人类理解世界的方式。虽然目前识图模式仍处于测试阶段,但它已充分展现了DeepSeek在视觉解析与跨模态推理方面的巨大潜力。