智能日报
业界资讯 智能手机 电脑硬件 平板电脑 智能手表 智能家电 耳机音频 笔记本 热点资讯

DeepSeek开源DeepSeek-OCR:用视觉压缩新招,为长文本处理降本增效

2025-10-21来源:快讯编辑:瑞雪

近日,人工智能领域迎来一项创新成果——DeepSeek团队推出名为DeepSeek-OCR的模型,通过“上下文光学压缩”技术,为大语言模型处理长文档提供了高效解决方案。该模型突破了传统方法对算力和内存的高依赖,为海量文档处理场景开辟了新路径。

当前,大语言模型在处理数千字甚至更长的文本时,计算量呈指数级增长,导致算力成本飙升,成为制约其应用的关键瓶颈。DeepSeek团队从人类视觉系统获取灵感:人类阅读文档时,视觉系统能快速捕捉页面布局、段落结构等关键信息,并进行高效压缩。基于此,团队提出“视觉预处理”思路——将文本渲染为图像,通过视觉模型压缩后,再交由语言模型处理,从而大幅减少输入token数量。

DeepSeek-OCR的核心架构由两部分组成:DeepEncoder(深度编码器)和基于混合专家模型(MoE)的解码器。其中,DeepEncoder融合了SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)两种视觉模型架构。SAM擅长处理局部细节,通过窗口注意力机制捕捉分散的视觉特征;CLIP则依赖全局注意力机制,提取整体知识信息。两者通过16倍下采样的卷积模块衔接,形成“先局部后全局”的处理流程,有效解决了高分辨率图像处理中的内存溢出和token爆炸问题。

解码端采用DeepSeek自研的30亿参数混合专家模型,激活参数为5.7亿。该模型通过动态分配任务至不同专家网络,在保持规模可控的同时,实现了强大的文本还原能力。实验表明,在处理600至1,300个文本token的英文文档时,DeepSeek-OCR仅需64或100个视觉token即可完成处理。当压缩比低于10倍时,OCR解码精度达97%以上;即使压缩比达20倍,准确率仍维持在60%左右。

在OmniDocBench等实际应用场景测试中,DeepSeek-OCR的表现优于同类模型。例如,相较于GOT-OCR2.0(每页256个token)和MinerU2.0(每页超6000个token),DeepSeek-OCR以更少的视觉token达到了业界先进水平。模型通过训练包含图表、化学分子式、几何图形等多样化数据,具备了深度解析能力。例如,它能将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,甚至解析几何图形中的线段关系,为金融、科研、教育等领域提供了新的工具。

目前,DeepSeek已开源该模型的核心代码和权重。据技术报告披露,在生产环境中,单张A100-40G GPU每日可处理超20万页文档数据。不过,模型仍存在局限:当压缩比超过10倍时,性能会因信息损失或图像分辨率降低而下降;在处理极端复杂版面时,解析能力有待提升。OCR任务与多轮对话理解存在本质差异,前者侧重感知和解码,后者涉及推理、记忆检索等复杂认知过程。技术报告指出,未来计划开展数字文本与光学文本交错的预训练实验,并评估长上下文检索的准确性。

尽管如此,DeepSeek-OCR为视觉与语言模态的融合提供了新思路。传统方法通常将两者作为独立输入处理,而该模型表明,视觉与语言可互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话历史渲染为图像,以更低成本管理更长的对话;或将海量知识库压缩为视觉索引,提升知识检索效率。

《时代》周刊权威认证!闪极“唱片三合一移动电源”入选2025年度最佳发明
近日,美国《时代》周刊正式发布2025“年度最佳发明”榜单。闪极推出的“唱片三合一移动电源”凭借创新的工业设计与全场景充电解决方案,成功入选该权威榜单,成为本年度全球消费电子领域引人瞩目的创新产品之一。作

2025-10-22

Wi-Fi 7时代来临,BAW滤波器如何助力无线连接体验升级?
针对国内Wi-Fi7路由器频段需求,可实现精准频段划分与干扰抑制;面向海外6GHz频段应用,产品也通过相关认证,为国产设备出海提供关键元器件支持。 开元通信BAW滤波器成功导入多家头部客户并实现量产,不仅积…

2025-10-22

售价13000元!三星Galaxy XR头显发布 直面苹果Vision Pro高端之争
【CNMO科技消息】10月21日,三星正式发布了其首款混合现实头戴设备——GalaxyXR,官方售价定为1799.99美元(约合人民币13000元),直接瞄准了苹果Vision Pro的高端市场。借助头显的…

2025-10-22

小米YU7 GT纽北赛道再露面,量产在即,设计细节与动力性能引期待
近日,小米YU7 GT再次现身纽北赛道,整体已经接近量产状态,之前SU7Ultra上市后特别受欢迎,比大家预想的还火,这也让小米更确定要推出YU7 GT。 动力方面,参考SU7 Ultra 1548马力的最…

2025-10-22

一加15官宣两大充电黑科技 首发局间补电与旁路供电技术 性能再升级
IT之家 10 月 21 日消息,一加手机官方今日发文预热一加 15 新机,并透露为其带来了两个“黑科技”: 行业首发「局间补电」技术:局间休息10 分钟充会电,能多玩 1.23 小时 行业领先「旁路供电…

2025-10-22

双11邂逅秋景,华为Pura 80 Pro降价1200元,影像实力等你来探
说起今年双11,各家影像手机可以说争奇斗艳,但有一款手机可以说是十分低调的,这就是6月份登场的华为Pura80系列,目前市场表现还没发挥出全部实力。 环顾现在新品影像旗舰,主摄1英寸的,可能还是Pura 8…

2025-10-21

格力为员工发放TOSOT G7手机:由魅族设计生产 底层系统锁定无法刷Flyme
快科技10月20日消息,据媒体报道,多名网友发帖称格力给员工发了手机。一位员工表示,这次发的手机挺好的,内存高,支持5G,感谢公司投喂格力手机,不仅是福利更是底气。据悉,格力给员工发的手机型号是TOSOT …

2025-10-21

苹果iOS26.1等系统Beta4版新增“透明度”选项,提升文字辨识度
IT之家附上相关截图如下:同样,在 Mac 上,用户可以在“系统设置”的“外观”选项中找到这两个相同的设置,该选择将即时在整个系统中生效。 “透明度”模式的影响范围覆盖了整个操作系统。一旦启用,包括工具栏、侧…

2025-10-21

苹果iPhone Air国行版eSIM迎新突破:快速转换功能助力自主换机
对于想要使用的消费者,会显得比较麻烦,并且在未来的更新换代上,也需要进行线下办理。据苹果方面透露,未来将会为国行版机型推出eSIM快速转换功能,国行版iPhone Air用户在手机上激活eSIM后,后续切换设…

2025-10-21

小米中国区市场部总经理换新,魏思琪接棒开启市场新征程
公开信息显示,魏思琪的职业履历与小米发展深度绑定。她于2013年加入小米,早期负责小米官网产品页设计及发布会PPT制作,2018年加入小米CC团队,转向产品设计领域,参与面向年轻用户群体的产品打造;2021…

2025-10-20