DeepSeek开源OCR 2新模式,机器视觉编码逻辑更像“人类”

DeepSeek开源OCR 2新模式,机器视觉编码逻辑更像“人类”
2026年01月27日 14:38 新浪科技

  新浪科技讯 1月27日下午消息,DeepSeek团队今日《DeepSeek-OCR 2: Visual Causal Flow》论文并开源了DeepSeek-OCR 2模型。据悉,该模型采用创新的DeepEncoder V2架构,实现了视觉编码从固定扫描向语义推理的范式转变,可让AI能够根据图像的含义动态重排图像的各个部分,更接近人类的视觉编码逻辑。

  据悉,在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。在 OmniDocBench v1.5 评测中,其综合得分达到 91.09%,较前代提升了 3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:宋雅芳

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 02-02 易思维 688816 --
  • 01-30 林平发展 603284 --
  • 01-30 电科蓝天 688818 --
  • 01-26 北芯生命 688712 17.52
  • 01-23 世盟股份 001220 28
  • 新浪首页 语音播报 相关新闻 返回顶部